В качестве учебного задания при освоении гуи тулкитов решил сделать читалку лора. Изначально решил использовать pygtk, но модуль python-gtkhtml помер, и соответственно отобразить html нет возможности. Конечно можно сделать разбор тегов и более менее похожее форматирование в gtk.textview, но все равно получится фигня. Поэтому я решил сменить тулкит на pyqt.
Руками выдрал одно сообщение из треда, загрузил в QTextBrowser, ссылки кажет, форматирование есть, короче говоря - то, что нужно.
html я решил обрабатывать следующим образом:
Качаем страницы тредов и выкусываем из них минимально необходимый html отдельного сообщения для отображения в QTextBrowser, строим дерево пост-ответ-на-пост и т.д. и отображаем его в QTreeView. При выборе строки в qtreeview берем соответствующий кусок html и отображаем его в QTextBrowser.
Для разбора html я использую lxml, тут то и встает вопрос - как при помощи lxml получить по xpath необходимый кусок сырого html содержащий пост?
Если с lxml не выйдет, то что из родного кутишного позволит осуществить это?