Требуется использовать какой-нибудь фреймворк или либу для парсинга HTML. Что посоветует великий ЛОР?
Имеется нерегулярный документ HTML, сохраненный, к примеру, с какого-то бложика. Содержащий текст на любом европейском/восточном языке, с/без форматирования, с/без ошибок в тегах, с/без прочим информационным мусором. Браузеры (webkit, в частности) его отображают нормально.
Требуется распарсить документ, вытаскивая из него строки отображаемого текста, например в виде абзацев/параграфов. Модифицировать эти строки, затем обратно вставлять их в текст. Требуется это делать не разрушая форматирование, хотя бы сохраняя его с точностью до границ выдранных параграфов.
Можно что-то, что будет загружать документ в дерево DOM, можно иные инструменты - неважно.
Пишется всё на c++ с qt4. Пробовал с qt-шным webkitом - не получается с ним анализировать все документы. Особенно где текст тупо набран и сверстан без использования div, span и p.