LINUX.ORG.RU

[Qt] парсинг HTML


0

1

Написать свой парсер не предлагать, времени нет.

Парсится страница, сильно невалидная, конкретно вот эта http://www.mostransavto.ru/?page=patp&ak=1

QXmlStreamParser валится тут же аж на теге meta с ошибкой, и дальше читать не хочет, даже до таблицы не доходит. Всего-то нужно извлечь данные таблицы.

может, есть какие-то парсеры под HTML, или парсеру можно указать, чтобы он не обращал внимания на ошибки?

спасибо. Язык C++

★★★★

Ответ на: комментарий от rival

о, спасибо, класс на libxml2 весьма недурен. Посмотрим.

pashazz ★★★★ ()
Ответ на: комментарий от annulen

проект ниразу не связан с web, поэтому зависимость от libxml2 более логична, чем от qtwebkit, тем более что я не использую QWebView.

Хотя target-платформа - Windows и нативного libxml2 там нет, я нашел сборки libxml2 для windows: http://www.zlatkovic.com/libxml.en.html

solved

pashazz ★★★★ ()
Ответ на: комментарий от pashazz

поэтому зависимость от libxml2 более логична, чем от qtwebkit

использование парсера XML для разбора HTML вместо парсера HTML ни разу не логична

тем более что я не использую QWebView.

откуда такие стереотипы?

annulen ★★★★★ ()
Ответ на: комментарий от pashazz

впрочем, возникли проблемы с кодировкой в парсере libxml2, поэтому переписал на webkit :)

pashazz ★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.