с++ парсер HTML

0

1

Пишу приложение на C++/Qt, которое будет время от времени делать HTTP запрос на указанный URL, парсить результат и отображать несколько полей из HTML таблицы. Поэтому возникает задача парсинга полученного документа. В Ruby для похожей задачи использовал Nokogiri, подскажите пожалуйста - есть ли что-то похожее в C++? Желательно с минимальным количеством зависимостей и поближе к Qt (если есть какой-то класс из Qt который реализует желаемое - будет совсем круто). Библиотека должна строить DOM дерево из указанной строки и позволять оперировать с HTML-элементами с помощью CSS-селекторов. Это должна быть именно backend библиотека, отобржать полученный html не надо.

Ссылка

← [glade->GtkBuilder xml] конвертирование проекта из 2007 года

[loroogle] [learn] (X)HTML 5 →

ну гугл же епть... Все это есть, и именно в таком виде как ты хочешь.

Jetty ★★★★★
(27.01.12 21:07:52 MSK)

Ссылка

В Qt есть QWebElement из QtWebKit. И QtXml.

schizoid ★★★
(27.01.12 21:36:58 MSK)

Ответ на: комментарий от schizoid 27.01.12 21:36:58 MSK

Причем в QtXml ещё и два варианта парсера.

Kosyak ★★★★
(28.01.12 14:15:27 MSK)

QWebkit :-)

~~r2d2~~
(28.01.12 14:20:19 MSK)

Ссылка

Ответ на: комментарий от Kosyak 28.01.12 14:15:27 MSK

Goganchic
если есть какой-то класс из Qt который реализует желаемое - будет совсем круто

QWebElement

Kosyak
Причем в QtXml ещё и два варианта парсера.

Разве оно умеет парсить HTML, который не является корректным XML документом?

m0rph ★★★★★
(28.01.12 14:29:05 MSK)

Ответ на: комментарий от m0rph 28.01.12 14:29:05 MSK

Наверное, нет.

Kosyak ★★★★
(28.01.12 14:46:12 MSK)

Ссылка

libtidy?

Tanger ★★★★★
(28.01.12 14:54:34 MSK)

Ссылка

Ответ на: комментарий от m0rph 28.01.12 14:29:05 MSK

Разве оно умеет парсить HTML, который не является корректным XML документом?

XMLReader, использующий LibXML, пишется за полчаса. После чего невалидный HTML больше не проблема.

sjinks ★★★
(29.01.12 06:58:25 MSK)

Ответ на: комментарий от sjinks 29.01.12 06:58:25 MSK

А вот что лучше - создавать свой велосипед, который тянет за собой libxml или воспользоваться готовым парсером из QtWebkit - это еще большой вопрос.

m0rph ★★★★★
(29.01.12 12:52:31 MSK)

Ответ на: комментарий от m0rph 29.01.12 12:52:31 MSK

Интересно, что более ресурсоёмко.

sjinks ★★★
(29.01.12 15:17:00 MSK)

http://www.netsurf-browser.org/

там слева список библиотек

anonymous
(29.01.12 15:24:24 MSK)

Ссылка

Ответ на: комментарий от sjinks 29.01.12 15:17:00 MSK

Если критерий ресурсоемкости исключительно память, то думаю решение с libxml2 имеет преимущества, т.к. libQtWebKit весит около 27 Мб, в то время, как libQtXml + libxml2 вместе меньше 2 Мб. Только вот если программе требуется еще и рендерить HTML, то тут вебкит конечно чуть ли не единственный вариант.

m0rph ★★★★★
(29.01.12 16:56:43 MSK)

Ответ на: комментарий от m0rph 29.01.12 16:56:43 MSK

Если критерий ресурсоемкости исключительно память, то думаю решение с libxml2 имеет преимущества, т.к. libQtWebKit весит около 27 Мб, в то время, как libQtXml + libxml2 вместе меньше 2 Мб.

Размер бинарника не имеет ничего общего с потреблением памяти.

annulen ★★★★★
(29.01.12 19:11:54 MSK)

Ответ на: комментарий от annulen 29.01.12 19:11:54 MSK

имеет
меньше размера бинарника потребление не будет, в общем случае

anonymous
(29.01.12 21:39:37 MSK)

Ответ на: комментарий от annulen 29.01.12 19:11:54 MSK

Размер бинарника не имеет ничего общего с потреблением памяти.

Бинарник внутри может содержать секции кода и данных, которые загружаются в память, а следовательно ее потребляют. Конечно там присутствует и служебная информация, но ее количественное отношение ко всему остальному пренебрежимо мало.

m0rph ★★★★★
(29.01.12 21:50:11 MSK)

TagSoup, конечно. http://mercury.ccil.org/~cowan/XML/tagsoup/#taggle порт на с++.

note173 ★★★★★
(29.01.12 21:51:47 MSK)

Ответ на: комментарий от note173 29.01.12 21:51:47 MSK

Хотя это не совсем то, что нужно. Dom можно строить вебкитом.

note173 ★★★★★
(29.01.12 21:56:56 MSK)

Ссылка

Ответ на: комментарий от m0rph 29.01.12 21:50:11 MSK

Из библиотеки в память загружаются только используемые страницы (в случае, если ты с помощью QtWebKit только парсишь хтмл, это будет весьма небольшая часть), а на общий расход влияет не только и не столько размер рагруженных частей бинарника, сколько выделение памяти в куче.

annulen ★★★★★
(29.01.12 22:01:46 MSK)

Ответ на: комментарий от anonymous 29.01.12 21:39:37 MSK

меньше размера бинарника потребление не будет, в общем случае

ты считаешь расход памяти по vmsize, что ли?

annulen ★★★★★
(29.01.12 22:03:24 MSK)

Ссылка

Ответ на: комментарий от annulen 29.01.12 22:01:46 MSK

Из библиотеки в память загружаются только используемые страницы

Еще раз - сначала библиотека загружается ELF-загрузчиком в память, а уже только потом начинает выполняться код, который может выделять память в куче и т.п.

m0rph ★★★★★
(30.01.12 00:03:12 MSK)

Ответ на: комментарий от m0rph 30.01.12 00:03:12 MSK

не загружается, а мапится. man mmap

annulen ★★★★★
(30.01.12 00:36:43 MSK)

Ответ на: комментарий от annulen 30.01.12 00:36:43 MSK

все страницы, к которым идёт интенсивный доступ будут в раме
иначе тормоза
как думаете много ли в такой либе «лишнего» кода, который можно сбросить в своп при её работе
по моим наблюдениям, при линковке с той же glibc, даже при вызове единственной ф-и, навроде memcmp, которая точно не зависит ни от чего в либе
rss процесса составляет немного менее размера /lib64/libc-2.14.1.so
хотя тот же бинарь, слинкованый без libc занимает 4k rss

как объясните?

anonymous
(30.01.12 08:44:20 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← [glade->GtkBuilder xml] конвертирование проекта из 2007 года

Development

[loroogle] [learn] (X)HTML 5 →

Похожие темы