Кроммплатформенная библиотека для парсинга HTML

0

1

Нужна C или C++ библиотека-парсер HTML для кроссплатформенной проги под Windows и Linux. Пробовал использовать Gumbo Parser от Google, под линуксом всё было норм, я обрадовался, попробовал повторить свой успех на винде — и тупо не смог осилить Cygwin, чтобы его собрать. Очень не хочется много заморачиваться по этому поводу, хочется чего-то просто взять и использовать уже что-нибудь, что более/менее хорошо парсит валидный HTML.

Что посоветуешь, ЛОР? Или, может, научишь запускать autogen.sh от Gumbo Parser под виндой? Или, может, где-то этот Gumbo уже кем-то собранный под винду валяется?

Ссылка

← Mock REST API для мобильной разработки

В зоопарке 3D API прибыло →

http://www.netsurf-browser.org/projects/hubbub/

tnodir ★
(03.06.14 12:05:54 MSK)

Ответ на: комментарий от tnodir 03.06.14 12:05:54 MSK

Тоже что-то не получается. Жалуется на знак «=» в Makefile (я запускаю make под всё тем же Cygwin).

greatperson ★
(03.06.14 17:48:23 MSK) автор топика

Ссылка

libxml2?

RisuX3 ★
(03.06.14 18:35:59 MSK)

Ссылка

https://hackage.haskell.org/package/tagsoup

УМВР под виндой.

Dark_SavanT ★★★★★
(03.06.14 19:18:26 MSK)

Ответ на: комментарий от Dark_SavanT 03.06.14 19:18:26 MSK

tagsoup

Быдлокодер же, эта библиотека имеет смысл, если другие (html-conduit / haxml / hxt etc.) не подходят.

anonymous
(03.06.14 21:46:08 MSK)

Ответ на: комментарий от anonymous 03.06.14 21:46:08 MSK

А что быдлокодер? Эта либа разобрала вполне себе говнохтмл без особых проблем.

Dark_SavanT ★★★★★
(03.06.14 22:25:31 MSK)

Ответ на: комментарий от Dark_SavanT 03.06.14 22:25:31 MSK

говнохтмл без особых проблем

Она же работает с html как со слабоструктирурованным входом. Использование более строгого парсера (когда это возможно) - надежнее. Да и тот же html-conduit: bytesting, attoparsec, blaze-html (для генерирования) - поэффективнее будет.

anonymous
(04.06.14 13:01:06 MSK)

Ссылка

libxml2 или аналог, который умеет xquery :-) По хорошему надо разбирать html как xml и работать с ним так-же. Для особо старых и кривых страниз может пригодится tidy..Особо новые и правильные и так имеют отдельный url для данных :)

ps/ еще будет нелишней бейсбольная бита, если «веб-мастер» в зоне досигаемости :)

MKuznetsov ★★★★★
(07.06.14 23:40:04 MSK)