LINUX.ORG.RU

Кроммплатформенная библиотека для парсинга HTML

 , ,


0

1

Нужна C или C++ библиотека-парсер HTML для кроссплатформенной проги под Windows и Linux. Пробовал использовать Gumbo Parser от Google, под линуксом всё было норм, я обрадовался, попробовал повторить свой успех на винде — и тупо не смог осилить Cygwin, чтобы его собрать. Очень не хочется много заморачиваться по этому поводу, хочется чего-то просто взять и использовать уже что-нибудь, что более/менее хорошо парсит валидный HTML.

Что посоветуешь, ЛОР? Или, может, научишь запускать autogen.sh от Gumbo Parser под виндой? Или, может, где-то этот Gumbo уже кем-то собранный под винду валяется?

Ответ на: комментарий от tnodir

Тоже что-то не получается. Жалуется на знак «=» в Makefile (я запускаю make под всё тем же Cygwin).

greatperson
() автор топика
Ответ на: комментарий от Dark_SavanT

tagsoup

Быдлокодер же, эта библиотека имеет смысл, если другие (html-conduit / haxml / hxt etc.) не подходят.

anonymous
()
Ответ на: комментарий от Dark_SavanT

говнохтмл без особых проблем

Она же работает с html как со слабоструктирурованным входом. Использование более строгого парсера (когда это возможно) - надежнее. Да и тот же html-conduit: bytesting, attoparsec, blaze-html (для генерирования) - поэффективнее будет.

anonymous
()

libxml2 или аналог, который умеет xquery :-) По хорошему надо разбирать html как xml и работать с ним так-же. Для особо старых и кривых страниз может пригодится tidy..Особо новые и правильные и так имеют отдельный url для данных :)

ps/ еще будет нелишней бейсбольная бита, если «веб-мастер» в зоне досигаемости :)

MKuznetsov ★★★★★
()

webkit же!

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.