LINUX.ORG.RU

C++ парсинг HTML

 , ,


0

2

Решил написать небольшой парсер для некоторых HTML-страничек на старом добром C++. До этого в основном писал на Ruby/JS и привык к тому, что если надо распарсить HTML, то я просто делаю DOM-объект и выбираю нужные элементы с помощью css-селектора, примерно так:

  doc = SuperHtmlLib.parseHtml(html_string)
  doc.css('table#super-table td').each do |el|
    #do something
  end

Хочется чего-то похожего в C++. Смотрел Xerces - как я понял, эта библиотека может только XPath, а хочется именно css-селекторы. Неужели я первый кто хочет такого?

Уважаемые специалисты по плюсам, посоветуйте пожалуйста библиотеку для разбора HTML и работы с полученным DOM-деревом.

в Qt есть. Оно даже работает. Но можешь и сам конечно, если делать нечего.

drBatty ★★ ()

нормальные пацаны выбирают regexp

anonymous ()

XPath это как регулярки, ими надо просто тупо овладеть. И тогда жизнь станет намного проще.

// css селекторы на ура отображаются в xpath. Но не оборот, хе-хе.

anonymous ()
Ответ на: комментарий от anonymous

Нормальные пацаны знают, что html не парсится регекспами

anonymous ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.