LINUX.ORG.RU

Вроде многие HTML-парсеры умеют результат парсинга выплюнуть в виде XML. Только это все не очень хорошее решение. Лучше парсь HTML и не парь мозг, проще будет.

dizza ★★★★★ ()

>use case: ну, например, выцепить линки через `xmllint'

Ты хочешь HTML парсер, который умеет XPath-подобные штуки.

Deleted ()

Прокси.

import sys
from lxml import etree

root = etree.parse(sys.stdin, etree.HTMLParser())
print etree.tostring(root, encoding='utf8', pretty_print=True, method='xml')
baverman ★★★ ()
Ответ на: комментарий от baverman

Спасибо... Но так и я умею, на данном этапе интересует что-нибудь более готовое (скажем, с логами и демонами), какие подводные камни могут быть etc, определиться: хотелка просто странная или еще и ненужная.

n01r ★★ ()
Ответ на: комментарий от Deleted

> Ты хочешь HTML парсер, который умеет XPath-подобные штуки.

Чем строже источник, тем меньше ограничений на допустимые преобразования.

xslt можно вспомнить. Так взял бы просто тот же `scrapy'.

n01r ★★ ()

Qt WebKit для получения DOM, а транслятор DOM->XML напишешь сам

stevejobs ★★★★☆ ()
Ответ на: комментарий от n01r

интересует что-нибудь более готовое (скажем, с логами и демонами), какие подводные камни могут быть etc.

O_o.

хотелка просто странная или еще и ненужная.

Именно. Это просто xml парсер, какие логи, какие демоны?

baverman ★★★ ()
Ответ на: комментарий от baverman

> Это просто xml парсер, какие логи, какие демоны?

Вам напомнить как изначально озвучивался желаемый функционал?

n01r ★★ ()
Ответ на: комментарий от n01r

Когда это на лоре давали дельные советы по решению странных проблем? Мы же добра желаем, а лишние костыли до него не доведут. Тем более предпосылки продемонстрированы не были.

baverman ★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.