html dom parser (+)

0

0

Требуеться
парсер который прожует HTML
и создаст из него dom модель
я на вскидку знаю 2 таких libtidy и libxml
возможно подскажете что-то еще ?

критерий выбора это скорость разбора
и умение нормально разбирать
HTML конченого вида который нагенерен
всякими быдлоскриптами, с незакрытыми
или неправильно закрытыми тэгами,
левыми кусками которые непонятно к чему относяться
и т.д.

в общем если кто-то плотно сталкивался
с подобными задачами раскажите пожалуйста
какие есть либы и какие у них преимущества\недостатки.

Ссылка

← cvs и бранчи

Java SE Framework →

tagsoup http://home.ccil.org/~cowan/XML/tagsoup/

Правда он sax, а не dom, но орентирован как раз на невалидный html

kpanic ★★
(17.03.08 16:12:17 MSK)

Ссылка

>я на вскидку знаю 2 таких libtidy и libxml

А я ещё слышал про мозиллу, вебкит и закрытую оперу.

anonymous
(17.03.08 18:24:01 MSK)

Ответ на: комментарий от anonymous 17.03.08 18:24:01 MSK

мозила тяжеловата будет и довольно тормозная

webkit тоже кажеться совсем не легкий и быстрый

хотя может быть я ошибаюсь ? хотелось бы услышать мнение людей которые имели опыт работы с разными парсерами.

за TagSoup спасибо читаю про него.

anonymous
(17.03.08 19:00:12 MSK)

Ссылка

Для питона (есть порт для руби) http://www.crummy.com/software/BeautifulSoup/documentation.html

anonymous
(17.03.08 19:04:01 MSK)

Ссылка

http://htmlparser.sourceforge.net/

~~Legioner~~ ★★★★★
(17.03.08 20:05:59 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← cvs и бранчи

Java SE Framework →