parser html

Доброго времени суток!

Хочу распарсить сайт http://msdn.microsoft.com
Нужно быврать названия функции, переменные, атрибуты,...
Наприме, в SDK в mshtml.h нет полной информации.
Для этого на python-е нашел beautifulsoup и soupselect.
Может есть какой то способы сделать это проще? Может есть какие то готовые программы для этого?

Заранее огромное спасибо.

Ссылка

← gtk_notebook ошибка

Open System Architect , нуб вопрос →

tidy?
Оно есть на питоне?

Tanger ★★★★★
(23.05.11 18:20:35 MSK)

Ответ на: комментарий от Tanger 23.05.11 18:20:35 MSK

Но я, когда парсил некий быдлосайт (не будем показывать пальцем на ~~samlib.ru), долго его парсил, вроде заработало.. и..~~
Падало, если автор хотел себе «красивую» страничку и пихал <center> в «сведенья об авторе», который так и не закрывался до конца страницы. в результате за 2 дня написал регэксп и доволен.

xhtml - true.

Tanger ★★★★★
(23.05.11 18:24:40 MSK)

Ответ на: комментарий от Tanger 23.05.11 18:24:40 MSK

в результате за 2 дня написал регэксп и доволен

Месье уверен, что следует пытаться распознавать конечный автоматом контекстно-свободную грамматику?

ugoday ★★★★★
(23.05.11 18:29:44 MSK)

/me использует lxml и scrapy

ei-grad ★★★★★
(23.05.11 18:32:00 MSK)

Ссылка

Ответ на: комментарий от ugoday 23.05.11 18:29:44 MSK

ИМХО, там это и нужно делать.

Tanger ★★★★★
(23.05.11 18:32:15 MSK)

Ответ на: комментарий от Tanger 23.05.11 18:32:15 MSK

Почему ты так думаешь?

ugoday ★★★★★
(23.05.11 18:39:26 MSK)

Ответ на: комментарий от ugoday 23.05.11 18:39:26 MSK

А какие есть предложения?

Tanger ★★★★★
(23.05.11 18:42:21 MSK)

Ответ на: комментарий от Tanger 23.05.11 18:42:21 MSK

Распознавать контекстно-свободную грамматику парсером контекстно-свободных грамматик, вестимо.

ugoday ★★★★★
(23.05.11 18:45:34 MSK)

Ответ на: комментарий от ugoday 23.05.11 18:45:34 MSK

каким?

Tanger ★★★★★
(23.05.11 18:47:22 MSK)

Ответ на: комментарий от Tanger 23.05.11 18:47:22 MSK

Их как грязи. Откуда ж я знаю какой из них будет лучше в твоих условиях.

ugoday ★★★★★
(23.05.11 18:51:24 MSK)

Ссылка

ugoday дело говорит, используй специализированные инструменты типа lxml. регекспы это круто и хорошо, но не для парсинга нерегулярных грамматик.

alienclaster ★★★
(23.05.11 19:17:48 MSK)

Ссылка

Ответ на: комментарий от Tanger 23.05.11 18:24:40 MSK

Ты не в Бангалоре живешь, случаем?

http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml...

anonymous
(23.05.11 19:28:36 MSK)

Ответ на: комментарий от anonymous 23.05.11 19:28:36 MSK

Я не парсю html. Мне нужно было достать от туда часть контента.

Tanger ★★★★★
(23.05.11 19:32:48 MSK)

Ответ на: комментарий от ugoday 23.05.11 18:29:44 MSK

fail. s/дня/часа/

Tanger ★★★★★
(23.05.11 19:33:42 MSK)

Ссылка

Ответ на: комментарий от Tanger 23.05.11 19:32:48 MSK

Это и есть «парсить». Только идиоты достают «часть контента» из HTML или XML регэкспами.

anonymous
(23.05.11 19:51:55 MSK)

Ответ на: комментарий от anonymous 23.05.11 19:51:55 MSK

Из xml да, а html - быдло. Я пробовал использовать tidy, пробовал писать сам. Вот xhtml - другое дело, но он не особо много где есть..

Tanger ★★★★★
(23.05.11 19:57:37 MSK)

Для вас всех придумали html5lib, а вы его даже в треде не упомянули.

А он, между прочим, умеет разные интерфейсы, например ElelmentTree (через питоновский вариант и через lxml) и даже minidom.

Может есть какой то способы сделать это проще?

Вот проще elementtree и minidom нет ничего.

anonymous
(23.05.11 19:58:51 MSK)

Ответ на: комментарий от anonymous 23.05.11 19:58:51 MSK

Странно, что HTMLUnit никто не упомянул

anonymous
(23.05.11 20:36:05 MSK)

Ссылка

Ответ на: комментарий от Tanger 23.05.11 19:57:37 MSK

> Из xml да, а html - быдло

Вот xhtml - другое дело, но он не особо много где есть..

Что-то я могу сходу понять в чем проблема. Не смогли осилить ни один из существующих невалидирующих html-парсеров?

archimag ★★★
(23.05.11 21:23:45 MSK)

Ответ на: комментарий от archimag 23.05.11 21:23:45 MSK

Можно примеры?
И как в них все выглядит?
Мне удобна древовидная структура, но с невалидирующими я не очень представляю, адекватно ее составить.

Tanger ★★★★★
(23.05.11 21:26:31 MSK)

Ответ на: комментарий от Tanger 23.05.11 21:26:31 MSK

> но с невалидирующими я не очень представляю, адекватно ее составить.

Они сами составляют всё тот же DOM, от тебя ничего особо и не требуется. http://xmlsoft.org/html/libxml-HTMLparser.html - парсер из состава libxml2, та же lxml, кстати, на базе libxml2, так что в ней соответствующие возможности есть.