Какой предложите способ для вырезки текста статьи из html страницы?

0

2

Доброго времени всем! По работе возникла необходимость вырезать из html страницы тексты. На вход алгоритму подается html код содержащий текст статьи, в тексте статьи могут быть html теги, но их не так много как за границами данного текста. Нельзя опираться на шаблоны html кода, которые могут показать где начало, а где конец текста, т.е. формат страницы заранее не должен быть известен алгоритму. Пока в голову приходит только libpcre, но вот какой шаблон подобрать чтобы все было так универсальненько я пока не додумался. Если есть идеи или ссылки на код реализующий подобный алгоритм то оставляйте, буду очень благодарен за помощь, да и потомки думаю тоже спасибо скажут =)

Ссылка

← сборка со своим .po файлом

Кластер Torque+Maui: как использовать для разработки на R? →

s/<[^>]*>//

schizoid ★★★
(13.02.12 15:35:13 MSK)

Ссылка

w3m -dump / что-нибудь вроде scrapy / прокси (html -> xhtml) + xslt

libpcre

смишно

anonymous
(13.02.12 16:04:18 MSK)

Бери одну из реализаций readability. Даёт приличный результат, хоть и не всегда.

http://code.google.com/p/arc90labs-readability/

Вот, например, вполне рабочая версия для питона: https://github.com/gfxmonk/python-readability

Есть реализации для других языков, гугл в помощь.

anonymous
(13.02.12 16:16:54 MSK)

Ответ на: комментарий от anonymous 13.02.12 16:04:18 MSK

scrapy для питона как я понял, вроде штука неплохая, но это всетаки фреймворк для построения парсера, а мне нужен именно алгоритм вырезки большого текста из страницы.

Прокси тоже не выход, алгоритму ведь заранее не известен формат страницы, какие в ней есть блоки и т.п. Или есть функционал о котором я не знаю и задачу можно решить при помощи xslt?

Почему libpcre смишно? =)

Seraph ★
(13.02.12 16:27:09 MSK) автор топика

Ответ на: комментарий от anonymous 13.02.12 16:16:54 MSK

Что - то слегка погуглив не совсем понял назначения этой штуки, в чем оно?

Seraph ★
(13.02.12 16:29:21 MSK) автор топика

Ответ на: комментарий от Seraph 13.02.12 16:29:21 MSK

Что - то слегка погуглив не совсем понял назначения этой штуки, в чем оно?

Вырезает «основной» текст из страницы, придумано для удобства чтения. Там в комплекте к питоновской версии есть консольная утилита вроде как, попробуй.

По собственному опыту - на стандартных страницах (текст, header, боковые блоки и footer) не ошибается почти никогда. На форумах ошибается часто, и оставляет только первое сообщение в треде.

anonymous
(13.02.12 16:44:18 MSK)

Ответ на: комментарий от anonymous 13.02.12 16:44:18 MSK

Спасибо, вроде почти то что мне и было нужно, еще бы было оно в исходниках на Си, ато переписывать ой как лень)

Seraph ★
(13.02.12 17:07:18 MSK) автор топика

Ответ на: комментарий от Seraph 13.02.12 17:07:18 MSK

Спасибо, вроде почти то что мне и было нужно, еще бы было оно в исходниках на Си, ато переписывать ой как лень)

Я добрый, потому поработаю заменителем гугла. Но только один раз!

https://github.com/fiam/readable

Только там AGPLv3.

anonymous
(13.02.12 17:22:29 MSK)

Ответ на: комментарий от anonymous 13.02.12 17:22:29 MSK

Низкий Вам поклон, целую в пятки! Это то что мне нужно!

Seraph ★
(13.02.12 17:42:09 MSK) автор топика

Ссылка

links -dump

выдаст текстовую составляющую страницы. Но это только если страница не ajax :)

другой способ - WebKit в котором отработают все скрипты страницы, а после того ручной проход по DOM дереву, с запросом результатов рендера и генерация (через tex очевидно) блоков текста. Но это @опа - только если есть навалом времени и бюджет IDKFA

А авторам сайтов с текстами, не мешало-бы правильные шаблоны делать под media=print.

MKuznetsov ★★★★★
(13.02.12 20:21:06 MSK)

Ссылка

Ответ на: комментарий от Seraph 13.02.12 16:27:09 MSK

Почему libpcre смишно? =)

re - на уровне конечного автомата, языки разметки, емнип - контекстно-свободной грамматики.

anonymous
(13.02.12 23:15:25 MSK)

Ссылка

Ответ на: комментарий от Seraph 13.02.12 16:27:09 MSK

но это всетаки фреймворк для построения парсера, а мне нужен именно алгоритм вырезки большого текста из страницы

была оговорка _что-нибудь вроде_, может вам вообще xpath хватит.

Прокси тоже не выход, алгоритму ведь заранее не известен формат страницы, какие в ней есть блоки и т.п.

Прокси тут только чтобы на выходе был валидный xhtml.

anonymous
(13.02.12 23:20:29 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← сборка со своим .po файлом

Development

Кластер Torque+Maui: как использовать для разработки на R? →

Похожие темы