Выгрызание контента из документов.

0

1

В связи с задачкой, фактически сводящейся к написанию своего гугла с шахматами и поэтессами, возник следующий вопрос: как чистить документы (в основном проблема именно с веб-страницами) от ненужной шелухи типа оглавлений, headers && footers, рекламных материалов и баннеров итд. И прежде чем садиться за написание своего велосипеда с квадратными колесами, хотелось бы почитать как другие люди решают эту задачу.

Если у кого есть ссылки, доки или книжки по этой тематике, поделитесь пожалуйста люди добрые ;)

Ссылка

← [?]другое ООП для питона

Grails. Пара вопросов. →

В общем случае никак. А в частном случае проще понаписать регулярных выражений под каждый тип страницы (если типов страниц немного), либо повеситься (если много).

thesis ★★★★★
(13.11.10 20:58:14 MSK)

не думаю, что в тему, но в любом случае может быть полезной такая книга

http://www.williamspublishing.com/Books/978-5-8459-1623-5.html

вот она в свободном доступе на английском

http://nlp.stanford.edu/IR-book/information-retrieval-book.html

Чем богаты...

anonymous
(13.11.10 21:01:08 MSK)

Советую посмотреть readability. Хотя не очень понял, что у них там с лицензией и т.п.

http://lab.arc90.com/experiments/readability/

~~vkos~~ ★★
(13.11.10 21:10:53 MSK)

под какой лицензией будет продукт?

________________________________________________________

оглавление — это такой <td> (или <div>) в таблице (или последовательности) достаточно верхнего уровня, доля ссылок в котором достаточно велика по сравнению с долей текста

баннеры резать проще всего по базе ад-блока или аналогичной

www_linux_org_ru ★★★★★
(13.11.10 21:13:58 MSK)

меня больше интересует именно чистилка страниц от мусора и оглавлений, а не поисковая система (хотя и она тоже)

www_linux_org_ru ★★★★★
(13.11.10 21:16:36 MSK)

Ответ на: комментарий от anonymous 13.11.10 21:01:08 MSK

Спасибо, обязательно почитаю, судя по описанию там есть нужные моменты.

Nagwal ★★★★
(13.11.10 21:28:16 MSK) автор топика

Ссылка

Ответ на: комментарий от vkos 13.11.10 21:10:53 MSK

Эммм.. я как-то не нашел у них ни описания алгоритма, ни исходников. Может плохо искал? Завтра на свежую голову еще раз посмотрю.

Nagwal ★★★★
(13.11.10 21:30:42 MSK) автор топика

Ответ на: комментарий от Nagwal 13.11.10 21:30:42 MSK

Исходники видимо в JS.. Хотя я тоже особо не смотрел. Есть ещё расширение для лисы, основанное на той же технологии, может по его исходникам понять можно, где можно эти исходники смотреть..

~~vkos~~ ★★
(13.11.10 21:32:50 MSK)

Ответ на: комментарий от www_linux_org_ru 13.11.10 21:13:58 MSK

под какой лицензией будет продукт?

К сожалению продукт не опенсорс. Может-быть потом какие-то наработки и фреймворки из него и будут выложены в публичный доступ (как гугл выложил свой протобуф, а фейсбук трифт с кассандрой), но далеко не все.

Nagwal ★★★★
(13.11.10 21:33:44 MSK) автор топика

Ссылка

Ответ на: комментарий от www_linux_org_ru 13.11.10 21:16:36 MSK

А меня как-раз подготовка некоего, в общем случае абсолютно неизвестной структуры, документа к построению по нему индексов для полнотекстового поиска.

Nagwal ★★★★
(13.11.10 21:36:25 MSK) автор топика

Ответ на: комментарий от thesis 13.11.10 20:58:14 MSK

Типов страниц неопределенно много, так что регулярки не подходят. В кранем случае - весь контент интернета.

Повеситься кстати - тоже не вариант.

Nagwal ★★★★
(13.11.10 21:38:25 MSK) автор топика

Ссылка

Ответ на: комментарий от vkos 13.11.10 21:32:50 MSK

Исходники видимо в JS..

Да, посмотрел фаербагом - действительно в JS. http://lab.arc90.com/experiments/readability/js/readability.js

Попробую посмотреть что они там наворотили, как только на работе появлюсь (дома читать исходники мне откровенно неохота;) ).

И в любом случае спасибо за ссылку.

Nagwal ★★★★
(13.11.10 21:45:29 MSK) автор топика

Ссылка

Ответ на: комментарий от Nagwal 13.11.10 21:36:25 MSK

Тогда, в IR-book (см. выше) много чего интересного найдете.

Всегда пожалуйста. goi

anonymous
(13.11.10 21:47:36 MSK)

Ссылка

http://nutch.apache.org/ http://tika.apache.org/

Не смотрел эти вещи, но вроде по теме.

vorpal
(13.11.10 22:07:42 MSK)

Ответ на: комментарий от vorpal 13.11.10 22:07:42 MSK

+100500 для tika, nutch - это нечто другое... tika из open-source самое навороченное, хоть и на яве. но там есть command-line интерфейс

Вот мои постинги (http://alexott-ru.blogspot.com/2010/11/blog-post.html и http://alexott-ru.blogspot.com/2010/11/2.html) на тему форматов файлов микрософт и лекций по ним...

ott ★★★★★
(13.11.10 22:19:39 MSK)

Ответ на: комментарий от vorpal 13.11.10 22:07:42 MSK

Спасибо за ссылки. Про тику и натч в курсе. Собственно на них примерно сейчас и ориентируемся... Весь рабочий день как-раз про них читал.

Nagwal ★★★★
(13.11.10 22:24:34 MSK) автор топика

Ссылка

Ответ на: комментарий от ott 13.11.10 22:19:39 MSK

tika из open-source самое навороченное, хоть и на яве. но там есть command-line интерфейс

У нас проект тоже на яве, так что в дданном случае это как-раз плюс ;)

Вот мои постинги (http://alexott-ru.blogspot.com/2010/11/blog-post.html и http://alexott-ru.blogspot.com/2010/11/2.html) на тему форматов файлов микрософт и лекций по ним...

Спасибо за ссылки.

Nagwal ★★★★
(13.11.10 22:25:51 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← [?]другое ООП для питона

Development

Grails. Пара вопросов. →

Похожие темы