LINUX.ORG.RU

Выгрызание контента из документов.


0

1

В связи с задачкой, фактически сводящейся к написанию своего гугла с шахматами и поэтессами, возник следующий вопрос: как чистить документы (в основном проблема именно с веб-страницами) от ненужной шелухи типа оглавлений, headers && footers, рекламных материалов и баннеров итд. И прежде чем садиться за написание своего велосипеда с квадратными колесами, хотелось бы почитать как другие люди решают эту задачу.

Если у кого есть ссылки, доки или книжки по этой тематике, поделитесь пожалуйста люди добрые ;)

★★★★

В общем случае никак. А в частном случае проще понаписать регулярных выражений под каждый тип страницы (если типов страниц немного), либо повеситься (если много).

thesis ★★★★★
()

под какой лицензией будет продукт?

________________________________________________________

оглавление — это такой <td> (или <div>) в таблице (или последовательности) достаточно верхнего уровня, доля ссылок в котором достаточно велика по сравнению с долей текста

баннеры резать проще всего по базе ад-блока или аналогичной

www_linux_org_ru ★★★★★
()

меня больше интересует именно чистилка страниц от мусора и оглавлений, а не поисковая система (хотя и она тоже)

www_linux_org_ru ★★★★★
()
Ответ на: комментарий от anonymous

Спасибо, обязательно почитаю, судя по описанию там есть нужные моменты.

Nagwal ★★★★
() автор топика
Ответ на: комментарий от vkos

Эммм.. я как-то не нашел у них ни описания алгоритма, ни исходников. Может плохо искал? Завтра на свежую голову еще раз посмотрю.

Nagwal ★★★★
() автор топика
Ответ на: комментарий от Nagwal

Исходники видимо в JS.. Хотя я тоже особо не смотрел. Есть ещё расширение для лисы, основанное на той же технологии, может по его исходникам понять можно, где можно эти исходники смотреть..

vkos ★★
()
Ответ на: комментарий от www_linux_org_ru

под какой лицензией будет продукт?

К сожалению продукт не опенсорс. Может-быть потом какие-то наработки и фреймворки из него и будут выложены в публичный доступ (как гугл выложил свой протобуф, а фейсбук трифт с кассандрой), но далеко не все.

Nagwal ★★★★
() автор топика
Ответ на: комментарий от www_linux_org_ru

А меня как-раз подготовка некоего, в общем случае абсолютно неизвестной структуры, документа к построению по нему индексов для полнотекстового поиска.

Nagwal ★★★★
() автор топика
Ответ на: комментарий от thesis

Типов страниц неопределенно много, так что регулярки не подходят. В кранем случае - весь контент интернета.

Повеситься кстати - тоже не вариант.

Nagwal ★★★★
() автор топика
Ответ на: комментарий от vkos

Исходники видимо в JS..

Да, посмотрел фаербагом - действительно в JS. http://lab.arc90.com/experiments/readability/js/readability.js

Попробую посмотреть что они там наворотили, как только на работе появлюсь (дома читать исходники мне откровенно неохота;) ).

И в любом случае спасибо за ссылку.

Nagwal ★★★★
() автор топика
Ответ на: комментарий от Nagwal

Тогда, в IR-book (см. выше) много чего интересного найдете.

Всегда пожалуйста. goi

anonymous
()
Ответ на: комментарий от vorpal

+100500 для tika, nutch - это нечто другое... tika из open-source самое навороченное, хоть и на яве. но там есть command-line интерфейс

Вот мои постинги (http://alexott-ru.blogspot.com/2010/11/blog-post.html и http://alexott-ru.blogspot.com/2010/11/2.html) на тему форматов файлов микрософт и лекций по ним...

ott ★★★★★
()
Ответ на: комментарий от vorpal

Спасибо за ссылки. Про тику и натч в курсе. Собственно на них примерно сейчас и ориентируемся... Весь рабочий день как-раз про них читал.

Nagwal ★★★★
() автор топика
Ответ на: комментарий от ott

tika из open-source самое навороченное, хоть и на яве. но там есть command-line интерфейс

У нас проект тоже на яве, так что в дданном случае это как-раз плюс ;)

Вот мои постинги (http://alexott-ru.blogspot.com/2010/11/blog-post.html и http://alexott-ru.blogspot.com/2010/11/2.html) на тему форматов файлов микрософт и лекций по ним...

Спасибо за ссылки.

Nagwal ★★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.