LINUX.ORG.RU

Внешний поиск


0

0

Нужна программа типа слудующих:
KWebGet provides a graphical interface for wget
Khttrack is an offline web browser

Но с дополнительными функциями:
- выкачивание сайтов по списку критериев (и просто по списку)
- выкачка целиком всех сайтов,
на которых высока встречаемость ключевых слов
(должен сам искать сайты где хочет, например в гугле)
- отфильтровывание дорвеев
- по возможности перевод текстов через какие-нибудь
сервисы (для поиска на других языках)
- последующий локальный поиск с расширенным языком запросов
(с учетом русской морфологии)
- создание отметок на скачанных страницах (аннотирование)

Т.е. она должна составлять базу текстов по предметной области
и позволять ее анализировать (в идеале -
еще и с редактором модели предметной области
с провязкой на скачанные тексты)

Ответ на: комментарий от k0l0b0k

Нужна еще тулза, типа репозитория, где хранить результаты анализа, который сделают веблансеры. Требования к этой тулзе я и выписал.

ArsenShnurkov
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.