LINUX.ORG.RU

Проблема с поиском в текстовых документах


0

0

После перехода на linux (Ubuntu 8.04) столкнулся с проблемой поиска в файлах.

Поиск нужен в тексте документов (книги, статьи и т.п.), которых около 100 тыс, в основном это вордовские файлы, pdf, html и т.п. Родные никсовые поисковики Beagle, Tracker - плохо ищут - разве что по названию. Раньше под вендой использовал Google Desktop Search - он за 2-3е суток все это дело индексировал и нормально искал. А тут я ему упорно скармливаю каталоги с доками, он индексирует в лучшем случае 1/10 часть из них. Настройки гугля дефолтные, кроме как паки для индексирования указал и удалил дефолтные места для индексирования там маны и т.д.

Подозреваю может проблема в том, что доки находятся на шифрованном truecrypt разделе, которые подмонтирую после запуска системы, потом включаю гугль - но и под вендой такая же была система. Кстати под вендой кэш индекса я тоже убирал на шифрованный раздел (ручками через реестр прописал путь к ниму). А под никсами в упор не пойму возможно ли это сделать.

Народ ПОМОГИТЕ, что делать...не нехочу я больше венду...а ПОИСК НУЖЕН

Что делал я: doc пропускал через antiword (с rtf не поможет), pdf через pdftotext (на некоторых русских файлах не работало), html по-моему через lynx, djvutxt выдирал внедрённый в djvu текст. Преобразовывал пути к файлу в имя файла, сваливал все текстовые файлы в одну директорию. Затем искал grep-ом.

Скрипты не сохранились :( но они простые.

question4 ★★★★★
()

Воспользуйся каким-нибудь нормальным десктоп-поисковиком, например, strigi, tracker или тем же beagle.

Laz ★★★★★
()
Ответ на: комментарий от Laz

ну tracker вроде тот же beagle - такое ощущение, что они только по заголовкам проходят или по первым страницам документа или мож у них проблемы с русской морфологией ... НЕ ИЩУТ ОНИ (
вроде пишут, что все захавали, а на деле начинаешь искать - результатов 1% от того, что должно быть (

stydent
() автор топика
Ответ на: комментарий от stydent

щас поставил stigi - он вообще с русским языком не дружит (

stydent
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.