LINUX.ORG.RU

Сравнение индексаторов для локального поиска


0

0

Сотрудники Sun corp. Michal Pryc и Xusheng Hou опубликовали подробнейший отчет о тестировании четырех индексаторов для настольных компьютеров. Лидеры - Beagle и Strigi, первый - более зрелый, а следовательно обладает хорошим интерфейсом, документирован и поддерживает множество файловых форматов, однако он использует много ОЗУ и тянет mono. Strigi в 15 раз более экономный до памяти, быстрее индексирует (используя при этом больше процессорного времени), но пока еще довольно сырой.

>>> Подробности

★★★★★

Проверено: JB ()

Е-мое, вы что русского не понимайт, переводчики?
Кто тут кого утилизирует, буратины? Лень в лингво заглянуть?

anonymous
()
Ответ на: комментарий от anonymous

=)
не ну а как же? конечно утилизирует! вот один раз проиндексировал, и всё, пол проца выгорело. ещё раз (если с нуля) и можно в утиль. только утилизировать всё же придётся самому. так что всё равно косяк перевода на лицо =)
короче в утиль таких переводчиков. не возможно понять на какой язык они переводят. уж не на русский это точно.

yopt
()

Beagle - первое что я выдрал из свежеустановленой суси.... Эта зараза сразу ползла чего-то искать на жестком диске... минут через 10 мне это надоело и я выдрал ее с корнем...

IMHO эта хрень нужна только тем, кто не может следить за своими документами...

anonymous
()
Ответ на: комментарий от anonymous

> IMHO эта хрень нужна только тем, кто не может следить за своими документами...

+1. нефиг устраивать файлопомойку на винте.

isden ★★★★★
()
Ответ на: комментарий от pento

Тем, кто не может следить за документами нужен каталогизатор.. внятных решений я не видел с момента исчезновения "Дел в порядке".. ни под винду ни под *nix

anonymous
()

бигль пробовал - странная вещь. мне - не нужно, кому-то - возможно. стриги пробовал - ещё более странная вещь, как она ищет, я так и не понял :( . а вот recoll мне понравился. он ищет не только документы по фразе, но может потом искать _внутри_ документа. для меня это было необходимо. тоже не без недостатков, но им _я_ могу работать, в отличие от. кому-то возможно наоборот.

mic ★★★★★
()
Ответ на: комментарий от anonymous

dwww в Debian давно решает проблему поиска по /usr/share/doc, info и man

anonymous
()
Ответ на: комментарий от anonymous

> Помойка уже есть в виде каталога /usr/share/doc :)

grep ? :)

> да поиск по манам и инфо - совсем непомешает.

попробуйте:
whatis или man -f
apropos или man -k

Eshkin_kot ★★
()
Ответ на: комментарий от isden

вы видели документы на компьютере работающего юриста? я от этой каши был в ужасе. Много клиентов, много дел, много бумажек в электронном виде. Даже если хранить все строго по папкам в соответствии с классификацией документов, через некоторый период времени их плодится сто-о-олько! Вот и востребованы такие системы (индексации и поиска).

anonymous
()

Стараюсь хранить свои файлы структуризировано, а посему пока вполне хватает locate + update + grep :).

kondor ★★★
()
Ответ на: комментарий от kondor

Много ты в pdf и ps файлах на-grep-ишь?
Мне лично проще запустить tknamazu и открыть нужный документ через браузер, чем рыться в файл-манагере.

geekkoo
()
Ответ на: комментарий от mic

>а вот recoll мне понравился. он ищет не только документы по фразе, но может потом искать _внутри_ документа

Так beagle тоже внутри ищет.

Tigro ★★
()
Ответ на: комментарий от geekkoo

> Много ты в pdf и ps файлах на-grep-ишь?

Еще раз: файлы довольно четко рассортированы и имеют довольно understandable имена, и поэтому, _пока_ у меня такой задачи, как проиндексировать все и вся у себя на HDD не возникало. Возникнет, обязательно подумаю об использовании этих индексаторов.

kondor ★★★
()
Ответ на: комментарий от geekkoo

namazu - это хорошо, но вот когда он встречает документы в utf-8, то радостно портит свою базу. Так что пришлось перейти на xapian-omega

anonymous
()

А как beagle заставить искать внутри doc-ов? Catdoc специально поставил.

annoynimous ★★★★★
()
Ответ на: комментарий от anonymous

Хе...

Если натравить систему поиска на "помойку", то после поиска получим тоже "помойку", но размерами поменьше... хорошо если в итоге поиска получим лишь несколько документов...

Так что упорядочивание документов нельзя на 100% заменить системой поиска... А поиск обычно нужен в каких-то редких случаях... так стоит ли ради этих редких случаев держать у себя целый сервис + индексную базу...

anonymous
()
Ответ на: комментарий от anonymous

> вы видели документы на компьютере работающего юриста? я от этой каши был в ужасе. Много клиентов, много дел, много бумажек в электронном виде. Даже если хранить все строго по папкам в соответствии с классификацией документов, через некоторый период времени их плодится сто-о-олько! Вот и востребованы такие системы (индексации и поиска).

Бигля фтопку, моно фтопку, юристов туда же. Одни проблемы от них, в 15 раз больше времени требуют, чем нативные решения. Нафиг такое костылестроение.

Gharik
()
Ответ на: комментарий от Tigro

>Так beagle тоже внутри ищет.

это не то. бигль определяет вхождение - и всё. а я и так знаю, в каком документе, мне, все вхождения нужны - задача другая, многолистовой ods вручную запаришься перебирать

mic ★★★★★
()
Ответ на: комментарий от yopt

новость сочинял сам, по мотивам отчета и сообщения из блог-ленты (Шишков прости !!), там резюмов не было, т.к. лента кдешная было только "strigi в 15 раз легче !!"

Syncro ★★★★★
() автор топика
Ответ на: комментарий от anonymous

>Если натравить систему поиска на "помойку", то после поиска получим тоже "помойку", но размерами поменьше... хорошо если в итоге поиска получим лишь несколько документов...

У меня база ScrapBook (est. 1.5 гига) проиндексирована биглем. Годится в качестве эталонной "помойки"? :) На таких объемах, лазить по ней средствами самого ScrapBook абсолютно невозможно, ибо тормозит как сволочь и времени на постоянную сортировку этого хлама по "папкам" тоже жалко.

А вот с биглем, я нахожу нужную инфу мгновенно, а потом открываю в любом браузере, хоть в фоксе, хоть в конке с оперой -- структура страничек-то не испорчена.

bigc ★★
()

Да, и в честь чего они CMAKE записали в недостатки Strigi?

bigc ★★
()
Ответ на: комментарий от Gharik

>Бигля фтопку, моно фтопку

Бигль даже не от моно такой тормозной, ИМХО. В ДНК это у него. Другие моновые проекты куда шустрее, а этот просто мельничный жернов на шее у системы, тае его разэдак.

>Одни проблемы от них

А вот это у кого как :)

>юристов туда же

+1 :)

bigc ★★
()
Ответ на: комментарий от anonymous

>Тем, кто не может следить за документами нужен каталогизатор

Это типа по метаданным, что ли? Не ну нах, если музыка и даже фотки таким образом упорядочивается на раз, то гора доков или паче того исходников потребует нехилого объема ручного труда.

bigc ★★
()
Ответ на: комментарий от kondor

Народ, а что вы так бигль не любите? Классная вещь - ищет везде где можно, в почтовых сообщения, в документах, в хистори браузера, и так далее... Ф12 и через 3 секунды у меня 6...10 ссылочек на документы которые мне нужны - простое перебирание их всех занимает и то больше времени (пока по папкам полазишь, пока в почтарь заглянешь, пока в браузер, пока в хистрои аськи и так далее) А тут раааз! и все - выбрал потом что надо и смотри. Ну делает он свою метабазу или что-там (мне вообще по барабану чтоон там делает) - у вас на винте все рано куча инфы6 куча мусора, или не мусора - вас что жаба давит эти лишние полтора гига занять чтоли? все равно вы за них уже заплатили6 чего они пустуют? Насчет тормозов - не тормозит он вообще, по карйней мере на сусе 10.2 (на fc6 тоже кстати) А в макоси Spotlight так ваще супер вешь - вот когда бигль интергрируют на столько же в гном и в кде - ваще супер будет!

atheist
()
Ответ на: комментарий от anonymous

>вы видели документы на компьютере работающего юриста? я от этой каши был в ужасе.

И не говорите :) Я их не просто видел, а вижу каждый день :) beagle существенно помогает в этом бардаке чего-то раскопать. Единственная проблема - паршивенько индексирует и ищет по сравнению со Spotlight в MacOS. Будем надеяться, что это изменится к лучшему. Остальные указанные "индексаторы" фтопку, потому как сырость.

>Бигля фтопку, моно фтопку, юристов туда же.

Аффтар, убей сибя апстену. Это я тебе как юрист долб...бу говорю :)

anonymous
()
Ответ на: комментарий от anonymous

Изыди, кровосос неграмотный, все USA и прочие басурманские страны какой век стонут от ярма вами придуманных патентов, кои делают невозможным прогресс и все хорошее.

Gharik
()
Ответ на: комментарий от atheist

>что вы так бигль не любите?

Ну я вот, к примеру, очень даже люблю, пользуюсь давно уже. Однако хорошо вижу ворох недостатков и на заявления вроде:

>не тормозит он вообще

не решился бы, все-таки.

bigc ★★
()
Ответ на: комментарий от atheist

>Народ, а что вы так бигль не любите?
За его глючность и не любим! Вот в Ubuntu Edgy он до сих пор отжирает CPU в диких количествах. В 0.2.14 вроде починили, но бэкпортов из Fiesty ещё нету :(
Приходится вручную ему renice делать.

anonymous
()
Ответ на: комментарий от anonymous

>Это я тебе как юрист долб...бу говорю :)

Как твой адвокат советую тебе... (C) Хантер Томас

bigc ★★
()
Ответ на: комментарий от bigc

> ...не тормозит он вообще не решился бы, все-таки.

На моей средненькой тачке не тормозил, работал нормально. Конечно когда он индексирует первый раз - там да - есть тормоза - но это 1 раз только происходит когда он мою файлопомойку обрабатывал..

atheist
()
Ответ на: комментарий от atheist

Если оборот данных небольшой, может и не очень заметно тормозит. У меня, что на рабочих тачках, что на домашней -- отжирает ресурсы очень прилично, на пару с ФФ и амароком, например. Однако, альтернатив биглю пока нет, для меня по крайней мере.

bigc ★★
()
Ответ на: комментарий от anonymous

>>вот когда он встречает документы в utf-8, то радостно портит свою базу.

Когда это было? Namazu японская программа и странно было бы ожидать от японцев такого беспечного отношения к UTF. Хотя года 2 назад они, судя по Гуглю, фиксили какие-то проблемы с UTF. Может с этим связано?

geekkoo
()
Ответ на: комментарий от geekkoo

Вот блин велосипед сделали. Нет, чтобы Front End к имеющимся стандартным утилитам... find, grep и т.д. ...

Всё это в консоли уже очень давно есть.

P.S.

Нужен будет мне оконный индексатор - напишу на Tcl/Tk

Quasar ★★★★★
()
Ответ на: комментарий от geekkoo

Ну я проверял на 2.0.14. html с utf-8 (локаль cp1251 или utf-8) индексировался с незначительной руганью, но индекс получался кривой - в лучшем случае выдаваемые заголовки документов не соответствовали реальным, в худшем - вообще ничего не находилось. В файлах из "нехороших" символов были только альфы и беты (взял с orgsyn.org).

Где-то в списках рассылки видел, что namazu рассчитывался только на EUC-JP и работа в любых других кодировках не гарантируется.

anonymous
()
Ответ на: комментарий от Quasar

>>Вот блин велосипед сделали. Нет, чтобы Front End к имеющимся стандартным утилитам... find, grep

Ты эта... Закусывай, однака...
Namazu - это такой поисковый движок довольно не новый. Многие сайты его используют для локального поиска. Tknamazu - это GUI-морда для этого движка, тоже весьма не новая. Где тут велосипед?

>>Всё это в консоли уже очень давно есть.

Ну, юзай namazu непосредственно из консоли, а хочешь не юзай, я ж не заставляю.

>>Нужен будет мне оконный индексатор - напишу на Tcl/Tk

И эти люди учат японцев как правильно строить велосипеды!

geekkoo
()
Ответ на: комментарий от Gharik

>Изыди, кровосос неграмотный, все USA и прочие басурманские страны какой век стонут от ярма вами придуманных патентов, кои делают невозможным прогресс и все хорошее.

Дурачина, не путай наемного работника (юриста), качественно выполняющего свою работу, но не принимающего решений, с теми, от кого ты стонешь, кто твой прогресс делает невозможным и лишает тебя всего хорошего в жизни. Подсказываю, это РАЗНЫЕ люди. Те, которых ты не любишь, называются, вероятно, политики. Так что давай мириться, долб...б :)

anonymous
()
Ответ на: комментарий от mic

>он ищет не только документы по фразе, но может потом искать _внутри_ документа.

dtSearch попробуй и Lucene

anonymous
()
Ответ на: комментарий от mic

>он ищет не только документы по фразе, но может потом искать _внутри_ документа.

dtSearch попробуй и Lucene

anonymous
()

А я снес этот бигль, потому что у него была идиоцкая привычка проводить индексирование именно в те моменты, когда я игрался в XMoto. )))

h8 ★★★
()

А почему так мало индексаторов в тесте? Их же на порядок больше.
Где OpenFTS, Estraier, htdig, Swish, Mnogosearch?

annonymous ★★
()
Ответ на: комментарий от annonymous

>>А почему так мало индексаторов в тесте?

В название статьи, видимо, вкралась ошибка. Правильнее было бы назвать ее - Тестирование возможностей пользовательских интерфейсов к индексационному движку Lucene.

geekkoo
()
Ответ на: комментарий от anonymous

>dtSearch попробуй и Lucene

а зачем? меня recoll вполне устраивает. _действительно_ лучше работала бы база данных, но лень возиться. поисковик этот нужен один-два раза в месяц, по-этому и так сойдет.

mic ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.