LINUX.ORG.RU

Вопрос про поиск по БД.


0

1

Доброго вам времени суток:)

Задача:

Для своей лисапедной CAT-тулзы (если кто не знает, что это, то вот - http://www.gigatran.ru/translation-memory) нужно запилить поиск. Т.е. есть большая база с записями вида:

предложение на исходном языке : предложение на языке перевода

И вот по этой базе нужно искать варианты предложений на исходном языке наиболее схожие с тем предложением, которое нужно перевести, и выводить варианты перевода этих предложений.

Вопрос:

Подойдут ли для подобной задачи системы поиска, типа Sphinx или Lucene, или лучше заморочиться с собственным двухколёсным, использующего что-нибудь вроде алгоритма шинглов?

Бери люцену, а лучше решения уже поверх нее --- а-ля solr. Формируешь запрос из фразы какую надо перевести — токенизируешьна слова, объединаешь их or и вперед. Но видимо варианты, в которых найдено больше всего исходных слов должны быть выше. Тут уж надо смотреть в люцену или накрайняк сортировать на клиенте люцены.

anonymous
()
Ответ на: комментарий от anonymous

Да я тут даже не про выбор какого-то конкретного движка спрашиваю, а про то, подходят ли вообще подобные инструменты под указанную задачу? Просто как-то до этого использовать не приходилось:)

mega_venik ★★★
() автор топика
Ответ на: комментарий от anonymous

solr - это же не движок сам по себе, а лишь фронтенд, позволяющий обращаться к разным поисковым движкам, насколько я понимаю, разве нет?

mega_venik ★★★
() автор топика
Ответ на: комментарий от mega_venik

А, нет, кажется, хуйню спорол.

А чем оно лучше, к примеру, того же Sphinx или чего-нибудь ещё?

mega_venik ★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.