Apache Lucene & Solr 3.5.0

0

1

Вышла новая версия библиотеки полнотекстового поиска Apache Lucene и построенного на ней поискового сервера Apache Solr.

Основные изменения в Lucene:

Существенное уменьшение объема оперативной памяти, используемого для хранения словарного индекса (LUCENE-2205)
Ускорение поиска по n-gramm'ам (LUCENE-3426)
Несколько новых API, упрощающих многопоточную работу с индексом
Поддержка wildcard запросов в модуле выделения найденного в результатах поиска
Различные багфиксы

Основные изменения в Solr:

Группировка результатов при распределенном поиске
Новый дополнительный стеммер "Hunspell" с поддержкой 99 языков
Дополнительный модуль для определения языка исходного текста, использующий детектор из Apache Tika или библиотеки Cybozu
Добавлен флаг, задающий положение пустых значений при сортировке - в начале списка или в конце
Различные багфиксы

>>> Подробности

Ссылка

←	Linux Mint 12 «Lisa»

Bluetile 0.6

→

Они пофиксили работу на седьмой яве уже?

Nagwal ★★★★
(27.11.11 11:16:26 MSK)

И это хорошо.

anonymous
(27.11.11 11:19:53 MSK)

Ссылка

Ответ на: комментарий от Nagwal 27.11.11 11:16:26 MSK

Oracle пофиксил 7u1

maxcom ★★★★★
(27.11.11 11:20:18 MSK) автор топика

Ответ на: комментарий от maxcom 27.11.11 11:20:18 MSK

Т.е. баг все-таки в jdk был?

А то мне сейчас по работе не нужен апач с солром, не разбирался особо кто там виноват.

Nagwal ★★★★
(27.11.11 11:30:58 MSK)

Ответ на: комментарий от Nagwal 27.11.11 11:30:58 MSK

> Т.е. баг все-таки в jdk был?

Да, кстати он и в jdk 6 был с некоторыми опциями -XX, но там они выключены по-умолчанию

maxcom ★★★★★
(27.11.11 11:31:56 MSK) автор топика

Ссылка

Чем оно лучше Sphinx?

anonymous
(27.11.11 11:32:04 MSK)

Ответ на: комментарий от anonymous 27.11.11 11:32:04 MSK

В Lucene гораздо больше возможностей

maxcom ★★★★★
(27.11.11 11:32:53 MSK) автор топика

Ссылка

Различные багфиксы

Надо посмотреть повнимательнее

mikhalich ★★
(27.11.11 11:36:38 MSK)

Ссылка

Ответ на: комментарий от anonymous 27.11.11 11:32:04 MSK

в 3 раза больше жрёт оперативки...

qbbr ★★★★★
(27.11.11 12:04:26 MSK)

Ответ на: комментарий от anonymous 27.11.11 11:32:04 MSK

Как недавно на ЛОРе выясняли, Сфинкс найти Януковича по запросу «якунович», а Люцена умеет.

Ingwar ★★★★★
(27.11.11 13:03:10 MSK)

Ответ на: комментарий от qbbr 27.11.11 12:04:26 MSK

Да ладно.

Ingwar ★★★★★
(27.11.11 13:03:39 MSK)

Можно ли сабж быстро заставить работать в режиме «съел текст - выдал лексемы, ничего не сохраняя»?

shahid ★★★★★
(27.11.11 14:42:58 MSK)

Ответ на: комментарий от shahid 27.11.11 14:42:58 MSK

Можно ли сабж быстро заставить работать в режиме «съел текст - выдал лексемы, ничего не сохраняя»?

если ты стемминг имеешь в виду, то запросто ;)

real_maverick ★★★
(27.11.11 15:17:07 MSK)

Ответ на: комментарий от real_maverick 27.11.11 15:17:07 MSK

а язык текста перед стеммингом определить может?

shahid ★★★★★
(27.11.11 15:23:08 MSK)

Ответ на: комментарий от shahid 27.11.11 15:23:08 MSK

а язык текста перед стеммингом определить может?

Естественно, иначе как стеммить? :)

nebm51 ★
(27.11.11 15:34:50 MSK)

Ответ на: комментарий от nebm51 27.11.11 15:34:50 MSK

> Естественно, иначе как стеммить? :)

Последний раз, когда её ковырял, язык надо было задавать самому.

shahid ★★★★★
(27.11.11 15:37:34 MSK)

Ответ на: комментарий от Ingwar 27.11.11 13:03:39 MSK

протисти, и я вступлю в беседу

qbbr ★★★★★
(27.11.11 15:39:58 MSK)

Ответ на: комментарий от shahid 27.11.11 15:37:34 MSK

Последний раз, когда её ковырял, язык надо было задавать самому.

Пардон, меня проглючило. Последний раз я делал детект с помощью nutch'а.

nebm51 ★
(27.11.11 15:42:40 MSK)

Ответ на: комментарий от nebm51 27.11.11 15:42:40 MSK

Написано, что есть детектор языка с версии 3.5 http://wiki.apache.org/solr/LanguageDetection Гут.

shahid ★★★★★
(27.11.11 15:56:37 MSK)

Ответ на: комментарий от qbbr 27.11.11 15:39:58 MSK

ну, я как бы Solr использую, не замечал за ним такого.

Ingwar ★★★★★
(27.11.11 15:58:58 MSK)

Ссылка

Ответ на: комментарий от shahid 27.11.11 15:37:34 MSK

3.5 я еще не смотрел, в 3.4 надо было самому определять. Проще всего той же Apache Tika, нам ngramm'ный определитель вполне рабочий (впрочем со всеми недостатками таких определителей)

maxcom ★★★★★
(27.11.11 17:56:39 MSK) автор топика

Ссылка

А чего с потреблением памяти у него? Ну если сравнить со Sphinx и Yandex Search Server.

Терабайтом памяти запасаться надо?

~~plus-one-is-not-needed~~
(27.11.11 19:09:33 MSK)

Ответ на: комментарий от shahid 27.11.11 15:56:37 MSK

Зачем только для стемминга тянуть целый Solr/Lucene? Есть же standalone библиотеки для этого.

~~plus-one-is-not-needed~~
(27.11.11 19:10:47 MSK)

Ссылка

Ответ на: комментарий от plus-one-is-not-needed 27.11.11 19:09:33 MSK

> Терабайтом памяти запасаться надо?

Lucene очень много всякого умеет, все зависит от задачи.

maxcom ★★★★★
(27.11.11 19:15:41 MSK) автор топика

Ссылка

Ответ на: комментарий от Nagwal 27.11.11 11:30:58 MSK

> не разбирался особо кто там виноват

Что там разбираться? У них на главной странице до сих пор об этом написано.

pitekantrop ★★★
(27.11.11 21:02:50 MSK)

Ссылка

> Существенное уменьшение объема памяти, используемого для хранения словарного индекса (LUCENE-2205)

Сократили использование ОЗУ. Хранение индекса на диске не должно было измениться.

pitekantrop ★★★
(27.11.11 21:34:34 MSK)

Ответ на: комментарий от pitekantrop 27.11.11 21:34:34 MSK

так лучше?

maxcom ★★★★★
(27.11.11 21:44:16 MSK) автор топика

Ссылка

Ответ на: комментарий от Ingwar 27.11.11 13:03:10 MSK

>Как недавно на ЛОРе выясняли, Сфинкс найти Януковича по запросу «якунович», а Люцена умеет.

?

http://balancer.ru/tools/search/result/?q=янукович&w=a&s=t&checkb...

~~KRoN73~~ ★★★★★
(28.11.11 06:06:17 MSK)

Ответ на: комментарий от Ingwar 27.11.11 13:03:10 MSK

>Как недавно на ЛОРе выясняли, Сфинкс найти Януковича по запросу «якунович», а Люцена умеет.

http://sphinxsearch.com/docs/current.html#conf-wordforms

pi11 ★★★★★
(28.11.11 08:34:08 MSK)

Кстати, насчёт стеммера - там только стеммер, или ещё морфологическая база есть? Я смотрел когда-то для русского языка - всё совсем уж платные были. Тот же «национальный корпус».

GblGbl ★★★★★
(28.11.11 11:07:15 MSK)

Ответ на: комментарий от shahid 27.11.11 15:23:08 MSK

а язык текста перед стеммингом определить может?

раньше было нельзя, сейчас вроде есть механизм для определения, у меня просто такой задачи не стояло

real_maverick ★★★
(28.11.11 11:17:41 MSK)

Ссылка

Ответ на: комментарий от GblGbl 28.11.11 11:07:15 MSK

Кстати, насчёт стеммера - там только стеммер, или ещё морфологическая база есть?

aot.ru - сделано чужими для хищников, но там можно найт много вкусного ;)

real_maverick ★★★
(28.11.11 11:22:33 MSK)

Ответ на: комментарий от real_maverick 28.11.11 11:22:33 MSK

вот кстати стеммер для lucene на базе словаря aot: http://code.google.com/p/russianmorphology/

maxcom ★★★★★
(28.11.11 11:24:45 MSK) автор топика

Ответ на: комментарий от maxcom 28.11.11 11:24:45 MSK

А эта либа работает только в связке с люценой? Если да, то может быть вы посоветуете какие-нибудь ещё библиотеки? На PHP есть phpmorphy (на базе всё того же aot), хотелось бы что-то подобное для Java.

anonymous
(28.11.11 14:55:53 MSK)

Ссылка

Ответ на: комментарий от KRoN73 28.11.11 06:06:17 MSK

Вы о чем?

Ingwar ★★★★★
(28.11.11 15:26:20 MSK)

Ответ на: комментарий от Ingwar 28.11.11 15:26:20 MSK

Сфинкс «Януковича» находит в разных склонениях. Или я неверно распарсил исходное утверждение?

~~KRoN73~~ ★★★★★
(28.11.11 15:29:37 MSK)

Ответ на: комментарий от pi11 28.11.11 08:34:08 MSK

Как недавно на ЛОРе выясняли, Сфинкс найти Януковича по запросу «якунович», а Люцена умеет.
http://sphinxsearch.com/docs/current.html#conf-wordforms

вы всерьёз думаете, что можно все варианты опечаток всех слов внести в словарь?

Ingwar ★★★★★
(28.11.11 15:29:46 MSK)

Ответ на: комментарий от KRoN73 28.11.11 15:29:37 MSK

угу. не верно. речь шла об опечатках: якунович->янукович

Ingwar ★★★★★
(28.11.11 15:31:09 MSK)

Ответ на: комментарий от Ingwar 28.11.11 15:31:09 MSK

Тьфу. Понятно. Ну и нафиг :)

~~KRoN73~~ ★★★★★
(28.11.11 15:32:52 MSK)

Ссылка

Ответ на: комментарий от Ingwar 28.11.11 15:29:46 MSK

А Solr работает в данном случае?

pi11 ★★★★★
(28.11.11 21:07:33 MSK)

Ответ на: комментарий от Ingwar 28.11.11 15:31:09 MSK

На ЛОРе вот якунович'a только в этом треде находит.

pi11 ★★★★★
(28.11.11 21:09:11 MSK)

Ответ на: комментарий от pi11 28.11.11 21:09:11 MSK

Вполне у меня на сайте находит, «искаропки», что называется. (а на ЛОРе Solr стоит?)

Ingwar ★★★★★
(28.11.11 21:23:03 MSK)

Ответ на: комментарий от Ingwar 28.11.11 21:23:03 MSK

а на ЛОРе Solr стоит?

да, стоит, см. www.linux.org.ru/server.jsp

hizel ★★★★★
(28.11.11 21:32:06 MSK)

Ссылка

Ответ на: комментарий от Ingwar 28.11.11 21:23:03 MSK

Ну покажи сайт что-ли.

pi11 ★★★★★
(28.11.11 21:33:46 MSK)

Ссылка

Ответ на: комментарий от pi11 28.11.11 21:07:33 MSK

А Solr работает в данном случае?

У нас обычный стеммер, для опечаток нужно настраивать fuzzy поиск

maxcom ★★★★★
(28.11.11 22:28:00 MSK) автор топика

Ссылка

Ответ на: комментарий от pi11 28.11.11 21:09:11 MSK

а, оказывается оно работает если хитрый синтаксис поиска указывать - надо тильду после слова добавить. Подробности тут: http://lucene.apache.org/java/3_5_0/queryparsersyntax.html#Fuzzy Searches

maxcom ★★★★★
(28.11.11 22:34:38 MSK) автор топика