Вышел Solr 4.0

1

3

Обновился замечательный поисковый движок Solr, основанный на библиотеке Lucene. Кодовое название релиза — «Solr Cloud».

Основные особенности: группировка результатов поиска, фасеты (теперь и вложенные), пространственный или геопоиск, мощный синтаксис запросов и фильтров, проверка правописания, подсветка результатов поиска.

Изменения, связанные с масштабируемостью и отказоустойчивостью:

Распределенное индексирование, спроектированное с нуля.
Высокая доступность, отсутствие единой точки отказа.
Интеграция с Apache Zookeeper.
Документ на запись можно отправлять любой ноде.
Запросы на выборку к любой ноде автоматически будут выполняться распределенно.

Изменения, связанные с хранилищем:

Update durability: лог транзакций гарантирует, что даже незакоммиченные документы не будут потеряны.
Real-time Get: возможность быстрого получения последней версии документа без необходимости коммита или открытия нового серчера.
Versioning and Optimistic Locking: в сочетании с Real-time Get позволяет прочитать, обновить, записать документ, гарантируя отсутствие конфликтующих изменений сделанных другими клиентами.
Атомарные операции обновления документа: возможность добавлять, удалять, изменять и инкрементировать поля без необходимости снова формировать документ с перечнем всех полей.

Другие изменения:

Pivot Faceting: многоуровневые иерархические фасеты.
Pseudo-fields: возможность задавать псевдонимы полям или добавлять метаданные возвращаемым документам. Например, расчет расстояния между точками при геопоиске.
Проверка орфографии теперь может работать сразу с основным индексом вместо создания специального индекса.
Pseudo-Join functionality: возможность выборки набора документов, основанной на их отношениях к другому набору документов.
Новые Function query, такие как условные и релевантные функции.
Новые Update processors для облегчения изменения документов перед индексацией.
Новый админ интерфейс, поддерживающий SolrCloud.

>>> Подробности

Ссылка

← Linux получит универсальное решение безопасной загрузки UEFI

Программное обеспечение для развёртывания квантовых сетей стало публично доступно под GPL →

Кто-нибудь из знающих людей может подсказать чем Solr лучше/хуже SphinxSearch? В каких случаях мне надо выбрать ту или иную библиотеку? Какие есть «killer features» у этих библиотек? Самому в скором надо будет сделать выбор поискового движка для разрабатываемого портала.

anonymous
(12.10.12 17:56:43 MSK)

Ответ на: комментарий от anonymous 12.10.12 17:56:43 MSK

// этот-же анонимус нагуглил, что Lucene/Solr намног требовательнее к ресурсам сервера - memory and CPU usage и соответвенно работает тоже медленнее чем SphinxSearch.

Еще добавлю что в планах разрабатываемый портал будет содержать очень много информации в базе, соответственно хотелось-бы узнать для проектов каких масштабов подойдет Sphinx?

anonymous
(12.10.12 18:09:04 MSK)

Ссылка

Ответ на: комментарий от anonymous 12.10.12 17:56:43 MSK

Не знаю ни одного поискового движка, где есть группировка результатов и такие мощные фасеты. Да, у sphinx есть multi queries, но это не так удобно. Так же у sphinx'а, если не ошибаюсь, 2 индекса: основной и дельта. Не всем подходит делать полный реиндекс базы.

anti_social ★
(12.10.12 18:47:51 MSK) автор топика

Ответ на: комментарий от anonymous 12.10.12 17:56:43 MSK

А многоуровневые фасеты и с помощью multi queries не сделаешь (по крайней мере одним запросом).

anti_social ★
(12.10.12 18:50:10 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 12.10.12 17:56:43 MSK

Дело в том, что солр, в отличии от сфинска, куда более развитый и написан не по-наркомански. солр можно использать как обычную библиотеку в проектах на жабе. и опять-таки: нормальный ясный интерфейс работы через хттп, респонсы в жсоне/хмл/етс без всяких бинарных данных. солр просто нормальный

anonymous
(12.10.12 18:57:40 MSK)

Ответ на: комментарий от anonymous 12.10.12 17:56:43 MSK

Да, еще у Solr'а есть крутая фишка - query boosting, то есть можно на этапе запроса с помощью формул изменять результирующий score документов. Возможно и у sphinx есть что-то подобное, но я в свое время не нашел, только на этапе индексации.

anti_social ★
(12.10.12 18:58:40 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 12.10.12 17:56:43 MSK

Кто-нибудь из знающих людей может подсказать чем Solr лучше/хуже SphinxSearch? В каких случаях мне надо выбрать ту или иную библиотеку? Какие есть «killer features» у этих библиотек? Самому в скором надо будет сделать выбор поискового движка для разрабатываемого портала.

киллер-фича: фасеты. то бишь, группировка по какой-то (или нескольким) «группе».

kost-bebix ★★
(12.10.12 18:58:53 MSK)

Ссылка

Ответ на: комментарий от anonymous 12.10.12 18:57:40 MSK

Дело в том, что солр, в отличии от сфинска, куда более развитый и написан не по-наркомански. солр можно использать как обычную библиотеку в проектах на жабе. и опять-таки: нормальный ясный интерфейс работы через хттп, респонсы в жсоне/хмл/етс без всяких бинарных данных. солр просто нормальный

+500

json рулит

anti_social ★
(12.10.12 19:01:13 MSK) автор топика

Ответ на: комментарий от anti_social 12.10.12 19:01:13 MSK

спасибо всем ответившим

еще кто может сказать что по поводу производительности, требований к памяти и CPU? Насколько в этом плане Solr проигрывает?

anonymous
(12.10.12 19:14:23 MSK)

Ответ на: комментарий от anonymous 12.10.12 17:56:43 MSK

Кто-нибудь из знающих людей может подсказать чем Solr лучше/хуже SphinxSearch?

Да он просто классный. Насколько я знаю, SphinxSearch не так хорошо справляется с опечатками в поисковом запросе или со словоформами. Solr найдет Януковича по запросу «януковощ», а Сфинкс нет.

anonymous
(12.10.12 19:14:51 MSK)

На яве, как и yacy?

~~CuHe3yb~~
(12.10.12 19:19:42 MSK)

Ссылка

Опять ЛОР будет недоступен пока maxcom будет обновлять solr.

luke ★★★★★
(12.10.12 19:22:16 MSK)

Ответ на: комментарий от anonymous 12.10.12 19:14:23 MSK

еще кто может сказать что по поводу производительности, требований к памяти и CPU? Насколько в этом плане Solr проигрывает?

Памяти нужно дофига и чем больше, тем лучше. CPU в основном при переиндексации.

anti_social ★
(12.10.12 19:22:26 MSK) автор топика

Ссылка

Ответ на: комментарий от anti_social 12.10.12 18:47:51 MSK

mnogosearch

anonymous
(12.10.12 19:55:07 MSK)

Ссылка

Ответ на: комментарий от anonymous 12.10.12 19:14:23 MSK

Спхинкс очень легковесный и быстрый, но довольный статичный: модифицировать конфигурацию на-лету проблематично. И есть ряд других странностей. Солр на жабе, жрёт больше памяти, но зато всяких настроек много и вообще это конструктор, а не просто поисковый движок. Если планируешь делать реально крутой поиск для крутого проекта, то на сфинксе ты его не сделаешь. Но сфинкс вроде на хабре установлен.

Солр более прожорливый, но прожорливость настраивается. Например, много памяти может уходить на всякие кеши, которые тоже можно гибко настроить.

Если будущий «портал» - просто хоумпага, то солр будет избыточен: будет шевелится сравнительно медленее и прожорливее, а 99% возможностей будут простаивать без дела. А если реально что-то серьезное, то лучше поставить сразу солр и дальше его допиливать.

shahid ★★★★★
(12.10.12 20:04:09 MSK)

Ссылка

Ответ на: комментарий от anti_social 12.10.12 18:47:51 MSK

Так же у sphinx'а, если не ошибаюсь, 2 индекса: основной и дельта. Не всем подходит делать полный реиндекс базы.

Довольно давно уже есть и real-time индекс.

нормальный ясный интерфейс работы через хттп, респонсы в жсоне/хмл/етс без всяких бинарных данных. солр просто нормальный

sphinx удобно юзать там, где используется mysql, mysql клиент прекрасно общается со sphinx через обычные SQL запросы.

Да, еще у Solr'а есть крутая фишка - query boosting, то есть можно на этапе запроса с помощью формул изменять результирующий score документов. Возможно и у sphinx есть что-то подобное, но я в свое время не нашел, только на этапе индексации.

Можно конечно. Насколько помню, в sphinx 1.x было не слишком удобно это делать, сейчас ситуация иная, никаких проблем.

solr, конечно, гораздо более фичастый, чем sphinx. Мне например, на некоторых проектах пришлось использовать именно его из-за отсутствия в sphinx fuzzy поиска (через костыли и wordforms делают, но к полноценному fuzzy поиску это имеет слабое отношение).

troop
(12.10.12 20:43:09 MSK)

Ответ на: комментарий от troop 12.10.12 20:43:09 MSK

э. в сфинксе стало возможным _добавлять_ что-то в индекс, а не мержить два? ткни носом - как? и начиная с какой версии?

drF_ckoff ★★
(12.10.12 21:42:26 MSK)

Ответ на: комментарий от anonymous 12.10.12 19:14:51 MSK

Да он просто классный. Насколько я знаю, SphinxSearch не так хорошо справляется с опечатками в поисковом запросе или со словоформами. Solr найдет Януковича по запросу «януковощ», а Сфинкс нет.

Ну скажем в Solr 3.x нечеткий поиск хоть и есть, но на больших базах так тормозит что лучше б его небыло. В 4.x обещают ускорение (автомат Левинштейна), надо смотреть

maxcom ★★★★★
(12.10.12 22:36:12 MSK)

Ссылка

Ответ на: комментарий от luke 12.10.12 19:22:16 MSK

Опять ЛОР будет недоступен пока maxcom будет обновлять solr.

Пока не буду, подожду пока выйдет несколько баг-фикс релизов. Ну и да, lor из-за замены solr не ложится, это не федора и не постгресс

maxcom ★★★★★
(12.10.12 22:37:31 MSK)

Ответ на: комментарий от drF_ckoff 12.10.12 21:42:26 MSK

э. в сфинксе стало возможным _добавлять_ что-то в индекс, а не мержить два? ткни носом - как? и начиная с какой версии?

Ну так и у Solr (вернее у Lucene) аналогичное поведение. Записанный один раз индекс нельзя модифицировать, при записи создаются новые сегменты которые потом в background'е слепливаются в более крупные. Мелкие сегменты как записаны так сразу доступны в поиске (в отличии от дельты в сфинксе, если правильно понимаю как там это работает), merge их только оптимизирует не влияя на доступность в поиске.

По другому сделали в tsearch2 в PostgreSQL — на выходе низкая производительность при индексировании, но зато realtime, транзакции и никаких фоновых merge'ей.

maxcom ★★★★★
(12.10.12 22:49:59 MSK)

Ответ на: комментарий от anonymous 12.10.12 19:14:51 MSK

Solr найдет Януковича по запросу «януковощ»

это вин

amazpyel ★★★
(13.10.12 00:23:34 MSK)

Ссылка

Ответ на: комментарий от drF_ckoff 12.10.12 21:42:26 MSK

http://sphinxsearch.com/docs/2.0.5/rt-indexes.html - там же и указано, что появился этот индекс с версии 1.10.

troop
(13.10.12 15:30:58 MSK)

Ответ на: комментарий от maxcom 12.10.12 22:49:59 MSK

Мелкие сегменты как записаны так сразу доступны в поиске (в отличии от дельты в сфинксе, если правильно понимаю как там это работает)

Не совсем так, в сфинксе поиск настраивается сразу по нескольким индексам. Настраивается это очень просто:
index channel
{
type = distributed
local= channel_main
local= channel_delta
}
и теперь для клиента это выглядит как один индекс channel, хотя физически эта два индекса channel_main и channel_delta.

Но сейчас я вряд ли могу рекомендовать этот подход с учетом существования real-time индекса.

troop
(13.10.12 15:39:49 MSK)

Ссылка

Ответ на: комментарий от troop 13.10.12 15:30:58 MSK

о. спасиб.

drF_ckoff ★★
(13.10.12 15:44:09 MSK)

Ссылка

Ответ на: комментарий от maxcom 12.10.12 22:49:59 MSK

По другому сделали в tsearch2 в PostgreSQL — на выходе низкая производительность при индексировании, но зато realtime, транзакции и никаких фоновых merge'ей.

Да, такой недостаток есть у tsearch2. У встроенного в mysql full-text индекса ровно тот же недостаток. У sphinx скорость real-time индекса очень высокая, но только за счет того, что он держит его в памяти. С другой стороны и tsearch2 и mysql стремятся держать индекс в памяти так что sphinx по скорости rt индекса значительно выигрывает у них скорей за счет лучших алгоритмов. Конечно, real-time индекс имеет свои недостатки относительно статичного индекса (http://www.ivinco.com/blog/sphinx-in-action-good-and-bad-in-sphinx-real-time-...).

troop
(13.10.12 16:14:49 MSK)

Ссылка

Ответ на: комментарий от maxcom 12.10.12 22:37:31 MSK

Ну это была гипербола, в прошлый раз обновление солра просто на несколько часов затруднило поиск по ЛОРу ЕМНИП.

luke ★★★★★
(13.10.12 19:29:40 MSK)

Ссылка

Ave SOLR! Теперь на нем можно легко строить по настоящему высконагруженные/выскодоступные проекты.

risik
(14.10.12 08:25:46 MSK)

Ответ на: комментарий от drF_ckoff 12.10.12 21:42:26 MSK

realtime index

С двушки где-то. Просто там были не все фичи, и стабильность под вопросом, но вроде уже юзабельно.

Vit ★★★★★
(14.10.12 08:36:39 MSK)

Ссылка

Ответ на: комментарий от risik 14.10.12 08:25:46 MSK

Это точно. Серверы солра будут очень высоко нагружены :)

Vit ★★★★★
(14.10.12 08:37:24 MSK)

Ссылка

Ответ на: комментарий от anonymous 12.10.12 17:56:43 MSK

Сфинкс очень простой и очень быстрый. Надо сначала смотреть его, а если не хватит фич - остальное.

Люсеновское семейство умеет индексировать документы произвольной структуры, но это не всегда надо. На люсене еще сделан Elastic Search.

Vit ★★★★★
(14.10.12 08:43:24 MSK)

Ссылка

Ответ на: комментарий от anonymous 12.10.12 19:14:51 MSK

Такой нечеткий поиск по документам нафик не уперся, тем более ценой падения скорости на порядок. Надо не искать по кривулинам, а исправлять их.

А для исправления нужно делать лог поисковых запросов и потом сравнивать слова левенштейном. Будет дешево и сердито.

Vit ★★★★★
(14.10.12 08:52:17 MSK)