LINUX.ORG.RU

Elasticsearch 1.4

 


5

2

Выпущена новая версия Elasticsearch — современного распределенного движка полнотекстового поиска и выполнения аналитических запросов реального времени.

Одной из основных целей при выпуске этой версии — повышение стабильности и надежности сервиса:

  • Значительно улучшен алгоритм управления кластером и выбора master-узла, ранее имевший ряд известных проблем
  • Добавлена проверка контрольных сумм хранимых данных для определения «битых» сегментов индекса и журналов операций
  • Механизм прерывания исполнения запроса при превышении лимита на потребление оперативной памяти

Также в этой версии:

  • Оптимизирован механизм doc values — поколоночного хранилища данных для быстрого извлечения значений по первичному ключу. Механизм заменяет field cache — структуру в памяти, выполняющую аналогичную функцию. Использование doc values позволяет уменьшить потребление памяти процессом Elasticsearch и лучше использовать функции кеширования диска операционной системой. До оптимизации хранилище заметно уступало по производительности field cache.
  • Query cache — кеш результатов аналитических запросов, сохраняющий результаты выборок при отсутствии изменений. Кеш рекомендуется использовать в задачах анализа журналов в сочетании с партиционированием индексов по дате события. В этом случае финальный результат запроса будет получен комбинацией кешированных результатов из исторических партиций и выполненного запроса по свежей секции в которую идет запись.
  • Flake ID — новый алгоритм генерации идентификаторов документов, который снижает количество случайного ввода-вывода (оптимизация добавления в индекс документов без заданного пользователем идентификатора).
  • Эффективная поддержка HTTP Pipelining в пользовательском API

>>> Подробности

★★★★★

Механизм прерывания исполнения запроса при превышении лимита на потребление оперативной памяти

Бог есть!

tazhate ★★★★★ ()
Ответ на: комментарий от Jopich

А они до сих пор не прикрутили нативную поддержку русского языка ?

Snowball с поддержкой русских словоформ там много лет как есть.

maxcom ★★★★★ ()

красота, надо найти времени потестить

val-amart ★★★★★ ()

ЛОР упадёт? :}

Deleted ()

это из-за него поиск на ЛОР-е не позволяет найти точное совпадение для фразы из более, чем одного слова?

Lincor ()
Ответ на: комментарий от Jopich

менее кривой

На кривость Сфинкса совсем не жалуюсь. Отрабатывает всегда корректно. Посмотрел про ES, его основное отличие — оно хранит не только индекс, но и сами данные, так что его можно как хранилище использовать. Но мне такой надобности нет.

Wizard_ ★★★★★ ()
Ответ на: комментарий от Wizard_

в sphinx API, которое используется без БД Mysql является уже deprecated ( в этом легко убедится посмортев в исходники этого API ). Создатели sphinx призывают использовать связки sphinx+mysql вместо просто бинарного индекса . Что касается поддержки - она в sphinx кривая пока не заплатишь деньги за эту поддержку.

Jopich ()
Ответ на: комментарий от Wizard_

Компактнее индексы, быстрее работает, может в морфологию.

anonymous ()

Лучше Apache Solr

anonymous ()
Ответ на: комментарий от maxcom

Snowball с поддержкой русских словоформ там много лет как есть.

Это ж обычный тупой стемер, с ним русская морфология очень убогая получается. Для русского надо AOT, типа того что в SphinxSearch.

Vit ★★★★★ ()

Поттеринг в курсе? Уже пилит замену?

anonymous ()
Ответ на: комментарий от home_user

Разработать структуру индексов, да и просто проконсультировать по построению веб морд и как грамотно делать запросы.

xtraeft ★★☆☆ ()
Ответ на: комментарий от Vit

Для русского надо AOT, типа того что в SphinxSearch.

В sphinx раньше был допиленный snowball, давно туда AOT прикрутили?

Да, ссылку на плагин который работает на основе AOT выше приводили, можешь привести реальные примеры на которых AOT лучше?

maxcom ★★★★★ ()
Ответ на: комментарий от Lincor

это из-за него поиск на ЛОР-е не позволяет найти точное совпадение для фразы из более, чем одного слова?

сейчас фразы ищутся, покажи пример что именно не работает

maxcom ★★★★★ ()
Ответ на: комментарий от maxcom

Недавно хотел найти конкретное сообщение, вбивал почти точную цитату из него. Стояла сортировка по релевантности, на первых двух страницах сообщения не было. С кавычками бы нашёл, наверное.
Потом нашёл. Сейчас покопаю историю браузера, может найду, что же я там искал.

CYB3R ★★★★★ ()
Ответ на: комментарий от maxcom

В sphinx раньше был допиленный snowball, давно туда AOT прикрутили?

Года два-три назад.

можешь привести реальные примеры на которых AOT лучше?

Сейчас не могу. Надо заново все записи поднимать и вспоминать. Но точно помню, что в русском стемминг выдает нереально большое число кривых срабатываний. С английским нормально.

Vit ★★★★★ ()
Ответ на: комментарий от Vit

стемминг выдает нереально большое число кривых срабатываний

snowball агрессивен, можно попробовать light-стеммеры.

shahid ★★★★★ ()
Ответ на: комментарий от Wizard_

его основное отличие — оно хранит...

его основное отличие - оно хорошо вширь тянется

оно хранит не только индекс, но и сами данные

может хранить, а может и не хранить

shty ★★★★★ ()
Ответ на: комментарий от Vit

Это ж обычный тупой стемер, с ним русская морфология очень убогая получается

ээээ, стеммер возвращает нормальную форму слова в ответ на словоформу, на морфологию влияет чуть более чем никак

shty ★★★★★ ()
Ответ на: комментарий от maxcom

Имхо они одинаково работают, разве нет?

Нет. Если в терм-аггрегаторе использовать регексп ( http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-... ), то это будет примерно в полтора раза медленнее чем аналогичный фасет. Проверяли когда делали автодополнение поискового запроса.

drull ★☆☆☆ ()
Последнее исправление: drull (всего исправлений: 2)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.