Elasticsearch 5.0

2

4

Спустя 364 дня с момента выпуска версии 2.0 состоялся релиз Elasticsearch 5.0 — многофункционального распределённого движка полнотекстового поиска с поддержкой географии и аналитики. Проект написан на Java, построен на базе библиотеки Apache Lucene и распространяется под лицензией Apache 2.0.

Наиболее заметные изменения:

Обновление на Lucene 6. Теперь для индексации чисел, дат, ip-адресов и гео-точек используется Lucene dimensional points вместо обычных инвертированных индексов, что позволяет уменьшить размеры индексов, существенно увеличить скорость исполнения range-запросов и расширить возможности индексации. Это вызвало сопутствующие изменения в маппингах, а также в скоринге найденных результатов.
Скорость индексации в целом возросла на 25-80%.
Тип поля string теперь разделён на типы text и keyword для полнотекстовой и обычной индексации соответственно. Раньше для этого использовался параметр index, принимавший значения analyzed и not_analyzed. Однако для типа string также сохраняется обратная совместимость в рамках ветки 5.x.
Поля _timestamp и _ttl ушли в прошлое. Для удаления устаревших документов предлагается использовать Delete by Query API.
Поддержка индексации адресов IPv6.
Новые типы данных: half_float и scaled_float.
Optimize API переименовано в Force Merge API с аналогичным синтаксисом и назначением.
Для написания скриптов теперь по умолчанию используется Painless, совместимость с Groovy сохранена. Новый язык для написания скриптов был разработан с целью упрощения выполнения типичных задач на фоне решения постоянных проблем с изоляцией и безопасностью у языков-предшественников.
Ingest API для трансформации входных данных. Можно определять pipeline'ы из процессоров, например для парсинга каких-то сырых данных в документы перед индексацией. Также, допускается выделение отдельных узлов кластера под эти задачи: node.ingest: false в конфигах узлов, которым запрещается заниматься ingest'ом.
При опечатках в работе с API elasticsearch выдаёт подсказки в стиле «Did you mean ...?», а так же более строго рассматривает вводимые пользователем настройки и параметры.
Оптимизации в Search и Aggregations API, в том числе устраняющие тормоза kibana при повторных агрегациях на диапазоне дат.
Completion Suggester учитывает документы, которые были удалены; умеет ранжирование прямо во время поиска. Раньше допускалось задавать ранжирование (вес каждого результата) только во время индексации.
Удалены site-плагины.
Добавлен Java REST client, работающий по HTTP. Java transport client вынесен в отдельную зависимость. Сравнение производительности двух java-клиентов.

Скачок в нумерации версий связан с решением о синхронизации версий elasticsearch, kibana, logstash, beats и других продуктов Elastic.

>>> Полный список изменений

>>> Breaking changes

>>> Подробности

Ссылка

← Уязвимость в архиваторе GNU tar

Racket 6.7 →

А почему новость не от макскома?

anonymous
(28.10.16 11:15:10 MSK)

Поля _timestamp и _ttl ушли в прошлое.

Жаль, удобная фича была.

anonymous
(28.10.16 11:34:50 MSK)

Ссылка

JAVA не нужна. JAVA это тормоза. JAVA это пожирание ресурсов машины.

anonymous
(28.10.16 12:16:37 MSK)

надо будет потыкать палочкой новый ELK

Deleted
(28.10.16 12:33:53 MSK)

Ответ на: комментарий от anonymous 28.10.16 12:16:37 MSK

Жрет в два раза меньше, если не больше, чем твой мокрописечный DE ;)

~~ntfs1984~~
(28.10.16 12:51:17 MSK)

Ответ на: комментарий от ntfs1984 28.10.16 12:51:17 MSK

Да это аутотренинг у него такой, не обращай внимания.

ps Пора обновлять ELKшечки :)

phoen ★★
(28.10.16 12:57:11 MSK)
Последнее исправление: phoen 28.10.16 12:57:36 MSK (всего исправлений: 1)

Ответ на: комментарий от ntfs1984 28.10.16 12:51:17 MSK

Эластик жрет в два раза меньше DE? Какой объем данных у вас там лежит и как часто происходят обращения?

alozovskoy ★★★★★
(28.10.16 12:58:21 MSK)

Ответ на: комментарий от alozovskoy 28.10.16 12:58:21 MSK

Эмм...Я ответил на коммент где JAVA жрет много ресурсов и тормозит))

JAVA - не тормозит (с) Томми

~~ntfs1984~~
(28.10.16 13:02:38 MSK)

Ответ на: комментарий от ntfs1984 28.10.16 13:02:38 MSK

Ну говорить про «абстрактную» Java смысла не имеет, по-этому и спросил в тему сабжа.

Java не тормозит, просто все остальное слишком быстро работает. Ну GC не вовремя запустился, да.

alozovskoy ★★★★★
(28.10.16 13:17:53 MSK)

Ссылка

Тип поля string теперь разделён на типы text и keyword для полнотекстовой и обычной индексации соответственно.

я правильно понял, что теперь

string/analyzed -> keyword
string/not_analyzed -> text

autonomous ★★★★★
(28.10.16 13:53:57 MSK)
Последнее исправление: autonomous 28.10.16 13:54:15 MSK (всего исправлений: 1)

Ответ на: комментарий от autonomous 28.10.16 13:53:57 MSK

Нет, наоборот.

shahid ★★★★★
(28.10.16 14:05:58 MSK) автор топика

Ссылка

зачем оно всё на жабе? глобальные и надежные индусы писали?

~~mos~~ ★★☆☆☆
(28.10.16 14:15:13 MSK)
Последнее исправление: mos 28.10.16 14:15:28 MSK (всего исправлений: 1)

Ответ на: комментарий от mos 28.10.16 14:15:13 MSK

Потому что быстро пишется.

migesok ★
(28.10.16 15:22:46 MSK)

Ответ на: комментарий от migesok 28.10.16 15:22:46 MSK

Потому что быстро пишется.

Если быстро пишется, значит медленно работает. Либо быстро пишется, либо быстро работает - это взаимоисключающие факторы.

anonymous
(28.10.16 16:43:14 MSK)

Ответ на: комментарий от phoen 28.10.16 12:57:11 MSK

Да это аутотренинг у него такой, не обращай внимания.

Пилите Шура, пилите. Они золотые. (с)

anonymous
(28.10.16 16:55:27 MSK)

Ссылка

Ответ на: комментарий от anonymous 28.10.16 16:43:14 MSK

Верно.

migesok ★
(28.10.16 17:15:01 MSK)

Ссылка

Ответ на: комментарий от Deleted 28.10.16 12:33:53 MSK

а чм оно сильно лучше graylog2 ?

WindowsXP ★★
(28.10.16 17:34:29 MSK)

Ответ на: комментарий от WindowsXP 28.10.16 17:34:29 MSK

Даже не знаю. Когда внедрял сурикату, все плевались что с грейлогом оно очень медленно работает. С тех пор вот только на ELK сижу. Гигабитный траф жуёт, памяти на всё хватает, так что я доволен.

Deleted
(28.10.16 17:42:32 MSK)

Ссылка

Ответ на: комментарий от anonymous 28.10.16 11:15:10 MSK

А почему новость не от макскома?

А кто это такой и почему кого-то должно парить кто постит новости?

anonymous
(28.10.16 19:31:33 MSK)

Ссылка

Ответ на: комментарий от anonymous 28.10.16 12:16:37 MSK

JAVA не нужна. JAVA это тормоза. JAVA это пожирание ресурсов машины.

Согласен.

anonymous
(28.10.16 19:32:16 MSK)

Ссылка

При опечатках в работе с API elasticsearch выдаёт подсказки в стиле «Did you mean ...?», а так же более строго рассматривает вводимые пользователем настройки и параметры.

Неплохо.

sT331h0rs3 ★★★★★
(28.10.16 20:09:29 MSK)

Ссылка

Ответ на: комментарий от anonymous 28.10.16 16:43:14 MSK

cassandra?

kardapoltsev ★★★★★
(28.10.16 22:51:29 MSK)

Ссылка

5.0

маловато будет

Fafhrd ★
(28.10.16 23:22:37 MSK)

Ссылка

Ответ на: комментарий от WindowsXP 28.10.16 17:34:29 MSK

graylog это «замена» «L» (logstash) и «K» (kibana), то есть может слушать порты (принимая и парся логи) и рисовать графики. Данные ему все равно в эластике хранить.

logstash показался гибче в планах парсинга логов, а для графиков все равно приходится графану использовать, так что особого смысла в graylog не увидел. Плюсы по сравнению с LK - мышкой натыкал в интерфейсе логику парсинга, посмотрел на примере как отработает, и не паришься; graylog сам следит за индексани (в logstash ты можешь сказать в какой индекс писать, но вот чтоб и ротировать приходится использовать consul или аналогичные костыли, да и инфу по кластеру\индексам приходится вытягивать сторонними средствами или через REST). В целом все это легко заменяется\автоматизируется, так что это далеко не решающие преимущества.

alozovskoy ★★★★★
(29.10.16 07:30:15 MSK)

Попытался обновиться - ругается на то что ему мало дефолтного vm.max_map_count. Так как просто по своему хотению не могу лезть в эти конфиги - пока бросил. Отпишитесь кто успешно переедет, пожалуйста.

alozovskoy ★★★★★
(29.10.16 07:33:04 MSK)

Ссылка

Ответ на: комментарий от anonymous 28.10.16 16:43:14 MSK

Если быстро пишется, значит медленно работает. Либо быстро пишется, либо быстро работает

либо пишется, и работает, либо разработка погрязает в отлове багов и попытках прикрутить юникод к и без того запутанному коду.

anonymous
(29.10.16 08:06:40 MSK)

Ссылка

Ответ на: комментарий от alozovskoy 29.10.16 07:30:15 MSK

спасибо... надо значит все-таки елк потыкать в докере поактивнее...

WindowsXP ★★
(29.10.16 09:45:44 MSK)

Ссылка

Ответ на: комментарий от ntfs1984 28.10.16 12:51:17 MSK

Жрет в два раза меньше, если не больше

Ага, — больше, раза в два. ;)

anonymous
(29.10.16 19:58:02 MSK)

Ответ на: комментарий от anonymous 29.10.16 19:58:02 MSK

Индексы lucene жрут память. java не при делах.
Но и тут наблюдается заметный спад потребления с каждым мажорным релизом.

shahid ★★★★★
(29.10.16 22:41:05 MSK) автор топика

Ссылка

Если сравнивать с Solr, оно чем-то лучше или примерно тоже самое?

GoNaX ★★★
(30.10.16 12:30:51 MSK)

Ответ на: комментарий от GoNaX 30.10.16 12:30:51 MSK

Масштабируется из коробки и работает без заранее заданной схемы.

migesok ★
(30.10.16 13:38:51 MSK)

Ответ на: комментарий от migesok 30.10.16 13:38:51 MSK

Нужно будет посмотреть, как все это выглядит.

В Solr есть SolrCloud и Schemaless Mode, хотя Schemaless Mode я не юзал.

Если есть под рукой простой мануал по масштабирование эластика, то буду благодарен за ссылку.

GoNaX ★★★
(30.10.16 13:47:43 MSK)

Ответ на: комментарий от anonymous 28.10.16 16:43:14 MSK

и ведь находятся те кто верит в это

anonymous
(30.10.16 23:43:37 MSK)

Ссылка

Ответ на: комментарий от GoNaX 30.10.16 13:47:43 MSK

Теперь по фичам наверное паритет, но SolrCloud и Schemaless Mode были как afterthought, когда ES был сразу спроектирован так.

Про масштабирование стоит читать оф мануал, там не так много.

migesok ★
(31.10.16 00:00:52 MSK)

Ссылка

Ответ на: комментарий от ntfs1984 28.10.16 13:02:38 MSK

Томми - не тормозит

antiPooH ★
(31.10.16 05:12:50 MSK)

Ссылка

Ответ на: комментарий от WindowsXP 28.10.16 17:34:29 MSK

graylog тоже юзает Эластиксерч. Обо всем остальном - хз.

ipeacocks ★★★★★
(31.10.16 13:37:11 MSK)

Ссылка

Когда его научать джоинить? Solr тоже на Lucene построен, при этом умеет {!join from= to=}

southern_sun
(01.11.16 11:47:38 MSK)

Ответ на: комментарий от southern_sun 01.11.16 11:47:38 MSK

Приучают людей ~~к горшку~~ обходится без этого жручего тормозилова.

shahid ★★★★★
(01.11.16 13:53:23 MSK) автор топика

Ссылка

Ответ на: комментарий от southern_sun 01.11.16 11:47:38 MSK

Как ты будешь джойнить между разными шардами на разных нодах?

migesok ★
(01.11.16 17:39:04 MSK)

Ответ на: комментарий от migesok 01.11.16 17:39:04 MSK

Так же, как и Apache Ignite (In-Memory Data Grid), либо внутри шарда с учетом affinity, либо между шардами (distributed join) — долго и мучительно.

anonymous
(01.11.16 19:04:48 MSK)

Ответ на: комментарий от anonymous 01.11.16 19:04:48 MSK

http://apacheignite.gridgain.org/docs/affinity-collocation http://apacheignite.gridgain.org/v1.7/docs/sql-queries#sql-joins http://apacheignite.gridgain.org/v1.7/docs/sql-queries#distributed-joins

anonymous
(01.11.16 19:06:35 MSK)

Интересно, а у них есть GPL аналог?

zabbal ★★★★☆
(01.11.16 23:43:57 MSK)

Ссылка

Ответ на: комментарий от anonymous 01.11.16 19:04:48 MSK

Ну э, не говори только, что Solr это умеет, да?

migesok ★
(02.11.16 01:25:56 MSK)

Ссылка

Ответ на: комментарий от anonymous 01.11.16 19:04:48 MSK

Я не очень представляю, зачем такая машинерия нужна в по сути тулзе для полнотекстового поиска в свалке логов.

migesok ★
(02.11.16 01:27:59 MSK)

Ссылка

Ответ на: комментарий от anonymous 01.11.16 19:06:35 MSK

affinity-collocation

_routing.

sql-joins

Внутришардово можно делать через parent-child.

distributed-joins
> potential data movement

Ясно. Домашку по информатике сделал уже?

shahid ★★★★★
(02.11.16 11:01:00 MSK) автор топика

Ссылка

Кто-то уже юзает ELK 5 ?
Я один такой или у всех в кибане баг на баге ?

Deleted
(18.11.16 18:59:46 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Уязвимость в архиваторе GNU tar

Open Source

Racket 6.7 →

Похожие темы