Elasticsearch 1.5

1

3

Выпущена новая версия Elasticsearch — современного распределенного движка полнотекстового поиска и выполнения аналитических запросов реального времени.

Основные изменения этой версии:

Добавлена экспериментальная функция доступа к данным дочерних документов при выполнении запросов по parent/child отношениям и при работе с nested-объектами. Поддерживается извлечение произвольного количества дочерних документов с поддержкой постраничной выдачи, сортировки по релевантности и подсветки найденных фрагментов текста.
Shadow-реплики — возможность запуска нескольких узлов кластера Elasticsearch над одной (сторонней) распределенной файловой системой. Фактическая репликация и надежность хранения данных в этом случае обеспечивается файловой системой, а Elasticsearch обеспечивает отказоустойчивое распределение функций master/slave по узлам кластера.
Улучшены алгоритмы управления кластером, благодаря чему функции распределения шардов, создания, восстановления и удаления индексов стали работать более надежно и предсказуемо.
Были доработаны функции проверки контрольных сумм данных, добавленные в прошлой версии Elasticsearch 1.4.

>>> Подробности

Ссылка

← Объявлены победители Free Software Awards 2014

GNU Nano 2.4.0 →

← 1 2 →

Можно ли на нем сделать аналог грепа для большого количества строк или это будет огромным костылем? Если второе, то что лучше взять?

~~xtraeft~~ ★★☆☆
(23.03.15 21:42:34 MSK)

Чем оно лучше/хуже сфинкса?

LookOne
(23.03.15 21:48:54 MSK)

функции распределения шардов, создания, восстановления и удаления индексов стали работать более надежно и предсказуемо.

Вот это хорошая новость.

sT331h0rs3 ★★★★★
(23.03.15 21:53:23 MSK)

Ответ на: комментарий от LookOne 23.03.15 21:48:54 MSK

да, когда надо брать es, а когда достаточно sphinxsearcgh, поделитесь кто в курсе

anonymous
(23.03.15 22:10:41 MSK)

Русский там как обычно через ж.. ?

~~Jopich~~
(23.03.15 22:23:33 MSK)

Ссылка

Ответ на: комментарий от LookOne 23.03.15 21:48:54 MSK

sphinx ( особенно последний релиз ) стал завязан на mysql. + через жопное разделение на индекс + основные данные всегда добивало.

~~Jopich~~
(23.03.15 22:24:54 MSK)

Ответ на: комментарий от anonymous 23.03.15 22:10:41 MSK

Когда не нужен mysql бери es.

~~Jopich~~
(23.03.15 22:25:48 MSK)

Ссылка

Ответ на: комментарий от xtraeft 23.03.15 21:42:34 MSK

смотря какого кол-ва. hadoop в помощь.

~~Jopich~~
(23.03.15 22:29:19 MSK)

Ссылка

Модная стартапная поделка для рубистов. Компенсирует неумение пользоваться БД, прибавляет 200 очков к разгребанию устаревшего кода.

beznadega
(23.03.15 22:53:14 MSK)

Ответ на: комментарий от Jopich 23.03.15 22:24:54 MSK

через жопное

слитно же, как можно с таким ником так ошибаться.

anonymous
(23.03.15 23:10:56 MSK)

Ссылка

Ответ на: комментарий от xtraeft 23.03.15 21:42:34 MSK

Если нужны regexp и всякие wildcard в общем виде, то наверное нет. А если индексированных поиск по токенезированному тексту то да.

maxcom ★★★★★
(23.03.15 23:14:16 MSK) автор топика

Ссылка

Ответ на: комментарий от xtraeft 23.03.15 21:42:34 MSK

большого количества

зависимо от того, что понимать «большого» есть 2 варианта:
1) varchar и индекс в mysql
2) ack-grep и всякие там parallel

полагаю, что тебе подойдет 1-й

reprimand ★★★★★
(23.03.15 23:30:14 MSK)

Ответ на: комментарий от beznadega 23.03.15 22:53:14 MSK

о, а вот и девственники распределенных систем подтянулись )

shty ★★★★★
(23.03.15 23:42:26 MSK)

Ответ на: комментарий от shty 23.03.15 23:42:26 MSK

Слышишь! Я Си только сегодня начал учить, полегче тут!

beznadega
(24.03.15 00:09:46 MSK)

Ответ на: комментарий от Jopich 23.03.15 22:24:54 MSK

sphinx ( особенно последний релиз ) стал завязан на mysql.

Что? Можно пруф? Никогда его с mysql не использовал.

pi11 ★★★★★
(24.03.15 00:11:56 MSK)
Последнее исправление: pi11 24.03.15 00:12:07 MSK (всего исправлений: 1)

Ответ на: комментарий от xtraeft 23.03.15 21:42:34 MSK

Зависит от нагрузки, объема данных и типа grepов, которые хочешь делать.

Если сранивать с грепаньем 15-30ГБ лога grepом и с помощью Elasticsearch то эластик это делает почти мгновенно, а grep не скоро очухается.

Theif ★
(24.03.15 00:22:21 MSK)

Ответ на: комментарий от reprimand 23.03.15 23:30:14 MSK

Ну хотя бы миллиард строк. Про хваленый ack: Реактивный поиск (комментарий)

~~xtraeft~~ ★★☆☆
(24.03.15 00:23:51 MSK)
Последнее исправление: xtraeft 24.03.15 00:26:40 MSK (всего исправлений: 1)

Ответ на: комментарий от Theif 24.03.15 00:22:21 MSK

Если сранивать с грепаньем 15-30ГБ лога grepом и с помощью Elasticsearch то эластик это делает почти мгновенно, а grep не скоро очухается.

Это понятно, поэтому и ищу замену grep. Всякие вилдкарды и регекспы нужны.

~~xtraeft~~ ★★☆☆
(24.03.15 00:24:29 MSK)

Ответ на: комментарий от xtraeft 24.03.15 00:24:29 MSK

А че сам до сих пор не затестил?

pi11 ★★★★★
(24.03.15 00:31:35 MSK)
Последнее исправление: pi11 24.03.15 00:31:41 MSK (всего исправлений: 1)

Ответ на: комментарий от pi11 24.03.15 00:31:35 MSK

Да что-то там тестил, но опыта особого нет и со временем желание пропало, отложил до лучших времен. Ну и те грабли с уникальностью не придумал как обойти.

Не хочешь заняться?:)

~~xtraeft~~ ★★☆☆
(24.03.15 00:34:16 MSK)
Последнее исправление: xtraeft 24.03.15 00:35:09 MSK (всего исправлений: 2)

Ответ на: комментарий от xtraeft 24.03.15 00:34:16 MSK

Не хочешь заняться?:)

Задача на самом деле мне интересна, только я сейчас в фазе «ничего не делания». А когда она закончится - не знаю. Если бы ты еще джаббер не дропнул я бы стукнул через X дней.

pi11 ★★★★★
(24.03.15 00:38:00 MSK)

Ссылка

Ответ на: комментарий от xtraeft 24.03.15 00:23:51 MSK

хваленый ack

я-то его не использую, просто знаю что такой есть и что его «советуют». Вот и вспомнился он.

миллиард строк

ну тогда sql решение будет в самый раз

reprimand ★★★★★
(24.03.15 00:38:16 MSK)

Ссылка

Ответ на: комментарий от xtraeft 24.03.15 00:24:29 MSK

Да, regexpы там есть. У себя на работе юзаю, где то 20 ГБ логов в сутки. Особенно приятно искать в Kibana с графиками и termsами.

Но для этих фишек уже надо парсить логи logstasheм.

Theif ★
(24.03.15 00:43:11 MSK)

GitHub на нём работает, кстати.

~~redhat~~
(24.03.15 01:07:11 MSK)

Ссылка

Ответ на: комментарий от xtraeft 24.03.15 00:23:51 MSK

ack давно не используют уже, на замену пришел ag (aka the_silver_searcher), интересно на том файле затестить, не поделишься файликом-то?

~~redhat~~
(24.03.15 01:08:44 MSK)

Ответ на: комментарий от beznadega 24.03.15 00:09:46 MSK

Слышишь! Я Си только сегодня начал учить, полегче тут!

Ага и видимо сразу начал юзать libastral для трансляции голоса и мыслей на расстоянии.

st4l1k ★★
(24.03.15 04:18:31 MSK)

Ссылка

Ответ на: комментарий от xtraeft 24.03.15 00:24:29 MSK

http://swtch.com/~rsc/regexp/regexp4.html

https://code.google.com/p/codesearch/

в большинстве дистрибутивов есть пакет типа golang-codesearch.

anonymous
(24.03.15 08:09:29 MSK)

Ответ на: комментарий от Jopich 23.03.15 22:24:54 MSK

через жопное разделение на индекс + основные данные всегда добивало

А что, ES при каждом запросе data source парсит?

Wizard_ ★★★★★
(24.03.15 08:34:10 MSK)

Ответ на: комментарий от redhat 24.03.15 01:08:44 MSK

ag

Спасибо, попробую.

не поделишься файликом-то?

Нет, не могу.

~~xtraeft~~ ★★☆☆
(24.03.15 10:23:07 MSK)

Ссылка

Ответ на: комментарий от Theif 24.03.15 00:43:11 MSK

Я знаю что есть, просто не осилил соорудить нормальную архитектуру и наткнулся ряд проблем, вот и подумал - вдруг инструмент совсем не подходит?

~~xtraeft~~ ★★☆☆
(24.03.15 10:24:13 MSK)

Ссылка

Ответ на: комментарий от anonymous 24.03.15 08:09:29 MSK

Спасибо, попробую тоже.

~~xtraeft~~ ★★☆☆
(24.03.15 10:25:26 MSK)

Ссылка

Ответ на: комментарий от Wizard_ 24.03.15 08:34:10 MSK

Может и не парсит, но хранит и показывает вместе. + доступ к основным данным через файлики в памяти в sphinx, чтобы обеспечить быстродействие как бы намекает ...

~~Jopich~~
(24.03.15 11:13:14 MSK)

Ссылка

Ответ на: комментарий от redhat 24.03.15 01:08:44 MSK

ag:
real 16m3.919s
user 4m10.480s
sys 1m11.456s

fgrep:
real 6m6.231s
user 0m23.142s
sys 0m20.458s

Я что-то даже и не сомневался. Это на простом ag 'линукс' / fgrep 'линукс'. В любом случае меня выполнение даже за минуту не очень устроит, желательно уложиться в несколько секунд. На эластике вроде такое можно.

~~xtraeft~~ ★★☆☆
(24.03.15 11:16:47 MSK)
Последнее исправление: xtraeft 24.03.15 11:18:20 MSK (всего исправлений: 2)

Ответ на: комментарий от pi11 24.03.15 00:11:56 MSK

надпись крупными буквами читал в файле sphinxapi ?

WARNING # We strongly recommend you to use SphinxQL instead of the API

Ах да и как бы не забыть не юзер френдли мануалы в сфинксе. По типу - хотите чтобы все разжевали, платите бабки.

~~Jopich~~
(24.03.15 11:17:45 MSK)

Ответ на: комментарий от xtraeft 24.03.15 11:16:47 MSK

Файл дашь? Давай сравним вместе какой-то любой файл, потому что с той стороны интернета можно вбрасывать всё, что хочешь, совершая хуление лучших инструментов.

~~redhat~~
(24.03.15 11:19:47 MSK)

Ответ на: комментарий от redhat 24.03.15 11:19:47 MSK

Я же сказал, что не могу дать исходный файл. Там ничего загадочного: utf-8, 848057459 строк.

потому что с той стороны интернета можно вбрасывать всё, что хочешь

Зачем мне врать? Если бы оно работало быстрее грепа, я бы очень рад был.

~~xtraeft~~ ★★☆☆
(24.03.15 11:22:19 MSK)

Ответ на: комментарий от xtraeft 24.03.15 11:22:19 MSK

Файл бинарный или в виде текста/кода?

~~redhat~~
(24.03.15 11:31:47 MSK)

Ответ на: комментарий от redhat 24.03.15 11:31:47 MSK

Текст, в основном кириллица, но есть и английские буквы/цифры/символы.

~~xtraeft~~ ★★☆☆
(24.03.15 11:32:10 MSK)

Ответ на: комментарий от xtraeft 24.03.15 00:24:29 MSK

Всякие вилдкарды и регекспы нужны.

Вилдкарды, кроме *слово и слово* не индексируются. Регекспы не индексируются. По-моему в этом случае Elasticsearch не нужен.

goingUp ★★★★★
(24.03.15 11:49:56 MSK)

Ответ на: комментарий от Jopich 24.03.15 11:17:45 MSK

надпись крупными буквами читал в файле sphinxapi ?

WARNING # We strongly recommend you to use SphinxQL instead of the API

И причем тут MySQL? Ты эту надпись прочитал но не понял что-ли?

pi11 ★★★★★
(24.03.15 11:53:58 MSK)
Последнее исправление: pi11 24.03.15 12:01:54 MSK (всего исправлений: 1)

Ответ на: комментарий от xtraeft 24.03.15 11:32:10 MSK

вот результаты грепа 'линукс' дампа, если интересно, 5997074 строк с кириллицей/латиницей, весом 788 мегабайт:

→ fgrep  

real	0m0.307s
user	0m0.146s
sys	0m0.159s

→ ag 

real	0m0.386s
user	0m0.322s
sys	0m0.061s


→ pt 

real	0m4.902s
user	0m5.330s
sys	0m0.645s

→ ack 

real	0m6.926s
user	0m6.709s
sys	0m0.205s

pt — это the_platinum_searcher на Go.

Да, странно, я ранее замерял, и ag был более самый быстрый на мультибайтовых кодировках.

Кстати он не сильно от fgrep отстает на моём тесте, в отличие от твоего, где в 2 раза.

~~redhat~~
(24.03.15 12:12:29 MSK)

Ответ на: комментарий от pi11 24.03.15 11:53:58 MSK

как бы SphinxQL без mysql работать не будет :)

~~Jopich~~
(24.03.15 12:38:50 MSK)

Ответ на: комментарий от Jopich 24.03.15 12:38:50 MSK

Не знал этого. Но все равно не страшно, одной либой больше в системе.

pi11 ★★★★★
(24.03.15 12:57:37 MSK)

Ответ на: комментарий от redhat 24.03.15 12:12:29 MSK

Кстати он не сильно от fgrep отстает на моём тесте, в отличие от твоего, где в 2 раза.

Но у тебя и количество строк почти в 150 раз меньше :)
В любом случае эластик делал все это довольно быстро даже из коробки без настройки с архитектурой наугад. Почему то подумалось, что можно двигаться в этом направлении, тем более результаты надо веб интерфейс отдавать, а с этим у эластика все хорошо.

~~xtraeft~~ ★★☆☆
(24.03.15 13:39:27 MSK)

Ссылка

Ответ на: комментарий от pi11 24.03.15 12:57:37 MSK

Нужна не либа а БД

~~Jopich~~
(24.03.15 13:46:04 MSK)

Ответ на: комментарий от goingUp 24.03.15 11:49:56 MSK

плагин русской морфологии поставил ?

~~Jopich~~
(24.03.15 17:08:21 MSK)

Ответ на: комментарий от sT331h0rs3 23.03.15 21:53:23 MSK

функции распределения шардов, создания, восстановления и удаления индексов стали работать более надежно и предсказуемо.

Вот это хорошая новость.

«Мы стали более лучше удалять индексы» (ц)

Ej_Pulsar ★
(24.03.15 17:27:20 MSK)

Ответ на: комментарий от Ej_Pulsar 24.03.15 17:27:20 MSK

Раньше создание индексов на разваленном кластере с некоторой вероятностью приводило к тому, что индекс создавался как-то не до конца и застревал в таком состоянии. Надеюсь это они и починили.

maxcom ★★★★★
(24.03.15 19:10:55 MSK) автор топика

Баран key GNU

Алгоритм поиска методом ластика, при сравнении стираются оба операнда!

Woofywoof ★
(24.03.15 21:02:30 MSK)

Ссылка

Ответ на: комментарий от maxcom 24.03.15 19:10:55 MSK

Часто склоняют применить ELK в проектах больших данных (1ТБ+ входящих в сутки, 200+ТБ сжатого хранилища). Но с такой неопределённостью в поведении, настораживают затраты на эксплуатацию. Вспоминается анекдот про ультрасовременный самолёт («а сейчас попробуем с этим всем г**м взлететь»).

Будем подождать и использовать энтерпрайз. Этому проекту явно нужно дать годик-другой на дозревание, IMO.

Ej_Pulsar ★
(25.03.15 10:30:32 MSK)