Быстрая БД для агрегаций и работы с простейшими данными

big data, fulltext search, mongodb, oracle

0

2

Данные представлены в виде столбцов 5, по сути: несколько строк и чисел с плавающей точкой.

Основная задача - хранить сотни миллионов записей с возможностью нестрогого полнотекстового поиска по ним с возможностью агрегации по числовым столбцам.

Мне в голову пришло использовать mongodb, так как полнотекстовый поиск там как-раз нестрогий и, кажется, шустрый. Но смущает объём данных и скорость фреймворка агрегаций.

Я в монге хранил до 20млн живых записей, одноуровневых, обычные запросы работали шустро, достаточно. Но сейчас разговор идёт о сотнях миллионов.

Было предложено использовать Oracle, но я его не использовал и всё, что вижу в сети - он шустрее монги в агрегациях, но про поиск бенчмарков не нашёл и провести сейчас не могу.

Может у кого будут советы какую БД использовать? Какие могут быть проблемы с монгой? Чем же хороша Oracle или привыкли?

Ссылка

← Доки по Unity 2d

Обработка события подключения USB флешки к компьютеру linux →

Мое мнение можно смело игнорировать, но таки я тоже посоветую oracle причем на серверах sun.

Аргументирую это тем, что оно является стандартом дефакто в серьезных местах. + на родных серверах оптимизация.

~~unt1tled~~ ★★★★
(04.09.14 19:26:47 MSK)
Последнее исправление: unt1tled 04.09.14 19:28:42 MSK (всего исправлений: 1)

Можно рассмотреть что-нибудь вроде: postgress + (solr|elastic search)

anonymous
(04.09.14 19:31:50 MSK)

В postgresql есть полнотекстовый поиск, можно натравливать sphinx для создания поискового индекса, искать по индексу, и т.п., хотя, если поиск тупо по числам, то это не имеет смысла.

menangen ★★★★★
(04.09.14 19:35:55 MSK)
Последнее исправление: menangen 04.09.14 19:36:10 MSK (всего исправлений: 1)

Java: https://github.com/leeadkins/elasticsearch-redis-river
JavaScript: https://github.com/visionmedia/reds
Python: https://github.com/georgepsarakis/techu-search-server

menangen ★★★★★
(04.09.14 19:45:47 MSK)

Ссылка

Ответ на: комментарий от unt1tled 04.09.14 19:26:47 MSK

+ на родных серверах оптимизация.

Какая?

~~vertexua~~ ★★★★★
(04.09.14 19:51:30 MSK)

Ответ на: комментарий от unt1tled 04.09.14 19:26:47 MSK

Да это правда, конечно, но пока нет необходимости для такого. Но почему оракл? Только ли из-за объёма данных и скорость агрегаций/выборок? Что же по полнотекстовому поиску?

tia ★
(04.09.14 20:04:26 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 04.09.14 19:31:50 MSK

Увы, постгре слишком слаба на больших, даже простых данных. Там, где он тянет простейшие выборки с 1млн записей, монга тянет раз в 20 больше. Это примерные цифры, запросы строились очень давно. Но разница реально большая.
Если юзать отдельный поисковик, то может стоит задуматься о более оптимальном хранилище, вроде HBase? Но в любом случае в отдельном поисковике будет большая база и трудно будет справляться.

tia ★
(04.09.14 20:10:34 MSK) автор топика

mongo

Siado ★★★★★
(04.09.14 20:10:47 MSK)

Ответ на: комментарий от menangen 04.09.14 19:35:55 MSK

Поиск по тексту(до 255 символов), но и постгре с такими объёмами не справится(справится, но ресурсов нужно дофига), и сфинкс не сможет справляться, чую я.

tia ★
(04.09.14 20:12:01 MSK) автор топика

Ответ на: комментарий от Siado 04.09.14 20:10:47 MSK

Можешь чуть аргументировать ответ? Мне интересно понять логику выбора )

tia ★
(04.09.14 20:12:50 MSK) автор топика

Ответ на: комментарий от vertexua 04.09.14 19:51:30 MSK

Я откуда знаю какая? Они сами говорят (сан говорил), что под свои продукты оптимизируют свои сервера. В тч и под солярку.

~~unt1tled~~ ★★★★
(04.09.14 20:21:55 MSK)

Ответ на: комментарий от tia 04.09.14 20:12:01 MSK

постгре с такими объёмами не справится

Прошу примеры, ибо твой опыт противоречит моему опыту.

Про n-gram индексы в постгресе: http://wm.ite.pl/articles/sql-ngram-index.html#n-grams-indexes

outtaspace ★★★
(04.09.14 20:22:57 MSK)

Я бы выбрал MongoDB с шардами. Больше данных - больше шардов. Если нужны будут сложные аггрегации, думаю, можно подключить hadoop.

PostgreSQL тоже хорош на самом деле, но по сравнению с монгой его слишком больно скейлить. ~~WEB SCALE YEAAAH~~

kdask
(04.09.14 20:38:53 MSK)

Ссылка

Ответ на: комментарий от unt1tled 04.09.14 20:21:55 MSK

Понятно. «ПравославноЪ»

~~vertexua~~ ★★★★★
(04.09.14 20:52:14 MSK)

Ответ на: комментарий от vertexua 04.09.14 20:52:14 MSK

Что тебе понятно? Тут читать с абзаца software in silicon.

EvgGad_303 ★★★★★
(04.09.14 21:07:40 MSK)

Ответ на: комментарий от EvgGad_303 04.09.14 21:07:40 MSK

Вот такой ответ уже лучше, конкретные вещи

~~vertexua~~ ★★★★★
(04.09.14 21:10:10 MSK)

Ссылка

Ответ на: комментарий от outtaspace 04.09.14 20:22:57 MSK

Примеры привести сейчас не смогу уже, года 1.5 прошло с того момента, когда перевели на монгу.
Там не в поиске по тексту были проблемы, а в селектах. Монга выиграла и до сих пор выдерживает(данных там миллионов 60 уже). Может быть тонко настроив постргре, мы бы смогли заставить его работать так же шустро(я почти уверен что могли бы сильно ускорить), но не хотелось с этим возиться сильно, ведь была монга - хорошая бд, которая очень хорошо подходила под наши нужды.

А за ссылку спасибо огромное! Интересный подход, но вот только я не нашёл как там создаются н-граммы, как пополняется сам индекс. Он сам как-то умеет?

tia ★
(04.09.14 21:58:04 MSK) автор топика

Ответ на: комментарий от tia 04.09.14 21:58:04 MSK

http://www.postgresql.org/docs/current/static/pgtrgm.html

outtaspace ★★★
(04.09.14 22:44:59 MSK)

Ссылка

Ответ на: комментарий от tia 04.09.14 20:12:50 MSK

Шустрая и не проблема хранить большой объем данных.

Siado ★★★★★
(04.09.14 22:49:47 MSK)

Ссылка

Tokumx sharded cluster, исходя из постановки задачи.

Ip0 ★★★★
(04.09.14 23:19:29 MSK)

Ссылка

Ответ на: комментарий от unt1tled 04.09.14 19:26:47 MSK

А мне нравится оно на AIX'ах :)

kukara4 ★★
(05.09.14 07:53:44 MSK)

ТС, а есть бюджет и оракловый дбашник?

kukara4 ★★
(05.09.14 08:22:33 MSK)

Монга норм. В крайнем случае пошардшиь.

dizza ★★★★★
(05.09.14 09:11:24 MSK)

Ссылка

KDB+ уже предлагали?

anonymous
(05.09.14 10:35:49 MSK)

Ссылка

Ответ на: комментарий от kukara4 05.09.14 08:22:33 MSK

если есть бюджет на оракл и дбшника, нет смысла ничего брать кроме oracle.

~~erzent~~ ☆☆
(05.09.14 10:45:38 MSK)

Ответ на: комментарий от kukara4 05.09.14 07:53:44 MSK

А ты проказник :)

EvgGad_303 ★★★★★
(05.09.14 10:55:23 MSK)

Ссылка

Ответ на: комментарий от erzent 05.09.14 10:45:38 MSK

Ну мало ли какая там ситуация, может человек ТС лучше знает монго, а оракл незнает вообще. И если выберет оракл, его ждет много граблей.

kukara4 ★★
(05.09.14 11:06:31 MSK)

Ответ на: комментарий от kukara4 05.09.14 11:06:31 MSK

если бы он знал хорошо монго, он вряд ли бы такие вопросы задавал, скорее всего он все бд знает на уровне установки и созданию базы.

~~erzent~~ ☆☆
(05.09.14 11:17:22 MSK)

Ответ на: комментарий от unt1tled 04.09.14 19:26:47 MSK

А зачем ты, дебил, свое убогое мнение вообще высказывал? Промолчал бы, сука, за умного сошел бы.

anonymous
(05.09.14 11:17:34 MSK)

Ссылка

Ответ на: комментарий от tia 04.09.14 20:10:34 MSK

Ты больной, да? Postgres оптимизировать не умеешь?

anonymous
(05.09.14 11:18:34 MSK)

Ответ на: комментарий от anonymous 05.09.14 11:18:34 MSK

твой postre надо оптимизировать при добавлении каждого нового пользователя или таблички, у знакомого чуть изменили конфигурацию 1С, и надо полностью postgre переделывать, иначе упирается в 1 ядро проца и падает.

~~erzent~~ ☆☆
(05.09.14 11:23:41 MSK)
Последнее исправление: erzent 05.09.14 11:28:16 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от erzent 05.09.14 11:17:22 MSK

Перечитал его сообщение, зато с монго уже есть опыт.

А для ТС'а. Если есть деньги - тогда оракл. Про такое говно как XE забудь сразу, только EE. ИМХО, конечно, но ставить 1 базу стенделоном как-то хреновенько. Нужно настраивать датагард, нужно рманом правильно делать бекапы, с очисткой архивлогов. При установке еще нужно будет много чего настроить под себя, начиная с тейблспейсов. Но сама жара пойдет, когда у тебя начнут валить ошибки типа ORA-06553, тогда вешайся. И это вообще, самый минимум, долго описывать даже как ее просто поставить и более-менее настроить, а за возможности поднастройки я вообще молчу.

Ставить с помощью хауту в инете - забей сразу, половина не рабочие изначально, половина бредовые, найти правильный гайд будет сложно. Да и нужно уметь хорошо курить оф документацию.

В общем, опять ИМХО, но выбирай оракл, если есть бабки. На официальную поддержку, которая стоит дофига в год, можно забить. За последние 2 года еще ни разу не писали в нее, все решали своими силами. Лучше брать саппорт у аутсорсеров, желательно со статусом платинового партнера, так будет дешевле. Просто если бы вдруг у тебя что-то сломается, выдерут не по-детски.

kukara4 ★★
(05.09.14 11:27:17 MSK)
Последнее исправление: kukara4 05.09.14 11:36:20 MSK (всего исправлений: 2)

Ответ на: комментарий от kukara4 05.09.14 11:27:17 MSK

Нужно настраивать датагард...

Не пугай человека, можно cluster framework на уровне ОС запилить для простого HA.

EvgGad_303 ★★★★★
(05.09.14 11:43:00 MSK)

Ответ на: комментарий от EvgGad_303 05.09.14 11:43:00 MSK

Не, пугать его потом рак должен, а не дг, дг еще цветочки. :) Хай ТС сразу знает что его ждет.

kukara4 ★★
(05.09.14 11:48:50 MSK)

Ответ на: комментарий от kukara4 05.09.14 11:48:50 MSK

Ну, это как отходной вариант, когда ТС увидит цены на все эти раковые примочки xD

EvgGad_303 ★★★★★
(05.09.14 12:00:32 MSK)

Ответ на: комментарий от EvgGad_303 05.09.14 12:00:32 MSK

Фу, грязный ентерпрайз, латентные гомосеки и унылая проприетарщина. Надеюсь мы наставили ТС'а на путь только хардкорного опенсорса :)

kukara4 ★★
(05.09.14 12:21:39 MSK)

Ответ на: комментарий от kukara4 05.09.14 12:21:39 MSK

грязный ентерпрайз

Кровавый же :)

EvgGad_303 ★★★★★
(05.09.14 13:05:31 MSK)

Ссылка

Ответ на: комментарий от kukara4 05.09.14 08:22:33 MSK

Пока нет, но и объёмы не сразу будут такие большие. Точнее, будут, но в будущем можно перейти на что-то другое. Сейчас всё в виде стартапа и в распоряжении есть разве что впски digitalocean.

tia ★
(05.09.14 21:19:22 MSK) автор топика

Ответ на: комментарий от kukara4 05.09.14 11:06:31 MSK

С БД мне самому мало придётся работать - есть жавакодер, что хочет заюзать оракл, вот только мне нужно всё-равно будет с этим работать и думать о предоставлении ресурсов, в т. ч. финансовых. Пока чувствуется что это слишком мощно. А вот монга - она в любом случае понадобится.

tia ★
(05.09.14 21:21:05 MSK) автор топика

Ссылка

Ответ на: комментарий от erzent 05.09.14 11:17:22 MSK

Я знаю много баз данных, но именно работал и правда не со многими: кассандра, мускуль, постгре, мариа, редис, мемкешед, монго. Монго я знаю хорошо, хотя шардонг и репикацию я и правда не использовал - а сейчас придётся. Вопросы я обычно задаю не от незнания, а от желания узнать мнение третьей стороны :) Да и по сути основным вопросом было «а будет ли толк сейчас думать о оракл?»

tia ★
(05.09.14 21:24:03 MSK) автор топика

Ответ на: комментарий от tia 05.09.14 21:24:03 MSK

о оракл толк думать есть всегда, если бюджет его позволяет, лучше него ничего нет.

~~erzent~~ ☆☆
(05.09.14 21:25:16 MSK)

Ответ на: комментарий от kukara4 05.09.14 11:27:17 MSK

О, спасибо большое! Сейчас понимаю что объёмы и нагрузки будут не такие, так что пока хватит монги. Но про оракл надо будет всё изучить, тему эту я и правда совсем не знаю.

tia ★
(05.09.14 21:29:47 MSK) автор топика

Ответ на: комментарий от erzent 05.09.14 21:25:16 MSK

Примерно такой вывод я и сделал. Изучу ещё на досуге, может и решимся, но, увы, не сейчас. Спасибо!

tia ★
(05.09.14 21:30:35 MSK) автор топика

Ссылка

Ответ на: комментарий от tia 05.09.14 21:29:47 MSK

ты лучше смотри на будущее, разрабатывать сразу под оракл дешевле получится, чем переводить потом, большие объёмы данных.

~~erzent~~ ☆☆
(05.09.14 21:31:02 MSK)

Ссылка

Плюс Оракла в нормальном, рабочем и многофункциональном PLSQL. У монги ее js-api это ахтунг. Прежде чем выбирать БД, подумай где и как будет реализована логика, какие функции будешь использовать и т.п. А то было у меня в монге: 90% логических функций не запилили, был только И (&) и то, если память не изменяет он был бажным.

И сюда же про монгу. Если ты ее начнешь патчить, патчить js-движек (v8/gecko), то ни саппорта, ничего не жди. Если в компании нужно завязать все на себя это твой шанс. Без тебя потом фиг что кто сделает :D

~~gh0stwizard~~ ★★★★★
(05.09.14 21:34:27 MSK)
Последнее исправление: gh0stwizard 05.09.14 21:40:23 MSK (всего исправлений: 2)