NoSQL БД для временных рядов. Посоветуйте подход к проектированию или готовую.

nosql, базы данных, временные ряды, нефть

1

4

Уже был один топик — Посоветуйте БД для кучи данных по мониторингу. Но требования упростились.

Итак, 3 сейсмостанции на объекте присылают по 450 байт бинарных данных каждые пол-секунды. Надо писать все приходящие данные в базу данных (т.е. в среднем 6 записей в секунду общим весом 2.7 КиБ) с отметками времени. Также необходимо сжатие данных, которые кладутся на хард, на лету.

Плюс со всех объектов (их будет около 15) надо в реальном времени складировать входящие данные на сервера хранения (их два), то есть на сервера хранения будет поступать уже 90 записей в секунду общим весом 40 КиБ (т.е. около 3 млрд записей на 1 ТиБ в год, если не учитывать сжатие). Это не обязательно должна делать сама БД, я это могу реализовать прослойкой, в т.ч. клиент-серверной.

Что касается чтения: нужен буфер последних нескольких секунд (но это не обязательно должно быть в самой БД, могу сделать прослойку, которая будет класть все новые данные в БД + держать кеш в памяти) и возможность быстро получить все данные по одной или нескольким сейсмостанциям за заданный период.

Система должна работать годами без всяческого вмешательства.

Есть ли что-либо готовое, что удовлетворит таким требованиям? Смотрю в сторону SciDB, но пока не особо разбирался, мутноватая она какая-то.

Или, может быть, порекомендуете, как лучше реализовать такое самому? В каком формате хранить данные на харде (HDF5?), как сжимать, как дублировать на сервера хранения?

Ссылка

←	Gentoo: regen-world - need test

QT. Редактор карт.

→

← 1 2 →

Datomic

anonymous
(24.03.13 12:25:37 MSK)

Ответ на: комментарий от anonymous 24.03.13 12:25:37 MSK

Нужен только свободный софт, это требование заказчика.

Obey-Kun ★★★★★
(24.03.13 12:27:39 MSK) автор топика

Ссылка

В каком формате хранить данные на харде (HDF5?),

Если формат одной записи известен и длина фиксирована, то тупо друг за другом.

как сжимать,

zlib?

как дублировать на сервера хранения?

Если скажем посуточные бэкапы, то тупо копировать файл записанный за сутки, каждые сутки создается новый файл.

Если непрерывно, то дублировать на сервер входящие данные и делать там все то же самое.

~~AIv~~ ★★★★★
(24.03.13 12:41:09 MSK)

Ссылка

Можно посмотреть в сторону CouchDB.

unfo ★★★★★
(24.03.13 12:58:54 MSK)

Ссылка

Такой поток потянет практически любая СУБД, но все они требуют периодического обслуживания. Так что в очередной раз советую сделать руками binary log.

В каком формате хранить данные на харде (HDF5?)

простой бинарный лог типа { (HEADER, data, TAIL) } + ротация файлов при достижении определённого размера или кол-ва записей + сжатие старых файлов (последние несколько держим для быстрого доступа). Т.е. практически syslog c logrotate, но только для бинарных данных.

TAIL это ~ размер блока, для чтения файла в обратном направлении.

возможность быстро получить все данные по одной или нескольким сейсмостанциям за заданный период.

индекс будет через именования файлов, типа OBJ_ID/20101010T1400

как дублировать на сервера хранения

в двух словах, через очереди, что-то типа ZMQ или свои реализации. Всё зависит от насколько автономно всё должно работать и как важны данные.

~~mashina~~ ★★★★★
(24.03.13 13:25:30 MSK)

opentsdb смотрел?

Reset ★★★★★
(24.03.13 13:29:38 MSK)

Ответ на: комментарий от mashina 24.03.13 13:25:30 MSK

простой бинарный лог типа { (HEADER, data, TAIL) } + ротация файлов при достижении определённого размера или кол-ва записей

Какого размера? Как много файлов можно держать в директории, В файловой системе? Не поможет ли древовидность директорий?

Obey-Kun ★★★★★
(24.03.13 14:10:36 MSK) автор топика

Ответ на: комментарий от Reset 24.03.13 13:29:38 MSK

Судя по всему, классная вещь. Даже сможет оповещать наш софт о новых данных, т.е. не придётся делать для этого прослойку. Надо изучить. И компрессия есть. В общем, видимо, это нам подходит, большое спасибо!

Obey-Kun ★★★★★
(24.03.13 14:18:36 MSK) автор топика

Ответ на: комментарий от Obey-Kun 24.03.13 14:18:36 MSK

Увы, не годится. Нам надо хранить всё с милисекундами, но...

Can I store sub-second precision timestamps in OpenTSDB?
No. Right now timestamps are encoded on 4 bytes so this is not possible. Note that this is not typically needed for OpenTSDB's main use case, which consists in monitoring large clusters of commodity machines. If you think you really need sub-second precision, please reach out to our mailing list for advices: opentsdb@googlegroups.com

Плюс в ней бинарные данные, как я понял, нельзя хранить — только числа.

Obey-Kun ★★★★★
(24.03.13 14:23:03 MSK) автор топика

Ссылка

Нашёл вот такую штуку, использующую HDF5: http://andyfiedler.com/projects/time-series-database/

Хотя всё более склоняюсь к тому, чтобы всё сделать самому при помощи HDF5.

Obey-Kun ★★★★★
(24.03.13 15:10:16 MSK) автор топика

Ссылка

Ответ на: комментарий от Obey-Kun 24.03.13 14:10:36 MSK

Какого размера?

от нескольких мб до десятков.

Как много файлов можно держать в директории

зависит от ФС. Все более-менее современные ФС могут хорошо переваривать десятки/сотни тыс. файлов (ext3/4, xfs и т.п.).

Не поможет ли древовидность директорий?

поможет, если придётся работать когда-либо с файлами человеческими руками.

~~mashina~~ ★★★★★
(24.03.13 15:54:33 MSK)

Ссылка

Старый добрый Postgres. И никакой nosql содомии.

anonymous
(24.03.13 15:57:17 MSK)

Ответ на: комментарий от anonymous 24.03.13 15:57:17 MSK

он, конечно, добрый. Но не может 'работать годами без всяческого вмешательства'

~~mashina~~ ★★★★★
(24.03.13 16:06:25 MSK)

KDB

dizza ★★★★★
(24.03.13 16:06:25 MSK)

Ссылка

Ответ на: комментарий от mashina 24.03.13 16:06:25 MSK

Постгрес - это наше все !

Вам дело сказали про постгрес. Работает годами, что нельзя сказать про современные базки, у которых возраст такой, что про года надежной работы сказать ничего нельзя.

Задача у вас самая обычная для постгреса, никаких особых челенджей не вижу.

megera
(24.03.13 17:04:59 MSK)

Задача самая обычная для постгреса, не вижу ничего такого особого.

megera
(24.03.13 17:05:56 MSK)

Ссылка

Ответ на: Постгрес - это наше все ! от megera 24.03.13 17:04:59 MSK

Не хочу я релятивную БД для этого. По идеологии не подходит. Вот сам подумай, есть данные за 3 года, а нам нужно взять кусок с 2013-10-10 14:10:15 по 2013-10-10 14:20:21. NoSQL БД, заточенная под временные ряды, заведомо будет делать такую операцию быстрее.

Obey-Kun ★★★★★
(24.03.13 18:07:07 MSK) автор топика
Последнее исправление: Obey-Kun 24.03.13 18:10:40 MSK (всего исправлений: 2)

Ответ на: комментарий от Obey-Kun 24.03.13 18:07:07 MSK

Не хочу я релятивную БД для этого

Реляционную же.

encyrtid ★★★★★
(24.03.13 18:12:14 MSK)

Ссылка

Ответ на: комментарий от Obey-Kun 24.03.13 18:07:07 MSK

Вот сам подумай, есть данные за 3 года, а нам нужно взять кусок с 2013-10-10 14:10:15 по 2013-10-10 14:20:21.

Создаешь интовый столбец с time_t, строишь по нему индекс, дальше простым селектом получаешь данные за интервал

annulen ★★★★★
(24.03.13 18:17:55 MSK)

Ответ на: комментарий от Obey-Kun 24.03.13 18:07:07 MSK

Да складывайте в бинарные файлы, как ~~mashina~~ советует. Названия файлов - какая-то функция от таймстампов (ну там таймстамп со сброшенными последними битами, например), будет компактно и с быстрым выделением диапазонов

Deleted
(24.03.13 18:18:25 MSK)

Ссылка

Ответ на: Постгрес - это наше все ! от megera 24.03.13 17:04:59 MSK

Постгрес - это наше все !

ничего страшного, детский максимализм проходит, хотя не у всех.

~~mashina~~ ★★★★★
(24.03.13 18:38:43 MSK)

Ссылка

Ответ на: комментарий от annulen 24.03.13 18:17:55 MSK

Создаешь интовый столбец с time_t, строишь по нему индекс, дальше простым селектом получаешь данные за интервал

отлично придумал. Ещё стоит сказать, что его оценочный 1 ТиБ/год увеличится до 2-6 на пустом месте

~~mashina~~ ★★★★★
(24.03.13 18:46:25 MSK)

Ответ на: комментарий от mashina 24.03.13 18:46:25 MSK

Ещё стоит сказать, что его оценочный 1 ТиБ/год увеличится до 2-6 на пустом месте

Тогда data partitioning.

true_admin ★★★★★
(24.03.13 23:03:42 MSK)

Ответ на: комментарий от mashina 24.03.13 16:06:25 MSK

Но не может 'работать годами без всяческого вмешательства'

пруфлинк в студию

true_admin ★★★★★
(24.03.13 23:05:38 MSK)

Ссылка

Ответ на: комментарий от Obey-Kun 24.03.13 18:07:07 MSK

ошибаешься 8) она будет быстрее в некоторых других случаях

Deleted
(24.03.13 23:15:33 MSK)

Ссылка

Ответ на: комментарий от mashina 24.03.13 18:46:25 MSK

махровый nosql с индексами выжрет также, или будет дооолго думать на запросах 8)

Deleted
(24.03.13 23:16:19 MSK)

Ответ на: комментарий от true_admin 24.03.13 23:03:42 MSK

Тогда data partitioning.

и как это поможет избавиться от лишних Тб? Тем болеев Pg партиционированое настоящщий гемор, навряд ли получится его автоматизировать на N лет так, чтобы совсем не нужно было обслуживвать.

~~mashina~~ ★★★★★
(24.03.13 23:24:15 MSK)

Ответ на: комментарий от Deleted 24.03.13 23:16:19 MSK

махровый nosql с индексами выжрет также, или будет дооолго думать на запросах 8)

понимаешь в чём дело.. индексы здесь для быстрых выборок не нужны. По крайней мере такие горомоздкие и совсем GP, как в реляционных СУБД.

~~mashina~~ ★★★★★
(24.03.13 23:32:33 MSK)

Ответ на: комментарий от mashina 24.03.13 23:24:15 MSK

и как это поможет избавиться от лишних Тб?

я думал ты писал про увеличение ДБ в два-три раза из-за расстановки индексов. Предложил вариант как ускорить селект без индекса.

навряд ли получится его автоматизировать на N лет так, чтобы совсем не нужно было обслуживвать.

Судя по докам, правил придётся нагенерить много (на N лет вперёд), это, безусловное, слабое место постгреса.

Что ты подразумеваешься под «обслуживанием»? С чего ему ломаться?

true_admin ★★★★★
(24.03.13 23:34:24 MSK)

Ссылка

Ответ на: комментарий от mashina 24.03.13 23:32:33 MSK

бгг, ты будешь линейным чтением разруливать время, или таки построишь тотже самый махровый b-tree как в постгресе и вылезешь из лужи.

А может ты просто не знаешь что такое b-tree и метанируешь начитавшись хабра?

Deleted
(24.03.13 23:35:51 MSK)

Ответ на: комментарий от Deleted 24.03.13 23:35:51 MSK

эй, эй, давайте без оскорблений.

true_admin ★★★★★
(25.03.13 00:00:24 MSK)

Ответ на: комментарий от true_admin 25.03.13 00:00:24 MSK

докатились, указать оппоненту на безграмотный пердешь уже нельзя

Deleted
(25.03.13 00:19:34 MSK)

Ответ на: комментарий от Deleted 25.03.13 00:19:34 MSK

А ты выбирай выражения которыми свою мысль доносишь.

true_admin ★★★★★
(25.03.13 00:25:01 MSK)

MongoDB - элементарно работать. Cassandra - куча данных, no single point of failure, высокая производительность. Чрезвычайно высокая производительность если потеря данных иногда (очень редко) - это нормально

~~vertexua~~ ★★★★★
(25.03.13 00:27:26 MSK)
Последнее исправление: vertexua 25.03.13 00:28:53 MSK (всего исправлений: 2)

Ответ на: комментарий от vertexua 25.03.13 00:27:26 MSK

Что касается чтения: нужен буфер последних нескольких секунд

MongoDB capped collection

~~vertexua~~ ★★★★★
(25.03.13 00:29:29 MSK)

Ссылка

Ответ на: комментарий от true_admin 25.03.13 00:25:01 MSK

ну давайте альтернативы что ли, разрешенные. а то я вашего брата хорошо знаю - стоит мне начать использовать «Вы изволили оскорбить мой слух и обоняние» как это быстро станет запрещенным. плавали знаем

Deleted
(25.03.13 00:29:50 MSK)

Ссылка

Ответ на: комментарий от vertexua 25.03.13 00:27:26 MSK

через 10 лет о них всех забудут, и речи нет о столь долгой поддержке формата баз, закопать

Deleted
(25.03.13 00:30:27 MSK)

Ответ на: комментарий от Deleted 25.03.13 00:30:27 MSK

Ммм... Export/Import?

~~vertexua~~ ★★★★★
(25.03.13 00:31:13 MSK)

Ответ на: комментарий от vertexua 25.03.13 00:31:13 MSK

автор хочет автоматизьму

Deleted
(25.03.13 00:32:52 MSK)

Ответ на: комментарий от Deleted 25.03.13 00:19:34 MSK

Ваш диалог достоин второго класса младшей школы. «Будет быстрее - Нет не будет - Нет будет». Причем тут вообще она реляционка или нет на одной то коллекции или таблице? Важно что внутри

~~vertexua~~ ★★★★★
(25.03.13 00:33:56 MSK)
Последнее исправление: vertexua 25.03.13 00:34:16 MSK (всего исправлений: 1)

Компрессию может поддерживать твоя файловая система, надо посмотреть чтобы это не мешало базе

~~vertexua~~ ★★★★★
(25.03.13 00:35:31 MSK)
Последнее исправление: vertexua 25.03.13 00:36:00 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Deleted 25.03.13 00:32:52 MSK

автор хочет автоматизьму

автор хочет один раз сделать и забить, а это подрузамевает работу сервисов в локалке и годы без обновлений («работает — не трогай»).

true_admin ★★★★★
(25.03.13 00:36:09 MSK)

Ответ на: комментарий от true_admin 25.03.13 00:36:09 MSK

Я тоже так подумал. Если у тебя база 10 летней давности, то можно ее средствами сделать дамп в какой-то простой формат. А потом уже импортировать в супер-пупер базу 2025 года

~~vertexua~~ ★★★★★
(25.03.13 00:37:46 MSK)
Последнее исправление: vertexua 25.03.13 00:37:56 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от vertexua 25.03.13 00:33:56 MSK

Вы какраз пересказал мой пост - на указанно запросе разницы не будет, если будут индексы.

Deleted
(25.03.13 00:38:17 MSK)

Ответ на: комментарий от Deleted 25.03.13 00:38:17 MSK

Разница будет, но совершенно в непредсказуемую сторону. Если это важно, то надо просто проверить

~~vertexua~~ ★★★★★
(25.03.13 00:39:53 MSK)

Ответ на: комментарий от vertexua 25.03.13 00:39:53 MSK

Разница будет, но совершенно в непредсказуемую сторону.

Признайся Вам просто нечего сказать было.

Deleted
(25.03.13 00:44:09 MSK)

NoSQL для автономной работы в течение 10 лет? Оригинальная мысль.

tailgunner ★★★★★
(25.03.13 00:48:44 MSK)

Ответ на: комментарий от Deleted 25.03.13 00:44:09 MSK

Так я же сказал что хотел. 0_о

~~vertexua~~ ★★★★★
(25.03.13 00:48:47 MSK)

Ответ на: комментарий от tailgunner 25.03.13 00:48:44 MSK

Нельзя?

~~vertexua~~ ★★★★★
(25.03.13 00:49:06 MSK)

Ответ на: комментарий от vertexua 25.03.13 00:49:06 MSK

Нельзя?

Я разрешаю. Но сам бы точно не стал.

tailgunner ★★★★★
(25.03.13 00:50:10 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Gentoo: regen-world - need test

Development

QT. Редактор карт.

→

Постгрес - это наше все !

Похожие темы