В какой СУБД хранить сложные структуры данных?

0

1

Добрый день. Есть такая структура данных:

{
  key_number_1: {
      key_date_1: [
           {'min': 125,
            'max': 300},
           {'min': 10,
            'max': 15},
           {'min': 15,
            'max': 20,}
           ...
           {'min': 0,
            'max': 10},
        ],
      key_date_2: [
           {'min': 125,
            'max': 300},
           ...
           {'min': 10,
            'max': 15},
        ],
     ...
      key_date_3: [
           {'min': 600,
            'max': 800},
           ...
           {'min': 90,
            'max': 100},
        ],
    }
  key_number_2: {
      key_date_1: [
           {'min': 10,
            'max': 40},
           ...
           {'min': 0,
            'max': 10},
        ],
      key_date_2: [
           {'min': 125,
            'max': 300},
           {'min': 10,
            'max': 15},
        ],
     ...
      key_date_3: [
           {'min': 600,
            'max': 800},
           ...
           {'min': 110,
            'max': 111},
    }
}

Мне нужно извлекать по key_number_* и key_date_* все или часть элементов, которые находятся на третьем уровне. Т.е. словари {min: ..., max: ...}

Решением «в лоб» было создание одной «плоской» таблицы с такой структурой:

id
number
date
min
max

В качестве СУБД использую MySQL, тип таблицы — MyISAM. Сделал составные индексы (number date). Текущий размер таблицы около 12 ГБ, количество строк около 200 млн. Выборка происходит очень долго.

Одной из идей как увеличить быстродействие было разнести данные по key_number_* и key_number_ в отдельные таблицы. Название таблиц — Table{$key_number}_{$str_key_date}. От этой идеи отказался, так как будет трудно делать выборку по key_number_*, игнорируя key_number_* из-за того, что появится куча таблиц, названия которых придется получать, как-то отделять номер от даты.

Сейчас смотрю в сторону нереляционных баз данных, в которых можно будет извлекать нужные данные по нужным мне ключам.

Сейчас выбираю себе нереляционное СУБД. Пока что по документации:

Redis — простая БД для хранения ключ -> значение;
CouchDB — умеет хранить данные в формате JSON, но не понятно, может ли быстро извлекать данные;
MongoDB — судя по документации, у меня сложилось впечатление, что эта штука нужна для создания «плоских» таблиц без структуры. По идеи можно перенести данные с MySQL, но не думаю, что быстродействие увеличится.

Собственно вопрос в том, какую СУБД мне выбрать?

Ссылка

←	Реквестируются пояснения по Mozilla Socorro

perl utf8 regexp

→

Эта структура вписывается в файловую систему:

root_dir/ --> key_number_1/ --> key_date_1/ --> file0, file1, ... (содержимое файла 0 --> min': 125, 'max': 300)
                            --> key_date_2/ --> file0, file1, ... (содержимое файла 0 --> min': 125, 'max': 300)
          --> key_number_2/ --> key_date_1/...

anonymous
(13.02.13 11:36:41 MSK)

Ответ на: комментарий от anonymous 13.02.13 11:36:41 MSK

Полагаю, что такой вариант подойдет, если файлов будет не много. А у меня в базу данных пишется для каждого key_date_* и key_number_* около 3000 строк. Создание мелких 3000 файлов мне кажется нерациональной нагрузкой на файловую систему.

dicos ★★★
(13.02.13 11:42:15 MSK) автор топика

12 гиг и долго? купи железку по мощнее, дикс быстрее и памяти по больше.

ukr_unix_user ★★★★
(13.02.13 11:42:41 MSK)

Сейчас присматриваюсь к elasticsearch http://www.elasticsearch.org/

dicos ★★★
(13.02.13 11:42:47 MSK) автор топика

Ссылка

Ответ на: комментарий от ukr_unix_user 13.02.13 11:42:41 MSK

запросов будет очень много. Придется целый кластер из серверов создавать, чтобы все у всех работало быстро.

dicos ★★★
(13.02.13 11:44:27 MSK) автор топика

Ссылка

postgresql ещё не предлагали с партицирование данных по условию?

Atlant ★★★★★
(13.02.13 11:47:56 MSK)

Ответ на: комментарий от Atlant 13.02.13 11:47:56 MSK

P.S. есть возможность создать свои типы данных, их ограничения, функции по работе с данными типами.
P.P.S. более дорогостоящей и 'возможно' более скоростной возможностью является OracleDB

Atlant ★★★★★
(13.02.13 11:51:13 MSK)
Последнее исправление: Atlant 13.02.13 11:53:13 MSK (всего исправлений: 2)

LDAP

anonymous
(13.02.13 11:52:06 MSK)

Ссылка

Посмотри couchbase. Очень быстрая и умеет map раскидывать по нодам.

monk ★★★★★
(13.02.13 12:08:41 MSK)

Ссылка

Насколько я помню - монго умеет делать выборки по «глубинным» условиям и даже строить по ним индексы. Почитай внимательно доки. Только внимательно читай про многопоточность - у них были проблемы типа «у нас есть mapreduce, но он работает только на одном ядре и пепячит порционный global write lock». Но когда нет таблиц миллионников или (100к+оч много запросов) то на недостатки монги можно забить и радоваться действительно удобным фичам.

Если юзаешь rails или ruby - есть удобный ORM - mongoid.

mr_ffloyd
(13.02.13 12:52:27 MSK)

сколько занимает одна строка? 20 байт?
может и не нужна субд - в память все влезет

x905 ★★★★★
(13.02.13 12:52:53 MSK)

Ответ на: комментарий от x905 13.02.13 12:52:53 MSK

mongo и так приемущественно в памяти живет. А ложить в память используя стандартные структуры языка и самому писать поиск - можно, только если объемы данных не увеличатся на порядки (100к еще ок, думаю, но тут зависит от скорости языка и знания алгоритмов).

mr_ffloyd
(13.02.13 13:20:37 MSK)

Ссылка

монга идеально подходит, почитай еще раз

trashymichael ★★★
(13.02.13 13:26:13 MSK)

Ссылка

Ответ на: комментарий от dicos 13.02.13 11:42:15 MSK

Создание мелких 3000 файлов мне кажется нерациональной нагрузкой на файловую систему.

для ext3/4 это мелочь. Сложности возникали у меня если файлов >10M. Да и то, в СУБД было не лучше.

~~drBatty~~ ★★
(13.02.13 13:43:31 MSK)

Ссылка

MongoDB жрёт JSON, как раз то, что есть у тебя в начале поста. Попробуй, может и взлетит.

Norgat ★★★★★
(13.02.13 14:14:25 MSK)

Ссылка

насколько большой словарь по каждому ключу(number,date)?

меняется ли словарь?(кроме их частого чтения , насколько часто меняется одна/несколько пар?)

чем неудобен вариант 1 таблицы с 3 полями
1. key_number
2. key_date
3. big_raw_data

~~qulinxao~~ ★★☆
(13.02.13 14:51:35 MSK)

Ну коль тебе всеравно кластер городить так мож действительно положи свою базу на фаловую систему а в роли файлухи попробуй чтото типа люстры? как минимум это решение должно отлично масшабироватся.

а так я бы советовал LDAP.

cvv ★★★★★
(13.02.13 14:58:32 MSK)

Сейчас выбираю себе нереляционное СУБД

Можешь попробовать GT.M. Не мэйнстрим, но базируется на широко известном (в узких кругах) (в постсоветском пространстве) MUMPSе.

gag ★★★★★
(13.02.13 15:52:29 MSK)

Ссылка

Ответ на: комментарий от qulinxao 13.02.13 14:51:35 MSK

Не подходит вариант по двум причинам:

Кроме полей min и max еще есть куча полей, по которым нужно осуществлять поиск. Я считаю, что поиском должна заниматься СУБД.
Данные пишутся в течении дня, (что-то наподобие логов). И сливать ночью кучу данных в одно поле big_raw_data, так как порой, ночные задания могут не проходить.

Сейчас специально посчитал за вчерашний день примерно 43750 на каждый ключ. 350000 строк в день

dicos ★★★
(13.02.13 15:56:53 MSK) автор топика

Ответ на: комментарий от x905 13.02.13 12:52:53 MSK

не войдет, так как строк на текущий момент 109 966 215

dicos ★★★
(13.02.13 16:02:46 MSK) автор топика

Ссылка

Ответ на: комментарий от Atlant 13.02.13 11:51:13 MSK

Проект делаю для себя, потому покупать полноценную не хочу, а экспресс версии имеют свои ограничения.

dicos ★★★
(13.02.13 16:11:20 MSK) автор топика

Ссылка

Ответ на: комментарий от dicos 13.02.13 15:56:53 MSK

покури какие десигндесишен для тяжелонагруженных логеров.

~~qulinxao~~ ★★☆
(13.02.13 16:18:29 MSK)

Datomic

Int0l ★★
(13.02.13 16:19:54 MSK)

Ссылка

Ответ на: комментарий от cvv 13.02.13 14:58:32 MSK

Предлагаешь в качестве имени файла использовать дату+время+ миллисекунды?

dicos ★★★
(13.02.13 16:25:01 MSK) автор топика

Ответ на: комментарий от qulinxao 13.02.13 16:18:29 MSK

А по-английски это как пишется)?

dicos ★★★
(13.02.13 16:26:41 MSK) автор топика

kdb же .

/тред не читал

anonymous
(13.02.13 16:31:45 MSK)

Ссылка

а что за данные-то, о чём база? json конечно интересно и модно, но реляционную модель по нему не сделать.

PS. «Название таблиц — Table{$key_number}_{$str_key_date}» говорит о срочной затребованности основополагающей литературки для ТС

MKuznetsov ★★★★★
(13.02.13 16:38:05 MSK)

Ответ на: комментарий от dicos 13.02.13 16:25:01 MSK

Предлагаешь в качестве имени файла использовать дату+время+ миллисекунды?

могу тебя сразу расстроить, если тебе нужны запросы типа «от 4 до 57», то про ФС забудь. ФС даст ответ только на вопрос «ТОЧНО 34»

~~drBatty~~ ★★
(13.02.13 16:41:25 MSK)

Ссылка

Ответ на: комментарий от dicos 13.02.13 16:26:41 MSK

проектные решения

~~qulinxao~~ ★★☆
(13.02.13 16:43:55 MSK)

Ссылка

Используй ROOT tree. http://en.wikipedia.org/wiki/ROOT

A key feature of ROOT is a data container called tree, with its substructures branches and leaves. ROOT is designed for high computing efficiency, as it is required to process data from the Large Hadron Collider's experiments estimated at several petabytes per year.

~~Alex-Alex~~
(13.02.13 17:11:54 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 13.02.13 16:38:05 MSK

Хочу сделать торгового робота, который будет автоматически торговать на рынке ценных бумаг.

В базе данных хранятся названия бумаг, цена, время покупки. + еще куча служебной информации.

Перед тем, как что-то писать нужно проверить на исторических данных будет ли работать алгоритм покупки и продажи.

Проблема быстродействия базы данных встала тогда, когда я захотел проверить работу на определенной ценной бумаги и в определенные дни.

dicos ★★★
(13.02.13 17:22:51 MSK) автор топика

Ответ на: комментарий от mr_ffloyd 13.02.13 12:52:27 MSK

да, есть в монге такая проблема с mapreduce. но он автору и не нужен.

если выборка только по key_number и key_date, сгодится струкура вида
{
key: 'key_number_1',
date: 'key_date_1',
data: [{min: 125, 'max': 300},{min: 70, 'max': 85}]
}

и индекс db.collection.ensureIndex({ key: 1, date: -1 });

если min/max много - можно денормализовать данные до конца.

какая планируется нагрузка чтение/запись?

VladimirMalyk ★★★★★
(13.02.13 17:41:05 MSK)

Ссылка

min-max надо хранить как пару 32-битных целых чисел в двоичном виде. Соответственно, все такие пары за день можно хранить вместе, одну за другой, в файле. Вообще можно делать один файл на неделю по каждой позиции. В заголовке - смещение дней внутри файла. Будет очень быстрая выборка всех мин-макс за любой день по любой позиции, потому что минимум обращений к диску. И даже можно динамически добавлять новые значения по ходу дела. И даже менять старые. Только удалять будет немножко сложно.

Deleted
(13.02.13 17:49:03 MSK)

Ссылка

Текущий размер таблицы около 12 ГБ, количество строк около 200 млн. Выборка происходит очень долго

А, кстати, на всякий случай, оперативки установлено около 16 ГБ?

gag ★★★★★
(13.02.13 17:57:48 MSK)

Ответ на: комментарий от dicos 13.02.13 17:22:51 MSK

вот с этого и надо начинать..

биржевые данные храняться в обычных массивах (файлах) по тикам отображаемых в память, а только портфель и история транзакций в базе.

если очень хочется делать торгового робота - делай его сразу на целевой платформе в её языке и её средствами. А то утонешь в частностях, а алгоритм так и не отточишь

MKuznetsov ★★★★★
(13.02.13 18:01:11 MSK)

Ссылка

Ответ на: комментарий от dicos 13.02.13 17:22:51 MSK

Дык min-max упаковываются в int32. Ну и покажи структуру базы (explain table или как там) и пример запросов.

true_admin ★★★★★
(13.02.13 18:07:35 MSK)

Ссылка

Datomic, Neo4j хз как с производительностью у обоих, но скоро узнаю :)

Вообще 12Г записей не должно тормозить. Я бы попробовал сначала поиграть с настройками mysql.

zz ★★★★
(13.02.13 18:12:01 MSK)

Ссылка

Ответ на: комментарий от dicos 13.02.13 17:22:51 MSK

KDB+ Разработана специально для этих целей.

Int0l ★★
(13.02.13 18:15:03 MSK)

Ссылка

напиши парсер, преобразующий в оптимальную структуру или просто преобразуй в yaml/json

если нужно обращаться к полям в запросах, то либо in-memory либо postgresql с типом данных array (можно будет обращаться к полям массива прямо в запросах - имхо лучшего решения как у слона не встречал)

извратный вариант: преобразовать все в «плоский вид» что можно и зафигачить все в колонки т.е. равернуть один уровень по горизонтали.

nosql те-же яйца только вид через замочную скважину...

anonymous
(13.02.13 18:17:49 MSK)

Ссылка

Ответ на: комментарий от dicos 13.02.13 17:22:51 MSK

http://www.softpanorama.org/Skeptics/Financial_skeptic/casino_capitalism.shtml

отдых под пальмой.

~~qulinxao~~ ★★☆
(13.02.13 19:17:50 MSK)

Ссылка

KDB+ уже советовали?

anonymous
(13.02.13 21:58:42 MSK)

Ссылка

Ответ на: комментарий от gag 13.02.13 17:57:48 MSK

И линукс с MySql 64-битные неплохо бы ...

cvv ★★★★★
(14.02.13 00:39:54 MSK)

Ссылка

Всех благодарю за участие в обсуждении. Сейчас залез в настройки MySQL и увеличил потребление оперативной памяти. Запросы начали выполняться значительно быстрее. Пока что быстродействия хватает.

dicos ★★★
(14.02.13 07:55:23 MSK) автор топика

Насколько понимаю, у тебя проблема с cardinality в сочетании с объемом данных.

Я бы сделал так:

1. Распилил таблицу на две, первая бы стала headers(id,number,date), в ней два UNIQUE INDEX на (number,date) и (date,number)

2. Сделал таблицу для собственно данных (id,headerid,min,max) и constraint headerid_fk foreign key (headerid) references headers(id). И естественно + индекс по headerid

Таблицы при этом резко сожмутся в размерах (в байтах).

Кроме того, поскольку отбор из второй таблицы практически всегда будет идти по headerid, эту таблицу можно партиционировать например на 100 партиций по какому-нибудь хэшу mod(headerid,100).

Минусы будет на сложных запросах с условиями на min+max.

~~no-dashi~~ ★★★★★
(14.02.13 11:00:18 MSK)

Ссылка

Ответ на: комментарий от dicos 14.02.13 07:55:23 MSK

;)

gag ★★★★★
(14.02.13 22:29:16 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Реквестируются пояснения по Mozilla Socorro

Development

perl utf8 regexp

→

Похожие темы