Выбор БД для хранения данных

0

1

Задача - выбрать хранилище под хранение данных GPS/GSM-мониторинга.

Каждый пакет имеет набор обязательных полей (координаты, ид объекта и т.д.) и имеет набор произвольных (к примеру состояние кнопок, уровень батареи, датчиков и т.д.)

Единственные операции над БД - 1) записать трек в БД 2) получить текущее местоположение объекта (последний трек) 3) получить все треки устройства за период с ... по ...

Данных может быть очень много. Основным спросом будут пользоваться данные за последний месяц-два. Остальные - по запросу, ожидание допустимо. Соответственно по моим мыслям они будут разбиваться на таблицы по месяцам, дальше в идеале хотелось бы иметь возможность изъять часть данных на другое хранилище (к примеру банально записать на DVD) не останавливая БД, когда возникнет потребность - опять же не останавливая БД подключить их обратно.

Смотрю в сторону MongoDB, ибо нравится отсутствие схемы (прекрасно для произвольных данных + частичные индексы). Но может есть что получше?

Ссылка

←	[Gentoo] Emacs + slime

[Ниасилил] Подскажите с пост-запросом

→

← 1 2 →

Смотрю в сторону MongoDB

По условию задачи тебе не надо искать по произвольным данным, поэтому их можно благополучно сериализовать, а в качеств бд использовать postgres/mysql.

P.S. Что-то вас прорвало, прям.

~~baverman~~ ★★★
(26.02.11 15:17:10 MSK)

Ссылка

> Данных может быть очень много.

Это сколько?

tailgunner ★★★★★
(26.02.11 15:26:01 MSK)

Postgres

SAA ★★★
(26.02.11 15:42:42 MSK)

На кой тут вообще БД? Обычные файлы, по времени или при достижении размера — переключаешься на следующий. Текущие положения объектов и отрезки времени на каждый файл держать где-нить отдельно...

fat-II
(26.02.11 15:46:13 MSK)

Ответ на: комментарий от tailgunner 26.02.11 15:26:01 MSK

Порядка 50000 мобильных объектов с частотой отправки данных от 1 секунды до 5 минут.

xanf ★
(26.02.11 15:47:38 MSK) автор топика

Ответ на: комментарий от fat-II 26.02.11 15:46:13 MSK

Тоже конечно вариант, надо его обдумать

xanf ★
(26.02.11 15:48:45 MSK) автор топика

Ссылка

Ответ на: комментарий от SAA 26.02.11 15:42:42 MSK

Postgres

Аргументируйте

xanf ★
(26.02.11 15:49:10 MSK) автор топика

Ответ на: комментарий от xanf 26.02.11 15:47:38 MSK

> с частотой отправки данных от 1 секунды до 5 минут.

Ты, конечно, понимаешь, что это дает разницу в 300 раз? %) А от этого зависит решение.

tailgunner ★★★★★
(26.02.11 16:30:58 MSK)

Ответ на: комментарий от tailgunner 26.02.11 16:30:58 MSK

Ты, конечно, понимаешь, что это дает разницу в 300 раз? %) А от этого зависит решение.

Это зависит от множества факторов. Можно принять среднюю частоту трека - раз в минуту

xanf ★
(26.02.11 16:36:36 MSK) автор топика

Ответ на: комментарий от xanf 26.02.11 15:49:10 MSK

у него расширение для гео- данных?

psv1967 ★★★★★
(26.02.11 16:43:07 MSK)

Ответ на: комментарий от psv1967 26.02.11 16:43:07 MSK

У sqlite тоже есть: http://www.sqlite.org/rtree.html, правда я не знаю, насколько оно вообще тут уместно.

~~aho~~
(26.02.11 16:45:47 MSK)

Ссылка

Ответ на: комментарий от xanf 26.02.11 16:36:36 MSK

> Можно принять среднюю частоту трека - раз в минуту

Тогда 50000*(60*24*60) ~4.3млрд записей в 2 месяца. Думаю, Постгрес справится, но это вполне проверяется на среднем десктопе.

tailgunner ★★★★★
(26.02.11 16:53:05 MSK)

Ответ на: комментарий от psv1967 26.02.11 16:43:07 MSK

у него расширение для гео- данных?

Это не критично. Геоданные мы только сохраняем

xanf ★
(26.02.11 16:54:49 MSK) автор топика

Ссылка

Ответ на: комментарий от tailgunner 26.02.11 16:53:05 MSK

Постгрес это хорошо, но вот в случае с файлами мы можем «прозрачно» детачить файлы. А как у постгреса. Т.е. пометить что данные есть, но они «по запросу»

xanf ★
(26.02.11 16:57:54 MSK) автор топика

Ответ на: комментарий от xanf 26.02.11 16:57:54 MSK

> вот в случае с файлами мы можем «прозрачно» детачить файлы. А как у постгреса. Т.е. пометить что данные есть, но они «по запросу»

Что такое «детачить файлы»? %) Если речь идет об архиве (для данных, которые старше 2 месяцев), просто выгружай их в другую БД.

tailgunner ★★★★★
(26.02.11 17:03:01 MSK)

Ответ на: комментарий от tailgunner 26.02.11 17:03:01 MSK

Уводить их совсем. К примеру на другой хост. В таком случае гонять их между разными бд не так быстро

xanf ★
(26.02.11 17:12:39 MSK) автор топика

Ответ на: комментарий от xanf 26.02.11 17:12:39 MSK

> Уводить их совсем. К примеру на другой хост.

Может, я чего-то не понимаю, но кто мешает сделать архивную БД на другом хосте?

tailgunner ★★★★★
(26.02.11 17:16:38 MSK)

Ответ на: комментарий от tailgunner 26.02.11 17:16:38 MSK

...или, если нужно обязательно хранить данные в единой БД, сделать для архивных данных отдельный tablespace, и хостить его где-нибудь в SAN.

tailgunner ★★★★★
(26.02.11 17:24:15 MSK)

Ссылка

Ответ на: комментарий от xanf 26.02.11 16:57:54 MSK

> вот в случае с файлами мы можем «прозрачно» детачить файлы.

а какого рода файлы имеются ввиду? текстовые( как тут предлагали ), flat, просто локальные?

~~aho~~
(26.02.11 17:28:44 MSK)

Ответ на: комментарий от aho 26.02.11 17:28:44 MSK

а какого рода файлы имеются ввиду? текстовые( как тут предлагали ), flat, просто локальные?

Я еще не продумывал этот вариант :)

xanf ★
(26.02.11 17:38:46 MSK) автор топика

Ссылка

Не нужна никакая специальная бд, просто бинарный лог в файл с добавлением каждой новой записи в конец.

~~mashina~~ ★★★★★
(26.02.11 18:04:53 MSK)

Ответ на: комментарий от mashina 26.02.11 18:04:53 MSK

> просто бинарный лог в файл с добавлением каждой новой записи в конец.

а как вы предполагаете: 50000 клиентов на запись и х/з сколько клиентов на поиск данных из этого файла - это рядовая задача для простого себе бинарного лога размером в 4.3млрд записей?

~~aho~~
(26.02.11 18:11:32 MSK)

Ответ на: комментарий от aho 26.02.11 18:11:32 MSK

> 50000 клиентов на запись

Нет там 50000 клиентов %)

tailgunner ★★★★★
(26.02.11 18:18:01 MSK)

sqlite

bukaka
(26.02.11 18:19:58 MSK)

Ссылка

Ответ на: комментарий от tailgunner 26.02.11 18:18:01 MSK

> Нет там 50000 клиентов %)

«Порядка 50000 мобильных объектов» - а как вы их назовете?

~~aho~~
(26.02.11 18:20:08 MSK)

Ответ на: комментарий от aho 26.02.11 18:11:32 MSK

а как вы предполагаете: 50000 клиентов на запись и х/з сколько клиентов на поиск данных из этого файла - это рядовая задача для простого себе бинарного лога размером в 4.3млрд записей?

Если вы считаете, что существуют на свете хранилища которые делают иначе, то наивно заблуждаетесь. От простой современной ФС и до громоздкой рСУБД все это делают именно так и никак иначе.

Да, для бинарного лога (в виде одного или нескольких файлов) это обычная нагрузка/задача.

~~mashina~~ ★★★★★
(26.02.11 18:27:19 MSK)

Ответ на: комментарий от mashina 26.02.11 18:27:19 MSK

> Если вы считаете, что существуют на свете хранилища которые делают иначе, то наивно заблуждаетесь. От простой современной ФС и до громоздкой рСУБД все это делают именно так и никак иначе.

Да, для бинарного лога (в виде одного или нескольких файлов) это обычная нагрузка/задача.

ну что ж, этот вопрос за сегодня мне приходится задать уже не в первый раз, покажите - как вы будете решать поставленные задачи:

а) получить все треки устройства за период с ... по ...
б) вытеснять старые данные в бэкап

П.С. чуть подправил

~~aho~~
(26.02.11 18:38:38 MSK)

Ответ на: комментарий от mashina 26.02.11 18:27:19 MSK

А про различные структуры для работы с данными на внешних носителях (B-деревья, например) тебе в школе не рассказывали?

anonymous
(26.02.11 18:46:12 MSK)

Ссылка

Ответ на: комментарий от aho 26.02.11 18:38:38 MSK

Вопросы достаточно глупые.

а) локализуем кусок (или диапазон кусков) бинлога по временам чекпоинтов (даты создания новых кусков) + последовательное чтение куска бинлога или бинарный поиск.

б) см. пункт а.

~~mashina~~ ★★★★★
(26.02.11 18:47:31 MSK)

Ответ на: комментарий от mashina 26.02.11 18:47:31 MSK

а) локализуем кусок (или диапазон кусков) бинлога по временам чекпоинтов (даты создания новых кусков) + последовательное чтение куска бинлога или бинарный поиск.

Как минимум если у нас один бинлог на всех нам прийдется просканить весь кусок бинлога

xanf ★
(26.02.11 18:49:14 MSK) автор топика

Ответ на: комментарий от mashina 26.02.11 18:47:31 MSK

> Вопросы достаточно глупые.

просто это ты кретин

а) локализуем кусок (или диапазон кусков) бинлога по временам чекпоинтов (даты создания новых кусков) + последовательное чтение куска бинлога или бинарный поиск.

хочу посмотреть за два месяца - 4.3млрд записей, каким х%ем ты там прикрутишь бинарный поиск для поиска расположения определенного устройства?

б) см. пункт а.

да - это несомненно очень связанные задачи

~~aho~~
(26.02.11 18:49:32 MSK)

Ответ на: комментарий от xanf 26.02.11 18:49:14 MSK

Как минимум если у нас один бинлог на всех нам прийдется просканить весь кусок бинлога

Смотря как его писать. Если просто по факту прибытия данных, то в худшем случае такой же точно бинарный поиск по времени + немного сканов. В лучшем, т.е. если применять нужные хитрости в структуре, будет почти тоже самое.

~~mashina~~ ★★★★★
(26.02.11 18:54:58 MSK)

Ссылка

Ответ на: комментарий от aho 26.02.11 18:49:32 MSK

хочу посмотреть за два месяца - 4.3млрд записей, каким х%ем ты там прикрутишь бинарный поиск

если у тебя совсем туго с сообразительностью, то я тебе помочь ничем не могу. Могу только дать подсказку на пальцах: подели свои 4.3 млрд записей частей эдак на 1000 - 10000 кусков и попробуй найти нужный кусок по mtime.

~~mashina~~ ★★★★★
(26.02.11 19:01:06 MSK)

Ответ на: комментарий от mashina 26.02.11 19:01:06 MSK

> если у тебя совсем туго с сообразительностью, то я тебе помочь ничем не могу. Могу только дать подсказку на пальцах: подели свои 4.3 млрд записей частей эдак на 1000 - 10000 кусков и попробуй найти нужный кусок по mtime.

предлагаешь выделить место под файл заранее и потом шерстить рукам его куски? замечательное решение, ведь оно заодно решает проблемы:

а) масштабирования - можно легко удвоить кол-во клиентов, или пережить их пиковую активность
б) вытеснять данные в бэкап - все так же просто и удобно

~~aho~~
(26.02.11 19:08:54 MSK)

Ответ на: комментарий от aho 26.02.11 18:20:08 MSK

> «Порядка 50000 мобильных объектов» - а как вы их назовете?

Так и назову. А клиент (записывающий) там будет, вероятно, один - программа для сбора информации с этих «объектов».

tailgunner ★★★★★
(26.02.11 19:31:00 MSK)

Ответ на: комментарий от tailgunner 26.02.11 19:31:00 MSK

> Так и назову. А клиент (записывающий) там будет, вероятно, один - программа для сбора информации с этих «объектов».

по такой логике любой прокси-сервер - это клиент, а все что за ним - «объекты»

~~aho~~
(26.02.11 19:39:22 MSK)

Ответ на: комментарий от aho 26.02.11 19:08:54 MSK

предлагаешь выделить место под файл заранее и потом шерстить рукам его куски?

Вы где-нибудь видели такие бинлоги? Если да, назовите где. Каждый кусок это отдельный файл с определённым кол-вом записей и/или размером + общая система именования файлов.

~~mashina~~ ★★★★★
(26.02.11 19:42:27 MSK)

Ответ на: комментарий от mashina 26.02.11 19:42:27 MSK

> Каждый кусок это отдельный файл с определённым кол-вом записей и/или размером + общая система именования файлов.

файлы бьются по дате или клиентам?

~~aho~~
(26.02.11 19:44:01 MSK)

Ответ на: комментарий от aho 26.02.11 19:39:22 MSK

> по такой логике любой прокси-сервер - это клиент, а все что за ним - «объекты»

Просто ты не понимаешь, о чем речь. «Объекты» - это объекты, за положением которых ведется наблюдение. Это наблюдение ведет одна или несколько программ, но никак не 50000.

tailgunner ★★★★★
(26.02.11 19:44:27 MSK)

Ответ на: комментарий от tailgunner 26.02.11 19:44:27 MSK

> Просто ты не понимаешь, о чем речь. «Объекты» - это объекты, за положением которых ведется наблюдение. Это наблюдение ведет одна или несколько программ, но никак не 50000.

конечно - всегда проще обвинить собеседника в непонимании :) вы просто подменяете понятия, «объект» в данном случае - это и есть клиент, который шлет данные на сервер, да - между СУБД(?) и ним есть прослойка, которая подправляет данные и «шлет» их дальше, и это кстати рядовая операция для СУБД - вы должны это знать

~~aho~~
(26.02.11 19:50:07 MSK)

Ответ на: комментарий от aho 26.02.11 19:44:01 MSK

файлы бьются по дате или клиентам?

В самом простом разумном случае бьются по объектам, т.е. для каждого объекта свой поток бинлогов, и по мере заполнения (не по дате). Т.е. будет набор логов типа «%06x:%016x», где первое это номер объекта в hex форме, а второе серийный номер лога.

Чтобы был при этом быстый поиск, нужно к каждому объекту сделать ещё один циклический бинлог с записями (timestamp, seqnum, crcXX, прочая тех ерунда), примерно будет 32 байта каждая запись. Если взять конечный целевой размер циклического лога около 64-128 кб, будет порядка 2 - 4к записей, т.е. для поиска за последние несколько месяцев должно хватить. Чтение и анализ циклического лога занятие копеечное.

~~mashina~~ ★★★★★
(26.02.11 20:08:04 MSK)

Ссылка

Любая промышленная СУБД (postgres, firebird, mysql). Просто пишите данные. В момент X (как правило, когда объём БД вырастет до критической точки) - sql скриптом удаляете старые месяцы (дни etc). Делаете бекапы (все нормальные СУБД делают налету), архивируете, складируете. Надо будет - развернёте старый бекап нужного периода на другом сервере. Не ведитесь на советы про бинарный файл, лог. Главное - не берите коммерческую СУБД, разоритесь на лицензиях :) (50000 кл.).

PS Работал с GPS-GSM мониторингом, со cвоими датчиками на автотранспорте (коммерческое решение для автопредприятий). Ничего интересного - координаты, скорость, топливо, спецсигналы. Писались с разными таймаутами, кому что надо. Над СУБД вообще не заморачивались. Были и такие, и такие. Из коробки - mysql. Сказали: «нет своего админа mysql», - взяли другую СУБД и т.д..

Aman
(26.02.11 20:14:02 MSK)

Ответ на: комментарий от aho 26.02.11 19:50:07 MSK

> конечно - всегда проще обвинить собеседника в непонимании :)

Еще проще пропустить объяснение.

tailgunner ★★★★★
(26.02.11 20:17:14 MSK)

>Каждый пакет имеет набор обязательных полей (координаты, ид объекта и т.д.) и имеет набор произвольных (к примеру состояние кнопок, уровень батареи, датчиков и т.д.)

А ты уверен что произвольные данные действительно произвольные? Ведь если определиться точно с этими данными, то можно без вопросов использовать РСУБД, без всякие nosql решений.

anonymous
(26.02.11 20:23:19 MSK)

Ответ на: комментарий от tailgunner 26.02.11 20:17:14 MSK

> Еще проще пропустить объяснение.

да, я так и поступил, вы правы - в данном случае роль клиента/сервера выполняет именно «буферная» программа, которая работает с БД, а «объекты» выполняют роль серверов - и отвечают на запросы

~~aho~~
(26.02.11 20:25:53 MSK)

Ссылка

Ответ на: комментарий от Aman 26.02.11 20:14:02 MSK

Любая промышленная СУБД (postgres, firebird, mysql). Просто пишите данные.

Нужно так же пояснить, что любая такая СУБД будет генерировать как минимум двойной дисковый трафик по отношению к оригинальномому потоку. Если всё это добро обмазано индексами (как же без них в рСУБД делать выборки? Можно, конечно, но будет отдельный гемор...), то поток возрастёт более чем в два раза. Ещё будет достаточно много random read/write, что совсем убъёт производительность СУБД.

~~mashina~~ ★★★★★
(26.02.11 20:27:37 MSK)

Ответ на: комментарий от aho 26.02.11 19:39:22 MSK

Веб-прокси-сервер обязан обслужить всех клиентов одновременно.

Данные же можно поставить в очередь.

tensai_cirno ★★★★★
(26.02.11 20:39:15 MSK)

Ссылка

Ответ на: комментарий от mashina 26.02.11 20:27:37 MSK

Нормально всё сделать - всё будет работать. В идею бинарника я даже не вчитывался. Увидел задачу - назвал инструменты, тем более исходил из опыта. Может быть в каких-то случаях бинарник выход (не встречал ещё, кроме игрушек :) ). Но в любом случае классический клиент-сервер с СУБД проще, быстрее, надёжней сделать (для этого СУБД собственно и существуют). Нормально поддерживать, чем смотреть на какой-то хак с бинарником, написанным уволившимся 3 года назад Васей Пупкиным. Подробностей задачи я не знаю. Как я понял - данные простые, можно спокойно набросать тестовые скрипты и проверить разные варианты (заодно посмотреть на производительность). Но это уже дело TC.

Aman
(26.02.11 20:41:45 MSK)

Ответ на: комментарий от Aman 26.02.11 20:41:45 MSK

> Как я понял - данные простые, можно спокойно набросать тестовые скрипты и проверить разные варианты (заодно посмотреть на производительность)

tailgunner ★★★★★
(26.02.11 21:32:39 MSK)

Ссылка

Ответ на: комментарий от mashina 26.02.11 20:27:37 MSK

> любая такая СУБД будет генерировать как минимум двойной дисковый трафик по отношению к оригинальномому потоку.

Во-первых, не факт; во-вторых, даже при опросе каждую секунду и размере записи в 100Б имеем 50000*100 == 5МБайт/с; даже удвоенный трафик будет 10МБайт/с - просто не о чем говорить.

tailgunner ★★★★★
(26.02.11 21:36:47 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	[Gentoo] Emacs + slime

Development

[Ниасилил] Подскажите с пост-запросом

→

Похожие темы