В какой БД можно хранить и обрабатывать миллиарды записей без большого оверхеда на объем? BerkeleyDB? Что-то из NoSQL?

0

2

Доброй ночи! Ищу для скромного justforfun'овского проекта относительно быструю БД, в которой можно хранить и обрабатывать миллиарды записей. Пока что остановился на BerkeleyDB.

Записи представляют собой небольшую текстовою строку (~10-100 символов) в ASCII или Latin1 и несколько флагов/значений, которые и должны быть вторичными ключами. Каждая строка уникальна, если это имеет значение.

Что нужно:

Быстрая выборка по основному и вторичному ключам (вторичных ключей может быть несколько), в том числе множество значений.
Минимальный оверхед на хранения каждой записи.
Очень желательна прозрачная компрессия, например, алгоритмом lzo, так как данные текстовые, и очень много почти однотипных (различие от одного до нескольких символов). Или это некошерно?
Быстрый апдейт записей, в том числе значений вторичных ключей.
Весьма желательная быстрая вставка порядка сотен тысяч записей (При подобных тестах производительность MySQL makes me cry).
Очень желательно наличие блокировок
Очень желательно наличие транзакций

Что не нужно/не обязательно:

Сетевой доступ.
Одновременный множественный доступ на запись/чтение.
Разграничение прав.
Отдельный сервер (в смысле демон) БД. Меня устроит и встраиваемая.

Что не устраивает в BerkeleyDB:

Так как для каждого вторичного ключа нужна «secondary database», то мне кажется, там будет нехилый оверхед на каждую запись. В других БД дела обстоят ещё хуже?
Ужасающие тормоза вторичных бд в Berkeley DB - и это при том, что речь идёт всего лишь о миллионах записей. Лично сам пока не тестил.

Я так понимаю, с такими запросами даже не следует смотреть в сторону SQL-based БД, т.е., остаются только NoSQL-решения.

Ещё видел штуки вроде:

MemcacheDB - использует BDB в качестве бэкэнда, профит от самой MemcacheDB неочевиден.
Apache Cassandra/Apache Hadoop - не подходит, ибо Java.
MongoDB - документо-ориентированная БД, разве подойдёт под мои задачи?

Жду совето, ЛОР!

Ссылка

←	Что в этом коде из C++?

[Эмуляция процессора] Несколько вопросов

→

← 1 2 →

Статья об ужасающих тормозай bdb - 2008 года. Попробуйте проверить на похожих данных сейчас, может быть работа с такими индексами ускорена.

Но если проблема всё равно есть, то её можно обойти, добавив в ключ вторичной БД ключ первичной. Насколько я помню, в bdb можно искать запись, ближайшую снизу или сверху к ключу. Кстати, именно поэтому в статье можно было бы обойтись без вторичной БД вообще.

Sorcerer ★★★★★
(13.01.12 08:53:35 MSK)

Выбирай: http://nosql-database.org/

Глянь Redis.

~~gh0stwizard~~ ★★★★★
(13.01.12 09:30:05 MSK)

Очень желательна прозрачная компрессия, например, алгоритмом lzo, так как данные текстовые, и очень много почти однотипных (различие от одного до нескольких символов). Или это некошерно?

читал, что такое есть в DB/2 CE 9.7

Karapuz ★★★★★
(13.01.12 11:12:00 MSK)

Ссылка

postgresql + партицирование данных изкаробки
200-300 гигов данных - не проблема.

anonymous
(13.01.12 12:12:47 MSK)

Ссылка

Ищу для скромного justforfun'овского проекта относительно быструю БД, в которой можно хранить и обрабатывать миллиарды записей.

Хрена себе just4fun'ановский проект.

MS SQL же. =) А если серьезно, то покопай в сторону postgresql.

mopsene ★★★
(13.01.12 12:16:38 MSK)

Ответ на: комментарий от Sorcerer 13.01.12 08:53:35 MSK

Во-первых он пишет, что используется флаг DUP, во-вторых ни слова нет о данных и о настройках базы. По своему опыту могу сказать, что berkeley на миллионах записей работает отлично. Миллиард сомневаюсь, что осилит.

Reset ★★★★★
(13.01.12 12:18:22 MSK)

Ответ на: комментарий от Reset 13.01.12 12:18:22 MSK

По-моему, в статье достаточно информации, о данных в том числе. Топикстартер тоже DUP с миллионами дубликатов хочет.

Sorcerer ★★★★★
(13.01.12 12:30:16 MSK)

Ответ на: комментарий от Sorcerer 13.01.12 12:30:16 MSK

Я бы поэкспериментировал вот с этой настройкой http://docs.oracle.com/cd/E17076_02/html/api_reference/CXX/dbset_dup_compare....

Reset ★★★★★
(13.01.12 12:34:45 MSK)

Ссылка

Ответ на: комментарий от gh0stwizard 13.01.12 09:30:05 MSK

Глянь Redis.

Редис нормально работает с данными сильно больше чем объем оперативки? VM объявлен deprecated, они обещают его когда-нибудь вернуть, но в 2.6 его уже не будет.

Прозреваю, что топикстартеру подойдет монго - там и вторичные ключи (в отличие от редиса), и на оперативку ему срать. Правда на диске от монги оверхед бешеный.

Была подобная же задача, решилось все написанием своего велосипеда.

shutty ★
(13.01.12 13:22:41 MSK)

NoSQL нужно использовать тогда, когда доказана невозможность использовать SQL. Пока что объем твоих данных (~100ГБ) как-то не взывает к NoSQL.

Очень желательна прозрачная компрессия, например, алгоритмом lzo, так как данные текстовые, и очень много почти однотипных (различие от одного до нескольких символов). Или это некошерно?

10 символов сжимать бессмысленно.

tailgunner ★★★★★
(13.01.12 13:37:43 MSK)

Ответ на: комментарий от mopsene 13.01.12 12:16:38 MSK

Хрена себе just4fun'ановский проект

С ботнета, наверно, данные собирает. ;)

Reaper ★★
(13.01.12 16:24:32 MSK)

Ссылка

Ответ на: комментарий от Reset 13.01.12 12:18:22 MSK

Миллиард сомневаюсь, что осилит.

Осиливает.

Reaper ★★
(13.01.12 16:25:57 MSK)

Ссылка

Tokyo Cabinet

Для некоторых кейсов одно из наилучших решений

westtrd
(13.01.12 16:35:46 MSK)

Ссылка

Ответ на: комментарий от tailgunner 13.01.12 13:37:43 MSK

tailgunner> NoSQL нужно использовать тогда, когда доказана невозможность использовать SQL. Пока что объем твоих данных (~100ГБ) как-то не взывает к NoSQL.

Chaser_Andrey> Весьма желательная быстрая вставка порядка сотен тысяч записей (При подобных тестах производительность MySQL makes me cry).

roller ★★★
(13.01.12 17:36:21 MSK)

Ответ на: комментарий от roller 13.01.12 17:36:21 MSK

Кроме MySQL есть и другие СУБД, ну и batch/bulk insert тоже есть.

tailgunner ★★★★★
(13.01.12 17:44:50 MSK)

Ответ на: комментарий от tailgunner 13.01.12 17:44:50 MSK

+ не забываем при заливке больших объёмов дропать индексы, а после - создавать взад (если позволяет тип нагрузки)

anonymous
(13.01.12 19:11:08 MSK)

Ссылка

Apache Cassandra/Apache Hadoop - не подходит, ибо Java.

Откуда вы плодитесь, школота...

~~vertexua~~ ★★★★★
(13.01.12 19:17:17 MSK)

Ответ на: комментарий от vertexua 13.01.12 19:17:17 MSK

Ох, извините, мистер Ынтерпрайз, но Java не место в моих проектах в силу её архитектурных особенностей.

Chaser_Andrey ★★★★★
(14.01.12 02:25:08 MSK) автор топика

Ответ на: комментарий от tailgunner 13.01.12 17:44:50 MSK

Да уж, наверняка следует сделать тесты для постгреса. Хотя всё-же ожидаю плохие результаты в этом конкретном случае.

Chaser_Andrey ★★★★★
(14.01.12 02:27:15 MSK) автор топика

Ответ на: комментарий от Chaser_Andrey 14.01.12 02:27:15 MSK

Да уж, наверняка следует сделать тесты для постгреса

Ты только autocommit отключить не забудь %)

Хотя всё-же ожидаю плохие результаты в этом конкретном случае.

Что ж, значит, SQL-серверы для твоей задачи не подходят.

tailgunner ★★★★★
(14.01.12 02:31:44 MSK)

Ссылка

Ответ на: комментарий от gh0stwizard 13.01.12 09:30:05 MSK

Память!!

~~demmsnt~~ ★
(14.01.12 02:42:41 MSK)

Ответ на: комментарий от gh0stwizard 13.01.12 09:30:05 MSK

За линк спасибо, упустил с виду.

Redis заинтересовал, надо бы детальней с ним разобраться.

Chaser_Andrey ★★★★★
(14.01.12 02:44:24 MSK) автор топика

Ссылка

Ответ на: комментарий от demmsnt 14.01.12 02:42:41 MSK

На счёт Redis?

Virtual memory: when your dataset doesn't fit in RAM, you can use VM.

Chaser_Andrey ★★★★★
(14.01.12 02:45:56 MSK) автор топика

Ссылка

Ответ на: комментарий от shutty 13.01.12 13:22:41 MSK

VM объявлен deprecated

А, чёрт побери... Redis, по ходу, отпадает.

Chaser_Andrey ★★★★★
(14.01.12 02:47:05 MSK) автор топика

Ссылка

Что нужно:
* Весьма желательная быстрая вставка порядка сотен тысяч записей (При подобных тестах производительность MySQL makes me cry).
* Очень желательно наличие блокировок
* Очень желательно наличие транзакций
Что не нужно/не обязательно:
* Сетевой доступ
* Одновременный множественный доступ на запись/чтение.
* Отдельный сервер (в смысле демон) БД. Меня устроит и встраиваемая.

Ты описываешь SQLite

antares0 ★★★★
(14.01.12 08:18:47 MSK)

Ответ на: комментарий от antares0 14.01.12 08:18:47 MSK

Забыл о миллиардах записей. Если бы не столь громадное число - я бы даже и не заморачивался с выбором БД.

Chaser_Andrey ★★★★★
(14.01.12 11:12:16 MSK) автор топика

Ответ на: комментарий от Chaser_Andrey 14.01.12 11:12:16 MSK

Не забыл - это подразумевается.

antares0 ★★★★
(14.01.12 11:16:37 MSK)

Ссылка

Кстати зачем тебе?) Белки?

maggotroot ★
(14.01.12 13:58:33 MSK)

Ссылка

Ответ на: комментарий от demmsnt 14.01.12 02:42:41 MSK

Память!!

Подумаешь, всего-то 100 гигов. Есть SMP-кластеры на 256

annulen ★★★★★
(14.01.12 14:14:28 MSK)

Ссылка

# Весьма желательная быстрая вставка порядка сотен тысяч записей (При подобных тестах производительность MySQL makes me cry).

Storage engine какой? InnoDB?

gods-little-toy ★★★
(14.01.12 14:18:20 MSK)

Ответ на: комментарий от gods-little-toy 14.01.12 14:18:20 MSK

Storage engine какой? InnoDB?

Кстати там и компрессия имеется в последних версиях.

gods-little-toy ★★★
(14.01.12 14:19:40 MSK)

Ссылка

Что нужно:

...

* Очень желательно наличие блокировок

* Очень желательно наличие транзакций

Что не нужно/не обязательно:

* Одновременный множественный доступ на запись/чтение.

Зачем тебе блокировки, если множественный доступ не нужен?

gods-little-toy ★★★
(14.01.12 14:20:49 MSK)

Ссылка

Ужасающие тормоза вторичных бд в Berkeley DB -

по ссылке пишут:

В случае, если количество ваших сотрудников стремится к 2 — 3 миллионам, то готовтесь, что обращение к первичной БД начнет на столько “тормозить”, что почти остановит работу системы.

В случае, если количество ваших сотрудников стремится к 2 — 3 миллионам,

админы FoxConn чтоле?

gods-little-toy ★★★
(14.01.12 14:23:09 MSK)

Ответ на: комментарий от gods-little-toy 14.01.12 14:23:09 MSK

не, МВД еще может быть..

gods-little-toy ★★★
(14.01.12 14:23:32 MSK)

Ссылка

Ответ на: комментарий от vertexua 13.01.12 19:17:17 MSK

Откуда вы плодитесь, школота...

iLOLd. Студентота возомнила себя диким спецом.

Pavval ★★★★★
(14.01.12 14:40:41 MSK)

Ответ на: комментарий от Chaser_Andrey 14.01.12 11:12:16 MSK

вам таки 2^64 мало?

погоняйте тесты. по вашему описанию подходит. может тесты подтвердят

ZuBB ★★★★★
(14.01.12 15:01:27 MSK)

Ссылка

Ответ на: комментарий от antares0 14.01.12 08:18:47 MSK

Тормознутое ненадежное говно.

Reset ★★★★★
(14.01.12 16:48:24 MSK)

Ссылка

Ответ на: комментарий от tailgunner 13.01.12 13:37:43 MSK

Наоборот, SQL нужно использовать тогда, когда доказана невозможность использовать NoSQL. Иначе при росте нагрузок будет страшный геморрой с переписыванием всего софта под nosql.

Reset ★★★★★
(14.01.12 16:52:20 MSK)

Ответ на: комментарий от Reset 14.01.12 16:52:20 MSK

SQL нужно использовать тогда, когда доказана невозможность использовать NoSQL

«You're not Facebook» (с)

tailgunner ★★★★★
(14.01.12 16:55:27 MSK)

Ссылка

Ответ на: комментарий от Chaser_Andrey 14.01.12 02:25:08 MSK

в силу её архитектурных особенностей

архичего? олсо, гуглу подходит, а...

Однако, JGit работает вполне нормально; достаточно быстро для того, чтобы мы использовали его как как сервер git внутри Google. http://habrahabr.ru/blogs/programming/136210/

а Chaser_Andrey не подходит, как так?

Karapuz ★★★★★
(14.01.12 16:56:08 MSK)

Tokyo Cabinet/Kyoto Cabinet смотрели?

Kyoto Cabinet runs very fast. For example, elapsed time to store one million records is 0.9 seconds for hash database, and 1.1 seconds for B+ tree database. Moreover, the size of database is very small. For example, overhead for a record is 16 bytes for hash database, and 4 bytes for B+ tree database. Furthermore, scalability of Kyoto Cabinet is great. The database size can be up to 8EB (9.22e18 bytes).

~~JFreeM~~ ★★★☆
(14.01.12 17:11:37 MSK)

Ответ на: комментарий от JFreeM 14.01.12 17:11:37 MSK

Автор сам рекомендует Kyoto. Выше уже мне предлагали. Что ж, посмотрел. Выглядит впечатляющее. К тому же:

Kyoto Cabinet is written in the C++ language

API of C++, C, Java, Python, Ruby, Perl and Lua

GNU General Public License

Просто замечательно! Обязательно проведу тесты. Может, это действительно то, что мне нужно.

Chaser_Andrey ★★★★★
(14.01.12 17:27:00 MSK) автор топика

Ссылка

Ответ на: комментарий от Chaser_Andrey 14.01.12 02:27:15 MSK

Хотя всё-же ожидаю плохие результаты в этом конкретном случае.

Ну-ну. Ты только вначале постгрес настрой хоть как-то, дефолтные настройки никуда не годятся. Стоимость операций - самое важное.

~~wolfy~~
(14.01.12 18:42:50 MSK)

Ссылка

Ответ на: комментарий от Pavval 14.01.12 14:40:41 MSK

Школота - это состояние мозга, а не возраст.

~~vertexua~~ ★★★★★
(15.01.12 00:40:23 MSK)

Ответ на: комментарий от vertexua 15.01.12 00:40:23 MSK

Школота - это состояние мозга, а не возраст.

А студентота отличается от школоты лишь иллюзией, что ну теперь-то они точно что-то знают.

Pavval ★★★★★
(15.01.12 01:19:35 MSK)

Если данные структурированы, любая нормальная СУБД.

~~Legioner~~ ★★★★★
(15.01.12 01:31:37 MSK)

Ссылка

Ответ на: комментарий от Pavval 15.01.12 01:19:35 MSK

С моим комментарием высера ТС что-то не так?

~~vertexua~~ ★★★★★
(15.01.12 11:57:09 MSK)

Ответ на: комментарий от Karapuz 14.01.12 16:56:08 MSK

По ссылке я прочёл кучу объяснений, почему Java не может быть такой быстрой, как C/C++, и какие костыли приходится городить, чтобы выиграть хоть какие-то проценты производительности.

1. Не вижу смысла в Java, если есть отличные решения на C/C++.

2. Для меня скорость разработки стоит на втором плане, на первом плане - конечная скорость приложения и оптимизация потребления памяти. Мне не нравится тенденция покупать постоянно более мощное железо и больше памяти только из-за лени разработчиков хоть немного пошевелить мозгами. Экстенсивное развитие ПО - это тупиковый путь.

3. Не думаю, что решения на Java смогут соревноваться с тем же Kyoto Cabinet (Kyoto Cabinet runs very fast. For example, elapsed time to store one million records is 0.9 seconds for hash database, and 1.1 seconds for B+ tree database. Moreover, the size of database is very small). В этом конкретном случае скорость работы и размер БД для меня на первом месте.

4. Случай с гитом и мой случай весьма отличаются. Разве в гите идёт речь о миллионах записей в секунду и миллиардах общих записей?

Да и вообще, чуваки написали свой гит на Java (хотя есть прекрасно работающее решение на сях), получили более толстое и медленное решение, потратили кучу человекочасов на самый что ни на есть велосипед. Вопрос - а в чём профит?

Chaser_Andrey ★★★★★
(15.01.12 12:25:48 MSK) автор топика

Ответ на: комментарий от vertexua 15.01.12 11:57:09 MSK

Обоснуй хотя бы нужность Java для текущей задачи, описанной в шапке топика и прочитай ответ чуть выше.

Chaser_Andrey ★★★★★
(15.01.12 12:27:18 MSK) автор топика

Ответ на: комментарий от Chaser_Andrey 15.01.12 12:27:18 MSK

Apache Cassandra/Apache Hadoop - не подходит, ибо Java.

быстрая

Java

Все правильно, что не так?

~~vertexua~~ ★★★★★
(15.01.12 13:19:00 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Что в этом коде из C++?

Development

[Эмуляция процессора] Несколько вопросов

→

Похожие темы