Как постгрес работает с большим количеством данных?

1

3

У нас в проекте на данном этапе результаты вычислений (десятки полей и десятки/сотни/тысячи строк) хранятся в файлах.
Есть идея перенести их в БД. Зачем - это позволит сделать экспорт в различные форматы и создавать цепочки вычислений.
В результате получится что-то вроде десятков/пары сотен таблиц с сотнями миллионов строк (результаты хранятся в течение ограниченного времени, по истечении которого будут удаляться).
Внимание, вопрос первый - выдержит ли это постгрес? Вопрос второй - есть ли лучший инструмент для подобной задачи? Граничные условия - в 95% случаев строки будут добавляться, а не обновляться, каждая строка будет прочитана из базы... единицы, десятки раз за всю жизнь. В среднем, разумеется.

Ссылка

←	Protobuf трабл

обработчик «падения» апликухи. в .so библиотеке

→

В результате получится что-то вроде десятков/пары сотен таблиц с сотнями миллионов строк (результаты хранятся в течение ограниченного времени, по истечении которого будут удаляться).

Можно взлететь практически на любой бд.

anonymous
(20.08.13 14:39:00 MSK)

Ссылка

Надо планировать workflow так, чтобы удалять таблицы целиком (TRUNCATE или DROP), а не с DELETE FROM xxx WHERE yyy.

В такой схеме будет нормально работать, ну с учетом только того что PostgreSQL не умеет сам параллелить запросы, надо планировать хранилище с учетом этого факта.

maxcom ★★★★★
(20.08.13 14:40:19 MSK)

инсерты нагнуть БД не должны, выбирай шо угодно: postgres/percona. у последней можно по движкам почитать, может чтото чуть больше соптимизированно под вставки.

тут вопрос, потянет ли эта дрянь джойны по десяткам таблиц. если между таблицами нету связей вообще и планируются выборки из одной таблицы по определенном криетрию то я бы вообще в nosql плясал.

x0r ★★★★★
(20.08.13 14:43:38 MSK)

Ответ на: комментарий от x0r 20.08.13 14:43:38 MSK

Длинных джоинов тоже не предполагается. Три-четыре сущности максимум.

Xellos ★★★★★
(20.08.13 14:48:42 MSK) автор топика

Ссылка

1) хороший топик на so: http://stackoverflow.com/questions/12206600/how-to-speed-up-insertion-perform...

2) в mysql наверняка можно дропать данные путем удаления файлов (в которых хранятся партишены) с жесткого диска

3) подумать, как для этого использовать Apache Cassandra и Apache Hadoop/HBase, если это вообще возможно. Попрофайлить.

~~stevejobs~~ ★★★★☆
(20.08.13 14:56:58 MSK)

Ответ на: комментарий от maxcom 20.08.13 14:40:19 MSK

TRUNCATE или DROP

Хмм. Партиционирование по интервалам дат?..

Xellos ★★★★★
(20.08.13 14:59:48 MSK) автор топика

Ответ на: комментарий от Xellos 20.08.13 14:59:48 MSK

Да, например так

maxcom ★★★★★
(20.08.13 15:04:23 MSK)

Ссылка

Ответ на: комментарий от stevejobs 20.08.13 14:56:58 MSK

Cassandra не для аналитики, она запросы с full scan плохо умеет

maxcom ★★★★★
(20.08.13 15:08:15 MSK)

Ссылка

каждая строка будет прочитана из базы... единицы, десятки раз за всю жизнь

А не избыточно ли?

Deleted
(20.08.13 15:34:11 MSK)

Ссылка

Да. Выдержит, без проблем, если нормально будешь проектировать. Полистай книгу Gregory Smith «Postgres 9.0 High Performance».

Пара моментов на всякий случай:
1. единица данных для постгреса — строка, т.е. если ты хочешь что-то прочитать из таблицы, то субд выдернет всю строку, поэтому если в таблице есть тяжелые данные (бинарники, файлы, огромные тексты), то лучше их выносить в отдельную таблицу и связывать индексами.
2. если много insert/update/delete, то не делай слишком много индексов, это сильно тормозит, особенно на больших таблицах
3. если таблица большая, порой разумно ее делить на несколько таблиц поменьше (по годам, например), а если все же нужно потом работать с ней, как с большой — сваргань представление, которое объединит их. Оптимизатор субд потом подстроится и не будет дергать ненужны таблицы.

По поводу того как настраивать субд — смотри в книгу.

soomrack ★★★★★
(20.08.13 15:42:47 MSK)

Ответ на: комментарий от soomrack 20.08.13 15:42:47 MSK

единица данных для постгреса — строка, т.е. если ты хочешь что-то прочитать из таблицы, то субд выдернет всю строку

это не так, большие данные хранятся отдельно и вытаскиваются только если ты их реально запросил

maxcom ★★★★★
(20.08.13 15:50:23 MSK)

Ответ на: комментарий от maxcom 20.08.13 15:50:23 MSK

blobы — да, text — нет.

soomrack ★★★★★
(20.08.13 15:51:47 MSK)

Ответ на: комментарий от maxcom 20.08.13 14:40:19 MSK

с учетом только того что PostgreSQL не умеет сам параллелить запросы

что, серьезно?

~~vertexua~~ ★★★★★
(20.08.13 15:54:07 MSK)

Ссылка

Ответ на: комментарий от soomrack 20.08.13 15:42:47 MSK

Gregory Smith «Postgres 9.0 High Performance».

На аглицком?

Deleted
(20.08.13 15:55:00 MSK)

maxcom уже сказал, я повторю:

В результате получится что-то вроде десятков/пары сотен таблиц с сотнями миллионов строк (результаты хранятся в течение ограниченного времени, по истечении которого будут удаляться).

Обязательно спроектировать так, чтобы DROP'ать целыми таблицами. Обязательно.

soomrack ★★★★★
(20.08.13 15:55:07 MSK)

Ответ на: комментарий от Deleted 20.08.13 15:55:00 MSK

Да, на русском — не видел, да и зачем? Технический язык простой, поэтому читать лучше в первоисточнике.

soomrack ★★★★★
(20.08.13 15:56:39 MSK)

Ответ на: комментарий от soomrack 20.08.13 15:56:39 MSK

Технический язык простой, поэтому читать лучше в первоисточнике.

У мну проблемка психологическая: с аглицким знаком, но постоянно преследуют думки, что что-то не так понял.

Deleted
(20.08.13 16:07:50 MSK)

Ответ на: комментарий от Deleted 20.08.13 16:07:50 MSK

Проверяй) Все равно книги пишут торговцы технологиями и упоротые, верить нельзя никому)

~~stevejobs~~ ★★★★☆
(20.08.13 16:09:34 MSK)

Ответ на: комментарий от stevejobs 20.08.13 16:09:34 MSK

верить нельзя никому

Угу. Особенно маркетологам.

Deleted
(20.08.13 16:11:31 MSK)

Ссылка

Ответ на: комментарий от soomrack 20.08.13 15:51:47 MSK

blobы — да, text — нет.

text тоже «да», см. TOAST

maxcom ★★★★★
(20.08.13 16:24:11 MSK)

Ответ на: комментарий от soomrack 20.08.13 15:55:07 MSK

Обязательно спроектировать так, чтобы DROP'ать целыми таблицами. Обязательно.

головную боль - гильотиной? Ну уже выше согласились - «партицирования» достаточно.

yyk ★★★★★
(20.08.13 16:44:23 MSK)

Вопрос второй - есть ли лучший инструмент для подобной задачи?

не поверишь, но как раз ваш текущий подход более лучший, нужно его только причесать. рСУБД с ACID есть смысл в вашей системе использовать только как хранилище метаданных, т.е. чтобы знать где что и в каком виде находится с какой версией обновлений. Некий наколеночный аналог BigTable

~~mashina~~ ★★★★★
(20.08.13 17:34:38 MSK)

получится что-то вроде десятков/пары сотен таблиц

Сейчас в public-схеме моего проекта 300 таблиц. Проекту уже 9 лет и на сервере версии постгреса обновляются раз в год.

Самая большая таблица, и самая интересная, весит 60 гигов (все данные по некому процессу). Аналог этой таблицы, truncated-версия, каждый день чистится. Читают в основном из truncated. Полет нормальный. За 2 года моих наблюдений сбоев небыло. То есть совсем никаких.

outtaspace ★★★
(20.08.13 17:50:04 MSK)

Когда то давно на глаза попадалась такая nosql тулза для работы с массивами чисел Не подойдет?

Karapuz ★★★★★
(20.08.13 18:35:45 MSK)

Ответ на: комментарий от Karapuz 20.08.13 18:35:45 MSK

Это не массивы чисел. Это совершенно разнородные данные, результат скорее не вычислений, а ... я бы назвал это датамайнингом.

Xellos ★★★★★
(20.08.13 19:03:04 MSK) автор топика

Ссылка

Ответ на: комментарий от mashina 20.08.13 17:34:38 MSK

«Причесать» это начать и кончить. Сейчас это csv-файлы. Когда пользователю нужна аналитика (достаточно стандартная) по ним, он их загружает в ёксель и... Это же бардак.

Xellos ★★★★★
(20.08.13 19:05:05 MSK) автор топика