Сериализация с архивацией

0

2

Есть большой объем однообразных данных (500 гб). Все данные можно разделить на отдельные блоки (допустим, по 1 гб). Хотелось бы как-то удобно и быстро вгружать несколько блоков данных прямо в оперативную память для дальнейшей обработки.

Напрашивается сериализация, но хотелось бы:
1. Какой-то универсальный механизм с поддержкой многих языков программирования. Хотя бы для C++ и Java.
2. Поддержку архивации.

Может уже есть какие-то готовые либы/технологии для этого? Подскажите в какую сторону копать.

Раньше все это работало через БД Postgresql. Эффективность сильно низкая. На select-ах теряется много времени. Индексы есть.

Спасибо.

Ссылка

←	Пропорциональное изменение размера виджета с изменением размера окна

Алгоритм поиска простых чисел, объясните

→

Структура данных?

anonymous
(24.05.15 16:09:14 MSK)

Ссылка

большой объем однообразных данных

500 гб

рукалицо

Попробуй hadoop или spark. Хотя объем данных слишком маленький, и скорее всего выигрыша не будет.

slyjoeh ★★★★
(24.05.15 16:14:00 MSK)

Ссылка

звучит как memory mapping.

Если упаковку/распаковку делать ленивую, то вполне прокатит для cpp, для java - не в теме я чего там как.

pon4ik ★★★★★
(24.05.15 16:15:57 MSK)

Ссылка

1. Какой-то универсальный механизм с поддержкой многих языков программирования. Хотя бы для C++ и Java.

protocol buffers

maloi ★★★★★
(24.05.15 16:58:40 MSK)

Ответ на: комментарий от maloi 24.05.15 16:58:40 MSK

protocol buffers

не умеет больше 64 мегов в 1 мессадж.

anonymous
(24.05.15 16:59:38 MSK)

Ответ на: комментарий от anonymous 24.05.15 16:59:38 MSK

1. это можно обойти
2. а кто говорит, что надо 1 ГБ писать одним мессаджем?

maloi ★★★★★
(24.05.15 17:05:19 MSK)

Ссылка

Загоняй все в монгу, самый верный вариант

Valor ★
(24.05.15 17:05:58 MSK)

Ссылка

Не говноплюсы конечно, но у них есть жабовский интерфейс к:

AllegroGraph® is a modern, high-performance, persistent graph database. AllegroGraph uses efficient memory utilization in combination with disk-based storage, enabling it to scale to billions of quads while maintaining superior performance. AllegroGraph supports SPARQL, RDFS++, and Prolog reasoning from numerous client applications.

http://franz.com/agraph/allegrograph/

~~Oxdeadbeef~~ ★★★
(24.05.15 17:11:41 MSK)

Ответ на: комментарий от anonymous 24.05.15 16:59:38 MSK

не умеет больше 64 мегов в 1 мессадж.

Умеет, но протобуф гогнецо для таких задач, лучше делать свои велосипеды.

~~mashina~~ ★★★★★
(24.05.15 17:18:12 MSK)

Ответ на: комментарий от mashina 24.05.15 17:18:12 MSK

не умеет. Чтоб умел нужно пересобрать и с собой это таскать. 3 может быть умеет.

anonymous
(24.05.15 17:25:42 MSK)

Ответ на: комментарий от Oxdeadbeef 24.05.15 17:11:41 MSK

гогно. лучше тогда уж монгоДБ.

anonymous
(24.05.15 17:26:32 MSK)

Ссылка

Ответ на: комментарий от anonymous 24.05.15 17:25:42 MSK

Чтоб умел нужно пересобрать и с собой это таскать.

т.е. документация врет? https://developers.google.com/protocol-buffers/docs/reference/cpp/google.prot...

maloi ★★★★★
(24.05.15 17:31:15 MSK)

Ссылка

Ответ на: комментарий от anonymous 24.05.15 17:25:42 MSK

не умеет. Чтоб умел нужно пересобрать и с собой это таскать. 3 может быть умеет.

Умеет второй и без перекомпиляции. Но 1Гб всё равно не осилит.

~~mashina~~ ★★★★★
(24.05.15 17:37:07 MSK)

Ссылка

Раньше все это работало через БД Postgresql. Эффективность сильно низкая. На select-ах теряется много времени. Индексы есть.

эээ..в job привести схему и реквестировать спеца?

ps/ «эффективность» настолько расплывчатое слово, что полностью ангажированно менеджерами и прочими маркетолагами.

MKuznetsov ★★★★★
(24.05.15 23:35:53 MSK)

Ссылка

быстро и удобно одновременно обычно не бывает. практика показывает, что те, кто работает с действительно большими объёмами данных, не юзают RDBMS и даже NoSQL не юзают, а пишут свои велосипеды на С/С++. если файлы уже на машине, на которой работает софт, я бы просто в С++ мапила файлы на память для работы. это самая быстрая работа с данными. работала так с многогигабайтными изображениями (нужна была векторная обработка больших сканов), вроде вполне прилично выходило. а через базы как ни крути, но будет медленно и печально.

Iron_Bug ★★★★★
(25.05.15 09:04:00 MSK)