Бинарный формат для обмена данными между c++-библиотекой и python-кодом?

c++, numpy, python, форматы данных

Ищу header-only библиотеку для бинарного-формата, поддерживающего хранение многомерных массивов, скляров и строк которые можно писать/читать из c++ и читать/писать из numpy-массивов. Оценочный размер файлов от единиц-мегабайт, до десятков гигабайт — поэтому, нужна воможность считав заголовок файла, найти нужные смещения, а данные грузить уже по необходимости. Что для этого лучше использовать? Подходит-ли для моих задач hdf5?

Ссылка

← PyQt5 Qlocale показывает неверно

firefox и datetime-local →

MessagePack? Не уверен в наличии нормальных либ для плюсов.

~~RazrFalcon~~ ★★★★★
(18.06.20 17:08:10 MSK)

Для таких объемов можно NPY заюзать. Есть плюсовая либа для чтения/записи: https://github.com/rogersce/cnpy, но она не хедер-онли, к сожалению.

lu4nik ★★★
(18.06.20 17:19:46 MSK)

Ссылка

Сделать свое на коленке? Это несложно.

В питоне есть struct, на плюсах вообще руки развязаны.

~~AntonI~~ ★★★★★
(18.06.20 17:29:21 MSK)

Ответ на: комментарий от AntonI 18.06.20 17:29:21 MSK

Надоело велосипедить, так-то раньше и конфиги руками читал, а сейчас подключил json и сразу удобно стало. Хочется унификации ну и что бы свои данные другим можно было передавать без извратов.

thunar ★★★★★
(18.06.20 17:31:18 MSK) автор топика

Ответ на: комментарий от thunar 18.06.20 17:31:18 MSK

Есть SWIG, хотя придется посмотреть как лежат данные в numpy.

Если хотите высокой производительности велосипедостроение практически неизбежно, увы.

~~AntonI~~ ★★★★★
(18.06.20 17:32:48 MSK)

Ссылка

Ответ на: комментарий от AntonI 18.06.20 17:29:21 MSK

Это несложно

Сериализуй unsigned в бинарный формат и потом прочти его. Бьюсь об заклад ты облажаешься даже на этом. Как впрочем и другие местные

anonymous
(18.06.20 17:34:58 MSK)

с каким-нибудь pybind11 нарисовать вменяемых оберток, и не обмениваться бинарными данными

vasily_pupkin ★★★★★
(18.06.20 17:36:53 MSK)

Ответ на: комментарий от anonymous 18.06.20 17:34:58 MSK

В питоне есть unsigned? А так из плюсов в питон перегнать вообще никаких проблем нет.

~~AntonI~~ ★★★★★
(18.06.20 17:37:02 MSK)

Ответ на: комментарий от vasily_pupkin 18.06.20 17:36:53 MSK

Там все же речь идет о сериализации насколько я понял. Обычно такие вещи сразу хочется хранить на диске и пр.

~~AntonI~~ ★★★★★
(18.06.20 17:38:08 MSK)

Ссылка

Ответ на: комментарий от AntonI 18.06.20 17:37:02 MSK

В питоне есть unsigned?

Очевидно, речь о крестах

А так из плюсов в питон перегнать вообще никаких проблем нет

Тогда продемонстрировать тоже никаких проблем. Действуй

anonymous
(18.06.20 17:42:06 MSK)

я когда-то пробовал искать форматы

для трехмерных массивов. Для картинок, понятное дело, fits есть. А для более-мерных только hdf и нашелся (не помню уж какой номер). Умеет хранить кроме данных заголовки/свойства. Но использование его (я создавал в IDL а читал в fortran) какое-то было ни разу не user-friendly. Однако, видимо, вариант, если не хочется велосипедить.

sshestov ★★
(18.06.20 17:42:31 MSK)
Последнее исправление: sshestov 18.06.20 17:42:59 MSK (всего исправлений: 1)

Ответ на: комментарий от RazrFalcon 18.06.20 17:08:10 MSK

MessagePack

Там упор на плотность, поэтому длины полей меняются в зависимости от содержимого, и чтобы найти что-то, нужно декодировать всё до нужного кусочка. MessagePack даже не подходит для случая, когда ты хочешь сериализировать массив, но ещё не знаешь, сколько там будет элементов.

i-rinat ★★★★★
(18.06.20 17:42:43 MSK)

Ссылка

Ответ на: комментарий от anonymous 18.06.20 17:42:06 MSK

import struct
help (struct)

Бьюсь об заклад ты облажаешься

На что будем спорить?

~~AntonI~~ ★★★★★
(18.06.20 17:45:21 MSK)

Ссылка

Ответ на: я когда-то пробовал искать форматы от sshestov 18.06.20 17:42:31 MSK

Ну сейчас все как то стали юзать vtk.

Мне vtk не нравится, у нас свои велосипеды. С этим есть определенные сложности, вьюверы правда работают очень быстро;-)

~~AntonI~~ ★★★★★
(18.06.20 17:48:28 MSK)

Ссылка

Так, для hdf нашёл такой вариант https://github.com/BlueBrain/HighFive, попробую его.

thunar ★★★★★
(18.06.20 17:52:06 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 18.06.20 17:34:58 MSK

Сериализуй unsigned в бинарный формат и потом прочти его. Бьюсь об заклад ты облажаешься даже на этом.

Для Царя или косящего под него.

Таки научитесь нормально общаться - и никто не будет Ваши сообщения тереть.
Вы предложили пари - я согласен. Выбираем судью (кого то из юзеров ЛОР-а). Спорим на деньги (сумму называете сами), мы оба переводим ему по этой сумме. Затем я выкладываю решение - беззнаковое целое пишется в файл/stdout при помощи fwrite и читает из файла питоном. Если решение работает, судья переводит двойную сумму мне, не работает - Вам.

Я прошу прощения у ТС-а и остальных, но быдло надо учить;-)

~~AntonI~~ ★★★★★
(18.06.20 18:28:09 MSK)
Последнее исправление: AntonI 18.06.20 18:30:26 MSK (всего исправлений: 1)

Ссылка

Чем Protobuf не устроили?

beastie ★★★★★
(18.06.20 18:41:42 MSK)

Ссылка

Тебе какой ЯП интересен? Питон или крестики? В случае питона есть pickle, полубинарный уродец. А вот если тебе смещения нужны, то свой велосипед делать надо. Мало ли что тебе надо там смещаться. Хотя в случае питона мне твоя задача не нравится. Питон не про скорость, лучше брать другой ЯП и там уже заниматься байтолюбовью.

peregrine ★★★★★
(18.06.20 19:05:28 MSK)

Ответ на: комментарий от anonymous 18.06.20 17:34:58 MSK

Царь, я знаю что ты клоун, но не настолько же...

peregrine ★★★★★
(18.06.20 19:06:33 MSK)

Ответ на: комментарий от peregrine 18.06.20 19:06:33 MSK

Когда я с ним общался лет 10 назад он был более вменяем. Видать совсем кукушка поехала…

~~AntonI~~ ★★★★★
(18.06.20 19:10:20 MSK)

Ответ на: комментарий от peregrine 18.06.20 19:05:28 MSK

Я комбинировал пикл с бинарными массивами, это работает но не очень быстро.

Для озвученных объемов нужен чисто бинарный формат.

Сопряжение с нампай из плюсов у меня давеча коллега сделал, это несложно.

Самое смешное, что я буквально неделю назад прикрутил к своему вьюверу режим удаленной работы (что бы данные с сервера не выкачивать, много их больно), и там именно вот так все и сделано - свой бинарный формат, на одном конце питон, на другом плюсы, разные ОС и все работает:-)

~~AntonI~~ ★★★★★
(18.06.20 19:18:14 MSK)

Подходит-ли для моих задач hdf5?

HDF5 не умеет удалять данные из файла, если что. И довольно неспешно развивается.

https://cyrille.rossant.net/moving-away-hdf5/

Впрочем мне, для простого хранения пары массивов с метаданными, всего хватает.

Есть еще какой-то ASDF, и он якобы тоже может data chunking.

https://asdf-standard.readthedocs.io/en/latest/index.html

Zeta_Gundam ★
(18.06.20 19:32:27 MSK)

Ссылка

Ответ на: комментарий от AntonI 18.06.20 19:18:14 MSK

cPickle пробовал? Хотя шибко быстрее грузить не будет, но дамп сильно ускорится.

peregrine ★★★★★
(18.06.20 19:35:04 MSK)

ТС, для разгона подумай о БД, это не больно, может быть там выгоднее данные хранить, особенно если у тебя десятки гигабайтов, хотя зависит от твоего случая.

peregrine ★★★★★
(18.06.20 19:37:12 MSK)
Последнее исправление: peregrine 18.06.20 19:38:27 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от peregrine 18.06.20 19:35:04 MSK

Пробовал. И всякие комбинации вроде заголовок в пикле а дальше бинарный блоб пробовал.

Что бы быстро читать надо мапировать файл.

~~AntonI~~ ★★★★★
(18.06.20 19:45:01 MSK)

Avro, protobuf

invy ★★★★★
(18.06.20 23:58:21 MSK)

Ссылка

Ответ на: комментарий от AntonI 18.06.20 17:29:21 MSK

И прострелить его себе своим же поделием.

invy ★★★★★
(18.06.20 23:59:32 MSK)
Последнее исправление: invy 19.06.20 00:02:45 MSK (всего исправлений: 1)

Ссылка

https://capnproto.org/

Правда не header-only

monk ★★★★★
(19.06.20 05:14:43 MSK)

Ссылка

Ответ на: комментарий от AntonI 18.06.20 19:10:20 MSK

Когда я с ним общался лет 10 назад он был более вменяем. Видать совсем кукушка поехала…

Для тех у кого «Горе от ума» это - норма.

Владимир

anonymous
(19.06.20 05:17:48 MSK)

Ссылка

Ответ на: комментарий от thunar 18.06.20 17:31:18 MSK

Тогда тебе точно protobuf или avro. И конфиги серилизовать и бинарно с другими обмениваться. То есть в принципе у тебя будет один универсальный инструмент.

invy ★★★★★
(19.06.20 09:49:35 MSK)

Ссылка

А зачем для этого особый формат? void* и size

Reset ★★★★★
(20.06.20 16:32:18 MSK)

Ссылка

HDF5 - самое близкое, да. Вообще часто самое лучшее решение - numpy.memmap + какой-нибудь индекс (хоть в sqlite). Ещё есть arrow, как то что ты написал в заголовке.

ei-grad ★★★★★
(22.06.20 13:42:36 MSK)

Ссылка

31 декабря 2020 г.

Ответ на: комментарий от AntonI 18.06.20 19:45:01 MSK

Как ни странно, npz оказался оптимальным выбором в моём случае. В ридере удобно унаследоваться от numpy.lib.npyio.NpzFile добавив туда необходимые обёртки.

thunar ★★★★★
(31.12.20 19:20:04 MSK) автор топика