Хранение метаданных в многомерном массиве

0

2

В результате обработки экспериментальных данных получаю многомерный массив значений при разных параметрах эксперимента. Эти данные впоследствие используются для отображения различных зависимостей. Все эксперименты разные и в каждом из них варьируется свой набор параметров(например, в одном эксперименте варьируется температура и мощность лазерного излучения при заданном напряжении и длине зазора, а в другом наоборот длина зазора и напряжение при заданной температуре и мощности лазерного излучения). В данный момент использую многомерный массив, но каждый раз приходится смотреть как записаны данные; для каждого эксперимента приходится писать много дублирующегося кода. Интересно есть ли какой-то универсальный способ хранения данных, который бы включал в себя метаданные эксперимента? Язык программирования python

Ссылка

← Как получить доступ к элементам отображенным с использованием файла формата svg??

Помогите составить план изучения С++ →

Графики обычно - либо зависимость x от y при определенных параметрах, либо зависимости вида heat map https://en.wikipedia.org/wiki/Heat_map

gameover__
(27.06.15 23:54:30 MSK) автор топика

Ссылка

А многомерный массив полностью заполнен?

Вообще это набор (список) записей, каждая из которых словарь вида {имя_параметра1:значение_параметра1, ...}

~~AIv~~ ★★★★★
(27.06.15 23:59:30 MSK)

Ответ на: комментарий от AIv 27.06.15 23:59:30 MSK

Да, многомерный массив полностью заполнен. А как потом зависимости строить? Сейчас приходится вручную смотреть куда что записал, а в идеале хотелось бы иметь такую структуру данных, чтобы можно было написать обвязку: построить зависимость того-то от того-то при таких-то таких-то значениях. Никак не придет в голову как это реализовать и не знаю даже слов по которым бы погуглить что-то подобное.

gameover__
(28.06.15 00:15:02 MSK) автор топика

Ответ на: комментарий от gameover__ 28.06.15 00:15:02 MSK

обычная реляционная база данных с индексами не годится? Строишь индексы по интересующим тебя параметрам, потом делаешь выборки.

anonymous
(28.06.15 00:18:32 MSK)

Ответ на: комментарий от gameover__ 28.06.15 00:15:02 MSK

И да производительность этой части не критична. Обработка данных долгая, но делается один раз. Просто устал вручную переписывать код обработки данных и код отображения, а экспериментов разных очень много.

gameover__
(28.06.15 00:19:57 MSK) автор топика

Ответ на: комментарий от gameover__ 28.06.15 00:19:57 MSK

Объём данных-то вообще какой?

anonymous
(28.06.15 00:24:51 MSK)

Ответ на: комментарий от anonymous 28.06.15 00:18:32 MSK

Не знаком с реляционными базами, не слишком ли сложно для подобной задачи? В идеале хотелось бы обойтись стандартными средствами языка и сохранить текстовое отображение, чтобы если что можно было заслать данные коллабораторам.

gameover__
(28.06.15 00:25:05 MSK) автор топика

Ответ на: комментарий от gameover__ 28.06.15 00:25:05 MSK

Объём данных какой? Мегабайты? Гигабайты? Терабайты?

anonymous
(28.06.15 00:31:05 MSK)

Ссылка

Ответ на: комментарий от anonymous 28.06.15 00:24:51 MSK

Объем смешной, типичный экспримент 3x10x10x20, где 3 - количество экспериментов выполненных при идентичных экспериментальных условиях 10 значений параметра1 10 значений параметра2 20 интересующих интенсивностей, полученных в результате обработки. Нужно выводить, например, зависимости различных интенсивностей в зависимости от параметра2 при фиксированном параметре1 после усреднения по всем 3 экспериментам или что-то в таком роде.

gameover__
(28.06.15 00:31:17 MSK) автор топика

Ответ на: комментарий от gameover__ 28.06.15 00:31:17 MSK

гигабайты данных на входе, из них выдираются интенсивности и складываются в очень маленький по размеру массив.

gameover__
(28.06.15 00:33:25 MSK) автор топика

Ответ на: комментарий от gameover__ 28.06.15 00:31:17 MSK

Твои данные можно представить как таблицу, в которой каждая строка соответствует одному эксперименту, а колонки описывают условия (параметры) эксперимента (даже если они не менялись в течение данноно эксперимента) и, собственно результаты эксперимента, ну и плюс колонка, идентифицирующая сам эксперимент. При твоих объёмах такую таблицу можно просто в Openoffice Calc держать. И сортировать и строить графики по любым колонкам, которые тебе захочется.

anonymous
(28.06.15 00:40:20 MSK)

Ответ на: комментарий от gameover__ 28.06.15 00:33:25 MSK

Не, если ты не об анализе тех гигабайт, то это уже другая тема. Вот ежели ты каждый раз прокачивал бы немеряные объёмы данных для каждого среза - там был бы смысл выкручиваться и искать пути оптимизации. Ну просто затраты времени на оптимизацию окупились бы снижением затрат времени на ожидание результата. А с шестью тысячами выборок - не стоит и напрягаться.

anonymous
(28.06.15 00:47:55 MSK)

Ссылка

Ответ на: комментарий от anonymous 28.06.15 00:40:20 MSK

Openoffice - не подходит по 2-м причинам: 1) много работы ручками 2) графики некрасивые, если потом придется публиковать. Я сделал для нескольких экспериментов ручками, а теперь нужно сделать десятки/сотни различных экспериментов и желательно бы написать код, в котором нужно делать минимальные изменения для следующих входящих данных. Эксперимент по большей части автоматизирован.

gameover__
(28.06.15 00:55:16 MSK) автор топика

Ответ на: комментарий от gameover__ 28.06.15 00:55:16 MSK

В реляционных БД можно просто написать на языке SQL «Выбери мне такие-то колонки таблицы из строк, отвечающих таким-то условиям в таком-то порядке», но ты же не хочешь их изучать.

Если ты обмениваешься данными с коллегами, то электронные таблицы в открытом формате сойдут, какие бы ни были уродливые графики, а для публикации никто не мешает экспортировать данные и воспользоваться твоим обычным способом рисования красивых графиков. Кстати, чем ты их рисуешь красиво?

anonymous
(28.06.15 01:07:15 MSK)

Ответ на: комментарий от anonymous 28.06.15 01:07:15 MSK

Да, не хотелось бы. Пожалуй лучше напишу костыль на кортэжах, словарях и списках, благо скорость не критична. Проблема с реляционными базами - потом забудешь как поправить что-то через год. Все заново нужно будет изучать. Рисую в матплотлибе. Вот пример графика:https://imageshack.us/i/exTJRRYxp Или вот для внутреннего пользования: https://imageshack.us/i/pa9zB8EEp

gameover__
(28.06.15 01:19:09 MSK) автор топика

Ответ на: комментарий от gameover__ 28.06.15 01:19:09 MSK

Проблема с реляционными базами - потом забудешь как поправить что-то через год. Все заново нужно будет изучать.

Кортежи разве проще вспомнить? Я, например, это слово-то в последний раз слышал лет двадцать или двадцать пять назад. В курсе реляционных баз данных, кстати :)

Да и не надо бояться забыть. Просто надо записывать. В случае с наборами данных это означает, что ты создаёшь стандартное представление данных (csv, SQL база данных или ещё что-то) и пишешь скрипт, который делает выборку, строит график и т.п. Если данные поменялись - ты построишь новый график тем же скриптом, применив его к другому набору данных. Чтобы не забыть что там у тебя в скрипте - обычно есть возможность откомментировать код. Да и твоим коллегам будет легче понять что ты делаешь в скрипте и проверить их корректность если потребуется.

Рисую в матплотлибе. Вот пример графика:https://imageshack.us/i/exTJRRYxp Или вот для внутреннего пользования: https://imageshack.us/i/pa9zB8EEp

Судя по их галерее, выглядит получше чем гнуплот. Хотя твои примеры графиков по качеству сосут и у гнуплота и у опенофиса, конечно..

anonymous
(28.06.15 02:02:42 MSK)

А можешь кинуть пару примеров, например, на pastebin.com и сюда выложить ссылки?

xpahos ★★★★★
(28.06.15 05:50:17 MSK)

Ответ на: комментарий от anonymous 28.06.15 02:02:42 MSK

Вообще то задача ТС на реляционные БД не ложиться - набор ключей заранее не известен и может меняться. Можно конечно ее и на реляц.БД сделать, но будет даже кривее чем средствами ЯП.

Можно посмотреть в сторону каких нить ооБД.

У нас есть такая шняга для хранения и обработки результатов числ.моделирования.

Пишите в личку aivanov [собака]keldysh [точка]ru

~~AIv~~ ★★★★★
(28.06.15 09:39:33 MSK)

Ответ на: комментарий от xpahos 28.06.15 05:50:17 MSK

код на работе и write only, написан на коленке перед конференцией, вот сейчас собираюсь привести в порядок, тогда выложу

gameover__
(28.06.15 15:02:22 MSK) автор топика

Ссылка

А netcdf/hdf5?

greenman ★★★★★
(28.06.15 15:06:27 MSK)
Последнее исправление: greenman 28.06.15 15:08:16 MSK (всего исправлений: 2)

Решил остановиться на hdf5 и его привязке к питону h5py http://www.h5py.org/ http://stackoverflow.com/questions/23548704/search-for-attribute-value-in-hdf...

gameover__
(28.06.15 15:07:06 MSK) автор топика

Ссылка

Ответ на: комментарий от greenman 28.06.15 15:06:27 MSK

Да уже нашел, спасибо, похоже то, что надо

gameover__
(28.06.15 15:09:40 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 28.06.15 02:02:42 MSK

болшое преимушество грапхиков на матплотлиб перед офисом в том, что я их в любой момент смогу поправить до нужного качества все сразу небольшим изменением в коде

gameover__
(28.06.15 15:12:58 MSK) автор топика

Ссылка

Ответ на: комментарий от AIv 28.06.15 09:39:33 MSK

Вообще то задача ТС на реляционные БД не ложиться - набор ключей заранее не известен и может меняться.

Как это не известен? Известен - это его входные параметры.

Можно посмотреть в сторону каких нить ооБД.

Да, и чем это лучше кроме того, что сложнее? Человеку вон SQL трудно освоить почему-то.

Пишите в личку aivanov [собака]keldysh [точка]ru

Вот ещё. Ты тут пиши. Чтобы твоя дурь каждому видна была.

anonymous
(28.06.15 15:25:39 MSK)

Ответ на: комментарий от anonymous 28.06.15 15:25:39 MSK

Как это не известен? Известен - это его входные параметры.

От запуска к запуску они различаются. Можно конечно хранить все в таблицах вида имя-параметра:значение-параметра, но нафига тогда прикручивать БД? Средствами питона это делается куда проще и прямее.