Key-value storage (?), с непредсказуемым key или document storage

0

0

Короче, ребзя, нужно мне создавать и классифицировать файлы по нескольким параметрам. Например, по толщине и зелёности. Сейчас я использую иерархическое хранение в файловой системе, вроде: "./толщина:XXXсм./зелёность:YYY%/".

Но становится ясно, что параметры могут добавляться в будущем и наращивать глубину иерархии не хочется. К тому же, есть подозрение, что скоро понадобятся параметры, скажем так, равнозначные. Текущие параметры всегда присутствуют, разница только в их значении. «Равнозначные» могут присутствовать или отсутствовать в любой комбинации. Не хочется придумывать, каким образом их упорядочивать и как вообще кодировать в имени пути.

Решил я, что мне нужна БД, которая бы брала набор параметров и возвращала мне что-нибудь, что можно использовать как путь. Похрену, что. UUID, например.

Из требований: легкость в освоении и настройке, т.к. записей там будет всего несколько сотен и нет смысла возиться с настройкой производительности; работа по сети.

Хочется в неком смысле «атомарности». В том, что если несколько клайентов обнаружат, что для данного ключа нет value и захотят добавить его, то чтобы это смог сделать только один, а остальные смогли корректно узнать об этом, т.е. получить добавленное одним из них значение.

Остальное выясним в процессе обсуждения.

Ссылка

← Не включается ввод русского языка в QtCreator

Запуск git команд после выполнения предыдущих →

т.к. записей там будет всего несколько сотен

то индекс можно хранить в памяти, а данные хоть в ~~рулонах таулетной бумаги~~ монге, т.е. ничего менять не надобно

Deleted
(13.02.17 22:05:34 MSK)

Ответ на: комментарий от Deleted 13.02.17 22:05:34 MSK

а данные хоть в монге, т.е. ничего менять не надобно

Так сейчас никаких монг нет. Есть захардкоженные в софте шаблоны путей до файлов, куда подставляются значения параметров.

utf8nowhere ★★★★
(13.02.17 22:07:42 MSK) автор топика

Ответ на: комментарий от utf8nowhere 13.02.17 22:07:42 MSK

ну или так, опятьже я не понял, если у тебя клиент-сервер-бд - то разруливать конкуррентность ты можешь на сервере, если несколько серверов, то да придется попотеть, либо блокировки, либо эвенты

и укажи какой максимальный размер одного value

Deleted
(13.02.17 22:09:26 MSK)

Ответ на: комментарий от Deleted 13.02.17 22:09:26 MSK

ну или так, опятьже я не понял, если у тебя клиент-сервер-бд - то разруливать конкуррентность ты можешь на сервере, если несколько серверов, то да придется попотеть, либо блокировки, либо эвенты

Понятия не имею, сколько у меня чего. Софтина хочет дать кому-то описание параметров и получить назад путь, куда сохранять файл. Таких софтин может быть несколько одновременно, как на локалхосте (эксплуатирую SMP), так и в сети.

и укажи какой максимальный размер одного value

что-нибудь, что можно использовать как путь

(JSON в качестве пути не предлагать.)

utf8nowhere ★★★★
(13.02.17 22:13:38 MSK) автор топика

Почти под любые задачи смотреть есть смысл среди leveldb, sqlite, tarantool, redis, mysql/postgresql, mongodb. Все поднимаются с пол пинка.

Под твои объемы можно тупо в память все пихать как json и выбирать сканом. Соответственно, транзакционность не нужна, потому что атомарность и так есть.

А из-за того что ты хочешь много клиентов и персистанс, тебе простые базы не подойдут, потому что они однотредовые (типа, эмбеддед). Соответственно, нужен либо тупой сторадж с серверной обвязкой, либо полноценная база.

Трудно что-то конкретное с ходу назвать, не зная всех нюансов. Лучше сам посмотри из списка.

Vit ★★★★★
(13.02.17 22:20:35 MSK)

Ответ на: комментарий от utf8nowhere 13.02.17 22:13:38 MSK

с такими масштабами тебе sqlite хватит, но если сильно хочется то любую реляционную субд, зачем тебе kv если ты хочешь по нескольким критериям искать.

Deleted
(13.02.17 22:22:28 MSK)

Ответ на: комментарий от Vit 13.02.17 22:20:35 MSK

судя по всему ТС хочет базу для решения concurrency использовать, так что скан ему не поможет

Deleted
(13.02.17 22:24:44 MSK)

Ответ на: комментарий от utf8nowhere 13.02.17 22:13:38 MSK

Софтина хочет дать кому-то описание параметров и получить назад путь, куда сохранять файл

Тут ты с базами не по адресу, КМК. Использовать ее ради химии с индексами для хранения единственного рандома - это какой-то дикий оверкил.

По-моему тебе нужна хеш-функция от набора параметров. Определись, что на ключ должно влиять, выпиши значения через запятую и посчитай sha1, например.

Vit ★★★★★
(13.02.17 22:25:48 MSK)

Ответ на: комментарий от Vit 13.02.17 22:25:48 MSK

Черт я думал что ТС будет выборку по отдельному критерию делать, если нет то да тупо хеш и все.

Deleted
(13.02.17 22:27:19 MSK)

Ответ на: комментарий от Deleted 13.02.17 22:22:28 MSK

Эти «несколько критериев» могут расширяться. Например, вчера мы не различали по sd-positiveness, сегодня различаем. При этом вчерашние файлы мы дальше храним.

utf8nowhere ★★★★
(13.02.17 22:28:47 MSK) автор топика

Ответ на: комментарий от Deleted 13.02.17 22:24:44 MSK

Он по-моему еще не смог до конца сформулировать что хочет. Конкуренси надо когда куча клиентов и работа с диском. С памятью этих проблем нет, т.к. задержка нулевая и просто глобальный лок на операцию ставится.

Vit ★★★★★
(13.02.17 22:28:54 MSK)

Ответ на: комментарий от utf8nowhere 13.02.17 22:28:47 MSK

почитай про alter table

Deleted
(13.02.17 22:29:20 MSK)

Ответ на: комментарий от Vit 13.02.17 22:28:54 MSK

дык после кипятильника он признался что у него куча какихто софтин, одна бд которую он хочет и диск с файлами

Deleted
(13.02.17 22:30:45 MSK)

Ответ на: комментарий от Vit 13.02.17 22:25:48 MSK

По-моему тебе нужна хеш-функция от набора параметров.

Не хочется придумывать, каким образом их упорядочивать и как вообще кодировать...

«{ толщина: 200см; зелёность: 100%; }» и «{ зелёность: 100%; толщина: 200см; }» будут иметь разный хеш, но я не хочу их различать.

utf8nowhere ★★★★
(13.02.17 22:31:17 MSK) автор топика

Ответ на: комментарий от Deleted 13.02.17 22:30:45 MSK

Куча экземпляров одной и той же софтины запущены одновременно.

utf8nowhere ★★★★
(13.02.17 22:31:59 MSK) автор топика

Ссылка

Ответ на: комментарий от utf8nowhere 13.02.17 22:28:47 MSK

Посмотри гугловский protobuf, на тему обратной совместимости структур.

База тебе не даст какой-то волшебной магии. Ты будешь точно так же долбиться с совместимостью, только на уровне конвертации таблиц и т.п. Определиться из каких полей надо генерить уникальный ключ - все равно придется.

Vit ★★★★★
(13.02.17 22:33:04 MSK)

Ссылка

Ответ на: комментарий от Deleted 13.02.17 22:27:19 MSK

Выборку я тоже хочу иногда делать, но только для того, чтобы посмотреть, что у меня вообще есть.

utf8nowhere ★★★★
(13.02.17 22:34:17 MSK) автор топика

Ответ на: комментарий от Deleted 13.02.17 22:29:20 MSK

хотя нет, както так:

tableFiles
id|filename
-------------
1   one
2   two

tableKinds
id|title
---------
1  color
2  weigth

tableFileKinds
fileId|kindId | value
---------------- 
1       1       green
1       2       2kg
0       1       red

Deleted
(13.02.17 22:35:18 MSK)

Ссылка

Ответ на: комментарий от utf8nowhere 13.02.17 22:31:17 MSK

«{ толщина: 200см; зелёность: 100%; }» и «{ зелёность: 100%; толщина: 200см; }» будут иметь разный хеш, но я не хочу их различать.

А по ключам («толщина», «зелёность») отсортировать никак?

theNamelessOne ★★★★★
(13.02.17 22:36:00 MSK)

Ответ на: комментарий от theNamelessOne 13.02.17 22:36:00 MSK

Как, но это уже относится к «думать, как упорядочить», а я бы хотел этого избежать.

utf8nowhere ★★★★
(13.02.17 22:36:46 MSK) автор топика

Ответ на: комментарий от utf8nowhere 13.02.17 22:34:17 MSK

вон выше я тебе накидал из трех табличек (но irl надо чуть больше), наколдуй к аксесес или что там у тебя под рукой есть посочиняй запросы на выборку и все, очеивидно что можно в рантайме добавлять\удалять критерии и типы критериев любому файлу

Deleted
(13.02.17 22:37:17 MSK)

Ссылка

Ответ на: комментарий от utf8nowhere 13.02.17 22:31:17 MSK

Надо ж сортировать перед склейкой. Если только для уникальности - можно тупо по алфавиту.

Vit ★★★★★
(13.02.17 22:37:20 MSK)

Ссылка

Ответ на: комментарий от utf8nowhere 13.02.17 22:36:46 MSK

Как, но это уже относится к «думать, как упорядочить», а я бы хотел этого избежать.

Тут не надо думать, я уже сказал, что нужно сделать — отсортировать. Лексикографическая сортировка — это элементарная операция, которую может любой ЯП высокого уровня. А если твой ЯП её не умеет, то реализовывается она за 5 минут.

theNamelessOne ★★★★★
(13.02.17 22:43:02 MSK)

мне создавать и классифицировать файлы по нескольким параметрам.
что параметры могут добавляться в будущем и наращивать глубину иерархии
мне нужна БД, которая бы брала набор параметров и возвращала мне что-нибудь
записей там будет всего несколько сотен

На таком «гигантском» объеме - тупо MySQL. Где каждый признак - это колонка. Нужен новый признак - добавляем новую колонку.

Pinkbyte ★★★★★
(13.02.17 22:44:36 MSK)

Ответ на: комментарий от theNamelessOne 13.02.17 22:43:02 MSK

Да, у меня была такая идея ещё до создания треда. И пока в треде ничего лучшего не предложили.

utf8nowhere ★★★★
(13.02.17 22:45:00 MSK) автор топика

Ссылка

Ответ на: комментарий от Pinkbyte 13.02.17 22:44:36 MSK

А что будет со старыми записями при добавлении колонки?

utf8nowhere ★★★★
(13.02.17 22:45:31 MSK) автор топика

Ответ на: комментарий от utf8nowhere 13.02.17 22:45:31 MSK

У них появится дефолтное значение нового поля. Которое либо ты задашь, либо оно будет NULL, что в терминах SQL означает его отсутствие

Pinkbyte ★★★★★
(13.02.17 22:46:13 MSK)

Ссылка

Ответ на: комментарий от utf8nowhere 13.02.17 22:45:31 MSK

Надо будет делать ALTER TABLE и указывать дефолтное значение. Но вообще всякий рандомный шлак по которому нет выборок можно в одно поле в виде JSON закатать.

Vit ★★★★★
(13.02.17 22:47:51 MSK)

Ссылка

Ответ на: комментарий от Pinkbyte 13.02.17 22:44:36 MSK

На таком «гигантском» объеме - тупо MySQL. Где каждый признак - это колонка.

Костыль какой. Лучше уж Postgres с полем типа hstore (и повесить на него unique index), у него ключи автоматически сортируются:

select 'c => d, a => b'::hstore = 'a => b, c => d'::hstore;
 ?column? 
----------
 t
(1 row)

theNamelessOne ★★★★★
(13.02.17 22:50:36 MSK)
Последнее исправление: theNamelessOne 13.02.17 22:53:18 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от theNamelessOne 13.02.17 22:43:02 MSK

Ах, да. Проблема — нельзя делать запросы. В смысле, wildcard. Хотя, если сохранять в директорию оригинальный json-файл, то при «объёме» в несколько сотен директорий можно и проходиться по ним и просто читать json-файлы.

utf8nowhere ★★★★
(13.02.17 22:53:16 MSK) автор топика

Ответ на: комментарий от utf8nowhere 13.02.17 22:53:16 MSK

Тогда Psql + hstore — то, что доктор прописал:

postgres=# create table adhoc_kv (
postgres(# key hstore not null,
postgres(# value text not null
postgres(# );
CREATE TABLE
postgres=# create unique index on adhoc_kv(key);
CREATE INDEX
postgres=# insert into adhoc_kv(key, value) VALUES ('a => b, c => d'::hstore, 'value 1'), ('a => b, x => y'::hstore, 'value 2');
INSERT 0 2
postgres=# -- look, ma, unique index!
postgres=# insert into adhoc_kv(key, value) VALUES ('c => d, a => b'::hstore, 'ignored value') on conflict(key) do nothing;
INSERT 0 0
postgres=# select * from adhoc_kv;
        key         |  value  
--------------------+---------
 "a"=>"b", "c"=>"d" | value 1
 "a"=>"b", "x"=>"y" | value 2
(2 rows)

postgres=# -- exact match
postgres=# select value from adhoc_kv where key = 'c => d, a => b'::hstore;
  value  
---------
 value 1
(1 row)

postgres=# -- "wildcard" search
postgres=# select value from adhoc_kv where key @> 'a => b'::hstore;
  value  
---------
 value 1
 value 2
(2 rows)

theNamelessOne ★★★★★
(13.02.17 23:05:26 MSK)
Последнее исправление: theNamelessOne 13.02.17 23:07:39 MSK (всего исправлений: 1)

Ответ на: комментарий от theNamelessOne 13.02.17 23:05:26 MSK

JSONB ещё можно использовать вместо hstore.

Norgat ★★★★★
(14.02.17 08:03:01 MSK)

Ответ на: комментарий от Norgat 14.02.17 08:03:01 MSK

Проще тогда сразу взять MongoDB. theNamelessOne, спс за вариант. Но я думаю, что возьму монгу.

utf8nowhere ★★★★
(14.02.17 21:25:28 MSK) автор топика

Ответ на: комментарий от utf8nowhere 14.02.17 21:25:28 MSK

Что кстати лучше. На большом кол-ве JSON записей Monga лучше справляется с поиском по индексированным полям (тестили на ~1.5 миллионах записей EAN 13 (которые штрихкоды) распиханных в документы). Разве что там есть ограничение на размер документа (ищи сам в гугле, сейчас не помню какое оно), если попытаешься вставить слишком большой док - кинет эксепшн.

Ну и там свои заморочки с транзакциями - покури гугл опять же. Мне в монге они были не нужны никогда, но какие-то косяки были с ними.

Norgat ★★★★★
(14.02.17 21:51:36 MSK)
Последнее исправление: Norgat 14.02.17 21:53:26 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Не включается ввод русского языка в QtCreator

Development

Запуск git команд после выполнения предыдущих →

Похожие темы