Модуль для записи гигантского количества файлов на жесткий диск

0

3

Стоит задача сохранения небольших джейсонов (до 100б) на жесткий диск. Приблизительно 20000 джейсонов в секунду. Думал о двоичном дереве на жестком диске с хешированием (хеш формирует набор подкаталогов). Если кто-то сможет что-то посоветовать лучше или что-то почитать буду очень признателен.

Ссылка

←	Посоветуйте толковые книги на русском/английском по Си++ (Cxx11)

Объединить 3 пакета в 2

→

Почему именно файлы на файловую систему, а не просто писать в СУБД?

Noob_Linux ★★★★
(25.11.16 13:14:12 MSK)

Ответ на: комментарий от Noob_Linux 25.11.16 13:14:12 MSK

Потому что производительность нужна.

ECLIPSE ★
(25.11.16 13:28:00 MSK) автор топика

освой базы данны

просто трясет с подобных идиотов «а вот ваша ФС не умеет/не может»-когда есть и уже 40 лет существуют инструменты под задачу

anonymous
(25.11.16 13:37:15 MSK)

Ответ на: комментарий от anonymous 25.11.16 13:37:15 MSK

Лорчую. А еще бы подумал сразу про распределение нагрузки на несколько машин. Х его З что может быть и куда его занесет.

deep-purple ★★★★★
(25.11.16 13:39:56 MSK)

Ссылка

Ответ на: комментарий от ECLIPSE 25.11.16 13:28:00 MSK

Ты её явно не там ищешь.

anonymous
(25.11.16 13:41:40 MSK)

Ссылка

Ответ на: комментарий от ECLIPSE 25.11.16 13:28:00 MSK

Горшочек не вари.

Deleted
(25.11.16 13:41:48 MSK)

Ссылка

Можешь попробовать на рамдиск писать, но боюсь, что и там всё в обновление метаданных упрётся.

Вангую архитектурные проблемы системы.

Radjah ★★★★★
(25.11.16 13:41:55 MSK)

Ссылка

жейсонов

Это формат для передачи данных. Тебе же нужны данные, а не джейсон? Вот. Я бы парсил и писал в БД.

anonymous
(25.11.16 13:50:13 MSK)

Ссылка

Писать велосипед - это всегда весело. Одобряю. Но ТС ничего не сказал о характере работы с этими данными. Будет иметь место постоянная запись и очень редкое чтение, или будут постоянные добавления/удаления джейсонов в случайных местах.

pathfinder ★★★★
(25.11.16 13:55:19 MSK)

Да, есть такой модуль в ядре Linux, называется PostgreSQL

zolden ★★★★★
(25.11.16 13:58:41 MSK)

Ответ на: комментарий от zolden 25.11.16 13:58:41 MSK

Мы не знаем что там за задача у ТС.

База данных потянет за собой ещё одну зависимость, которая потребует дополнительной нагрузки в развертывании, конфигурировании и сопровождении.

Иногда эта доп. нагрузка всех устраивает, иногда нет. А вдруг ТС нужно написать небольшую автономную утилиту которая просто делает свою работу не напрягая пользователя установкой всяких постгрессов.

pathfinder ★★★★
(25.11.16 14:14:23 MSK)

Ссылка

Ответ на: комментарий от pathfinder 25.11.16 13:55:19 MSK

Будет постоянная запись 20000 файлов в секунду. Чтение будет происходить очень редко.

ECLIPSE ★
(25.11.16 14:19:05 MSK) автор топика

Ответ на: комментарий от ECLIPSE 25.11.16 14:19:05 MSK

Я если честно не понимаю как вы можете советовать мне базу данных при такой нагрузке.

ECLIPSE ★
(25.11.16 14:19:56 MSK) автор топика

JSONы парсить и писать в базу данных, СУБД тебе нужна, а не файловая система.

~~Alve~~ ★★★★★
(25.11.16 14:20:46 MSK)

Ответ на: комментарий от ECLIPSE 25.11.16 14:19:56 MSK

Осиль СУБД и заживешь. Если юзать классические реляционные бд — недостаточно по-хипсторски и ты хочешь хранить именно JSONы, открой для себя Mongo. Твои 20к/с — мелочь

mersinvald ★★★★★
(25.11.16 14:28:58 MSK)

Ссылка

Ответ на: комментарий от Alve 25.11.16 14:20:46 MSK

При такой нагрузке? СУБД не потянет такую сумасшедшую нагрузку это терабайты данных на рейд массивах. Я не собираюсь использовать СУБД для этой задачи.

ECLIPSE ★
(25.11.16 14:30:52 MSK) автор топика

Ответ на: комментарий от ECLIPSE 25.11.16 14:30:52 MSK

Сколько терабайт в секунду? В чём вообще проблема?

anonymous
(25.11.16 14:37:08 MSK)

Ссылка

PostgreSQL с JSONB, даже ничего парсить не придется

anonymous
(25.11.16 14:47:15 MSK)

Ссылка

Ответ на: комментарий от ECLIPSE 25.11.16 14:30:52 MSK

При такой нагрузке? СУБД не потянет такую сумасшедшую нагрузку это терабайты данных на рейд массивах.

Сразу видно профи, который изучил все возможность БД, коих тысячи.

А да. 20к жейсонов по 100 байт это вообще не нагрузка. та же монга даже не напряжется. А отстроенный постгрес тебе на порядок больше позволит писать.

ну если сильно охота велосипед - то B-tree и его варианты. походи по граблям, по которым уже до тебя походили :D

anonymous
(25.11.16 14:57:58 MSK)

Ссылка

Ответ на: комментарий от ECLIPSE 25.11.16 14:30:52 MSK

Ничего сумасшедшего не вижу. Правда, я почти уверен, что можно уменьшить твои данные, хорошо проанализировав задачу. Тебе весь тред говорит, чтобы брал субд, а ты не веришь.

~~Alve~~ ★★★★★
(25.11.16 15:03:16 MSK)

Ссылка

с такой постановкой вопроса — /dev/null, быстрее ничего нет

anonymous
(25.11.16 15:15:19 MSK)

Ссылка

Ответ на: комментарий от ECLIPSE 25.11.16 14:19:56 MSK

Я если честно не понимаю как вы можете советовать мне базу данных при такой нагрузке.

Раз тебе не нужна база, то подойдёт запись всего в один файл

~~mashina~~ ★★★★★
(25.11.16 15:31:42 MSK)

Ответ на: комментарий от mashina 25.11.16 15:31:42 MSK

Раз тебе не нужна база, то подойдёт запись всего в один файл

И этот файл /dev/null

Про MongoDB, Couchbase и др. уже упамянули.

beastie ★★★★★
(25.11.16 15:36:36 MSK)

Ответ на: комментарий от beastie 25.11.16 15:36:36 MSK

Не обязательно, так можно писать месяцами и потом что-то делать с данными за один проход по ним.

~~mashina~~ ★★★★★
(25.11.16 15:48:28 MSK)

Ссылка

Модуль называется файл. Ведь у JSON вроде нет комментариев (плохо), то перед началом нового JSON добавляй строку ----- и станет ясно где разделяются файлы. И прям в файл откладывай. Один за другим. А другой файл - некую карту, по какому смещению тот или иной JSON в файле сидит. Так ты не перегрузишь файловую систему, но всё еще сможешь быстро читать.

I-Love-Microsoft ★★★★★
(25.11.16 16:06:14 MSK)
Последнее исправление: I-Love-Microsoft 25.11.16 16:08:13 MSK (всего исправлений: 1)

Ответ на: комментарий от I-Love-Microsoft 25.11.16 16:06:14 MSK

И да, раз чтение редкое, даже во втором файле индексов будет прилично. Ну можешь там уже что-то посерьезнее придумать, например уже БД или иное, что позволит дерево хэшей быстро просматривать. Файловая система не рассчитана на это, так что пара файлов - основной + БД. Смотри как тормозит подобной в кэше браузеров, быстрее тупо картинку из сети дернуть чем из кэша порой.

I-Love-Microsoft ★★★★★
(25.11.16 16:11:05 MSK)
Последнее исправление: I-Love-Microsoft 25.11.16 16:12:29 MSK (всего исправлений: 1)

Ответ на: комментарий от I-Love-Microsoft 25.11.16 16:11:05 MSK

Ты придумал БД.

deep-purple ★★★★★
(25.11.16 16:14:17 MSK)

Ссылка

Ответ на: комментарий от I-Love-Microsoft 25.11.16 16:06:14 MSK

перед началом нового JSON добавляй строку ----- и станет ясно где разделяются файлы.

Это очень тупой и плохой совет. Писать, очевидно, нужно в бинарном виде длину записи, а не ставить маркер.

~~mashina~~ ★★★★★
(25.11.16 16:17:51 MSK)

Ответ на: комментарий от mashina 25.11.16 16:17:51 MSK

Ну я обычно такие данные в бинарном виде и кладу - длина блок + блок. Согласен, однако я предлагал индексный файл - вот там уже не важно есть ли что-то текстовое вдобавок, но для просмотра вручную удобнее.

I-Love-Microsoft ★★★★★
(25.11.16 16:21:32 MSK)

Ссылка

Ответ на: комментарий от ECLIPSE 25.11.16 14:30:52 MSK

жырновато

leave ★★★★★
(25.11.16 16:25:25 MSK)

Ссылка

Попробуй, определив статистику размеров файлов, сделать размер блоков ФС чуть больший среднему размеру файла.

anonymous
(25.11.16 16:44:50 MSK)

Ответ на: комментарий от anonymous 25.11.16 16:44:50 MSK

до 100б

I-Love-Microsoft ★★★★★
(25.11.16 16:59:10 MSK)

Ссылка

У мну идея! А что если на лету парсить эти JSON и класть в БД лишь значения. Ну какие там могут быть значения в этих крошечных JSON, однако обязательно ли их в таком же виде и хранить?

I-Love-Microsoft ★★★★★
(25.11.16 17:00:26 MSK)

Ссылка

BerkleyDB уже предлагали? Простая как топор и ты не осилишь сделать запись/чтение быстрее и надежность выше, я гарантирую это

anonymous
(25.11.16 17:06:47 MSK)

Ответ на: комментарий от anonymous 25.11.16 17:06:47 MSK

BerkleyDB -> BerkeleyDB

Самофикс

anonymous
(25.11.16 17:09:34 MSK)

Ответ на: комментарий от anonymous 25.11.16 17:09:34 MSK

BerkleyDB

б-гмерская оракловщина.

20к по 100 байт даже SQLite осилит и не обосрется.

anonymous
(25.11.16 17:21:50 MSK)

Ссылка

Простой тест на питоне:

plain files - 1M files, time 254 sec, dir size 3,9G

couchbase - 1M files, time 125 sec, dir size 140 Mb

Базу никак не тюнинговал, поставил докер контейнер с ней. Без докера думаю будет еще быстрей.

Deleted
(25.11.16 17:22:54 MSK)
Последнее исправление: moon 25.11.16 17:30:29 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от ECLIPSE 25.11.16 14:19:05 MSK

Будет постоянная запись 20000 файлов в секунду. Чтение будет происходить очень редко.

ИМХО тут можно просто завести два файла. Один будет содержать индексы, хранящие смещение и размер (можно указатель на начало и указатель на конец) отдельного джейсона. Второй файл будет хранить сами джейсоны один за одним. Каждый новый джейсон можно дописывать в конец. Все должно работать очень быстро. А с массивом индексов можно сделать разное. Например, хранить их в нескольких файлах, группируя по критериям (например по дню или месяцу того момента, когда была сделана запись).

pathfinder ★★★★
(25.11.16 17:46:09 MSK)

Ссылка

Отдельные файлы ты со скоростью 20000 в секунду не создашь - после каждого close() ФС обязана сделать некоторые операции, которые трудно соптимизировать планировщиком io. Раз данные не нужно часто читать и лень парсить json и класть в нормальную базу - пиши в один файл, например сразу в tar. Каждую полночь будешь открывать новый.

PS 20000 файлов * 100 байт = 2мб/с - семечки.

legolegs ★★★★★
(25.11.16 18:27:42 MSK)

Ссылка

MUMPS бери

«кешируюший сервер глобалов и рутин»

«глобалы хранятся страницами в B-tree, страницы подкачиваются по требованию»

anonymous
(27.11.16 22:58:35 MSK)

Пиши в один файл, а не в 20000, и лучше бинарные данные, чем текстовые. Тогда будет быстро.

Deleted
(27.11.16 23:01:36 MSK)

Ссылка

Ответ на: комментарий от anonymous 27.11.16 22:58:35 MSK

парсер JSON для MUMPS

On Wednesday, March 25, 2015 at 1:03:53 PM UTC-4, Sid wrote:
Does anybody have a MUMPS Routine that parses JSON strings into an array or global?
Thanks
The most robust parser we found is part of the VPR codebase. See https://github.com/OSEHRA-Sandbox/Health-Management-Platform/tree/master/hmp/...

  JSONVPR>n VAR, JSON, ERR
  JSONVPR 1S1>s JSON="{""afield"":""avalue"", ""array"":[{""morefields"":""morevalues""}]}"
  JSONVPR 1S1>d DECODE^VPRJSON("JSON","VAR","ERR")
  JSONVPR 1S1>zw VAR
  VAR("afield")="avalue"
  VAR("array",1,"morefields")="morevalues"

Documentation is in VPRJSON.int.

anonymous
(27.11.16 23:03:52 MSK)

Ответ на: парсер JSON для MUMPS от anonymous 27.11.16 23:03:52 MSK

в качестве реализации MUMPS можно взять GT.M

мануал по установке GT.M

саму VistA тебе ставить не нужно, только GT.M + пример повозиться с JSON

anonymous
(27.11.16 23:08:10 MSK)

Ссылка

Ответ на: комментарий от ECLIPSE 25.11.16 14:30:52 MSK

Тотже mongodb делает 30000 инсертов / апдейтов в сукунду без рейдов на стареньком SATA винте на моем рабочем калькуляторе в один поток (Pentium G860). Cоздание файла на диске - дорогостоящая операция, СУБД будет явно быстрее ...

zaz ★★★★
(27.11.16 23:08:44 MSK)