Эффективно хранить список строк на диске. Длина списка - 100 млрд. Длина строки - рандом. Дешево удалять/вставлять в середину.

0

3

Надо сохранить массив (список) строк. В массиве может лежать крайне дохрена таких элементов (строк), т.е. например 100 млрд строк. Длина одной строки - рандом, но уже разумный - например 1…2000 символов. Т.е. наш массив имеет такой вид: [‘ab’, ‘zuzuzu’, ‘S’, …, ‘hehebububu’] (и это всё длиной 100 млрд).

Хочется:

Быстрый доступ по индексу, т.е. по смещению: «дай 5-млрдный элемент». Доступ как к 1 элементу, так и к подмассиву («дай 100 элементов со смещения 52 млрд»).
Быстрая, но можно уже чуть медленнее, вставка в любое место. В середину, например. Не перезапись, а именно вставка - т.е. если вставил в середину, то значит подвинул всё после места вставки на 1 и вставил в новое место, а длина списка выросла на 1.
Быстрое удаление из любого места. Почти то же, что (2).

Требования (2) и (3) как-бы подразумевают, что если я воткнул строку по индексу «5 млрд», то все элементы, лежавшие после него должны теперь переехать в следующие по нумерации квартиры на единицу. ВСЕ ПЕРЕЕХАТЬ! Т.е. элемент, лежавший ранее по индексу 10 млрд теперь будет лежать по индексу (10 млрд + 1). За идею «давайте сделаем 95 млрд изменений в памяти или на диске» - сразу расстрел.

В память оно не влезет. Памяти у нас 2 гига, хаха. Т.е. надо как-то хранить всю эту байду на диске. На длинах массива порядка миллиардов цена доступа к любому элементу такого массива должна быть не выше чем 3-4 движения головы диска, т.е. это число обращений к нему. Т.е. всё должно лежать на диске не хуже, чем бы оно лежало в B+-Tree, если бы мы все элементы списка положили в виде key=value пар виде (elem1=string, elem2=string). С вариантом «куча key=value» не взлетит потому, что вас расстреляют при попытке переименовать все 95 млрд ключей, поменяв у них циферку в конце при вставке на позицию «5 млрд». Положить кучу key=value так, чтобы value было блоком строк - уже лучше, но всё равно на порядках сотен миллиардов придётся переименовывать овердофига ключей, трогая явно не 3-4 блока.

Варианты?

P.S.:

Пример применения: хранить очень длинный чатик или лог открытия ворот. Просматривалка с доступом через пагинацию. Нас не интересует время события, нас интересуют все 50 событий на странице номер 500 тыс.

Удаление или вставка в середину иногда нужна, но редко. Например дропнуть пачку флуда или добавить некий служебный евент.

Хранить на диске желательно так, чтобы все события открывания ворот лежали вплотную, чтобы машин лернинг при обработке всего миллиарда событий физически прочитал как можно меньше блоков данных, не перешагивая через другие события.

Ссылка

← Как заполнить буфер используя поля струтуры

Crystal для REST серисов →

← 1 2 3 →

ну субд решают эту шляпу партицированием или как оно там называется. т.е. [0-1млрд] тут [1млрд-2млрд] там. зажача уместить в памяти два таких куска, а дальше задача сводится к стандартной

Anoxemian ★★★★★
(18.02.20 03:07:37 MSK)

Ответ на: комментарий от Anoxemian 18.02.20 03:07:37 MSK

забавно, вспоинил анекдот: как распить 800мл водки на троих? элементарно: сначала надо бахнуть по 100 грам после чего задача сводится к стандартной))

Anoxemian ★★★★★
(18.02.20 03:10:00 MSK)

Ссылка

то значит подвинул всё после места вставки на 1 и вставил в новое место, а длина списка выросла на 1.

Ты с ума сошёл, так быстро работать не будет.

Тебе уже ответили правильно, используй субд.

anonymous
(18.02.20 03:11:07 MSK)

Ссылка

ИМХО, тебе не это нужно.

anonymous
(18.02.20 03:24:25 MSK)

Ссылка

На правах вакханалии

Субд. Или если хочется эдакого то прям файловую систему юзать как базу и манипулятивное средство. ext4 вроде умеет 4 миллиарда файлов все твои данные это 100 гигов в максимуме тогда взять штук 30 винтов по 100 гигов (с запасом ибо, ибо бо) в них поочерёдно вписывать строки в файлы под индексами 1,2,3,4,5,6… в соотвецтвии с положением в изначальном массиве. в софте обращатся просто к файлам, а жёсткие диски будут смотрированны в 1 корневой каталог и воспинимаются как просто чанки тут от 1 до 3000000000 следующий от 3000000000 до 6000000000. Всю работу свести просто к работе с «большой» ФС. Всё. Ядро будет кешировать часто используемое на автомате. Будет быстрее любой бд (которую также один хрен придётся разбивать на диски и партицировать) ибо никакого тебе индексирования,поиска и прочего, вот те инода вот те файл. Можно ещё 30 витов рядом вствить в рейде для зеркала.

Перемещать файлы можно без перемещения просто переименовывая, перемещать миллиардами можно просто задав именнованый каталог имя которого будет меткой смещения того что он содержит. (Хотя может получится каша внутри в том полане что руками будет сложно ковырять, но по ночам когда все спят можно таки делать реальный перенос данных между винтами выстраивая всё уже в физическом смысле по нужному порядку, хотяяя, нахрена?)

Ну или ещё как извратиться =) ФС это хорошая БД сама по себе. =)

А лучше купить 256 гогов оперативки, загнать все данные в двумерный массив или двусвязный список и вертеть этими миллиардами на своём шаловливом со скоростью калибри

LINUX-ORG-RU ★★★★★
(18.02.20 04:05:41 MSK)
Последнее исправление: LINUX-ORG-RU 18.02.20 04:10:46 MSK (всего исправлений: 1)

Короче суть в том что у тебя 2 гига памяти для тог что бы обработать например просто прочитать все данные в потоке по символу это 50 раз полностью перезаписать всю оперативку. Даже тупо операция чтения всех данных будет оочень долгой. Так что разделяй и властвуй. А что за данные сейсмический датчик стоит и постоянно выплёвывает CSV простыню?

LINUX-ORG-RU ★★★★★
(18.02.20 04:15:32 MSK)

Ссылка

Очевидно же что не нужно хранить нигде ключи, в узлах дерева нужно хранить размер поддерева в этом узле.

slovazap ★★★★★
(18.02.20 04:30:22 MSK)
Последнее исправление: slovazap 18.02.20 04:33:06 MSK (всего исправлений: 1)

Ответ на: комментарий от slovazap 18.02.20 04:30:22 MSK

Есть мнение, что сабж сам не понимает, чего хочет, и потому генерирует такие разнородные и противоречивые требования.

anonymous
(18.02.20 04:42:41 MSK)

Ответ на: комментарий от anonymous 18.02.20 04:42:41 MSK

Ну требования вроде понятные - дисковое хранилище с доступом по индексу и вставкой/удалением в случайное место. Но честно говоря не могу придумать под это юзкейс - если из-за модификаций индексы меняются, то в них нет никакого смысла: добавили-удалили элементов в начало, значит стомиллиардный элемент уже не стомиллиардный - где он мы уже не знаем, а стомиллиардным будет другой элемент. Значит на самом деле тут не нужен доступ по индексу, а нужен либо доступ «куда-то примерно в начало/конец/середину/6.66%» что можно сделать проще, либо никакие индексы не нужно сдвигать и нужен обычный map. Ну либо это задача с собеса или лабы - тогда в job.

slovazap ★★★★★
(18.02.20 04:59:31 MSK)
Последнее исправление: slovazap 18.02.20 05:10:53 MSK (всего исправлений: 1)

После слов расстрел за идею я решил не писать варианты решения вашей задачи :-)

ism ★★★
(18.02.20 07:21:51 MSK)
Последнее исправление: ism 18.02.20 07:22:19 MSK (всего исправлений: 1)

Ответ на: комментарий от ism 18.02.20 07:21:51 MSK

В редисе есть List, вот пусть его и юзает. Быстрейшая субд, как раз строки хранит. ТС хочет дёшево решить свою больную задачу, словно на тракторе в Антарктиду уехать

menangen ★★★★★
(18.02.20 08:13:23 MSK)

Ссылка

10010^92000 = 2*10^14 = ~182 ТБ

Диском на 100 ГБ тут не отделаться

anonymous
(18.02.20 08:22:15 MSK)

Ответ на: комментарий от anonymous 18.02.20 08:22:15 MSK

*Между 100 и 10, а также 9 и 2000 знак умножения

anonymous
(18.02.20 08:23:19 MSK)

Ссылка

3-4 движения головы диска

Покупаешь терабайтный SSD для «индекса»– и у тебя 1 движение на собственно достать данные.

В память оно не влезет

man mmap и это теперь задача ядра.

Требования

Звучит, как реклама верёвок, но это просто последнее, о чём я читал, скорее всего там (wikipedia.org) их таких много.

DonkeyHot ★★★★★
(18.02.20 09:24:14 MSK)

Ссылка

Памяти у нас 2 гига, хаха.

Ну вы и бомжи, хаха.

anonymous
(18.02.20 09:44:45 MSK)

Ссылка

почитать про связанный список (варианты: двухсвязный, односвязный, двунаправленный)

это классика

anonymous
(18.02.20 10:04:59 MSK)

днс-велосипед или acl ?

anonymous
(18.02.20 10:07:01 MSK)

Ссылка

Ответ на: комментарий от anonymous 18.02.20 10:04:59 MSK

почитать про связанный список (варианты: двухсвязный, односвязный, двунаправленный) это классика

Какой вы умный, это что-то. А теперь пожалуйста произвольный доступ по индексу, как хочет ТС после вставки в список.

vodz ★★★★★
(18.02.20 10:45:39 MSK)

Ответ на: комментарий от vodz 18.02.20 10:45:39 MSK

Я хер его знает, зачем анону список, но LinkedHashMap формально под оба этих условия подходит.

anonymous
(18.02.20 11:16:21 MSK)

Ответ на: комментарий от anonymous 18.02.20 11:16:21 MSK

но LinkedHashMap формально под оба этих условия подходит.

Такое ощущение, что вы хотите блеснуть знаниями «умных слов». Ещё раз, у ТСа всё разложено по 3 пунктам. Как LinkedHashMap тут поможет? У него же не было пункта поиска по содержимому.

vodz ★★★★★
(18.02.20 11:26:38 MSK)

Ссылка

Ответ на: комментарий от vodz 18.02.20 10:45:39 MSK

Ценно замечание.

Но все-же, где видите что нельзя индексы? и потом, мало-ли чего захотелось …

примеры произвольного доступа без индекса?

anonymous
(18.02.20 11:28:58 MSK)

Ответ на: комментарий от anonymous 18.02.20 11:28:58 MSK

примеры произвольного доступа без индекса?

А кто говорит, что индексы не нужны?

vodz ★★★★★
(18.02.20 11:34:43 MSK)

Ответ на: комментарий от vodz 18.02.20 11:34:43 MSK

прошу прощения, вы разве не эксперт?

anonymous
(18.02.20 11:38:56 MSK)

Ответ на: комментарий от anonymous 18.02.20 11:16:21 MSK

LinkedHashMap

что-то в этом есть, и чем не список?

anonymous
(18.02.20 11:43:07 MSK)

Ответ на: комментарий от anonymous 18.02.20 11:43:07 MSK

Да ничего ни в чём нет. В пятый раз говорю, что ТС хочет сделать нечто невразумительное, только в космических масштабах. Есть подозрение, что ему вообще очередь нужна.

anonymous
(18.02.20 11:44:50 MSK)

Ответ на: комментарий от anonymous 18.02.20 11:38:56 MSK

прошу прощения, вы разве не эксперт?

По бреду? Нет. Не эксперт.

vodz ★★★★★
(18.02.20 11:45:41 MSK)

Т.е. элемент, лежавший ранее по индексу 10 млрд теперь будет лежать по индексу (10 млрд + 1).

Тогда, никакого смысла в этом «индексе» нет. Это даже и не индекс вообще, это хрень какая-то. Индекс ценен тем, что одному и тому же индексу всегда соответствует один и тот же элемент, вне зависимости от того, сколько данных добавилось.

Stanson ★★★★★
(18.02.20 11:51:31 MSK)

Ответ на: комментарий от vodz 18.02.20 11:45:41 MSK

Вы увидели бред? Это проекция?

anonymous
(18.02.20 11:54:30 MSK)

Ответ на: комментарий от Stanson 18.02.20 11:51:31 MSK

Это даже и не индекс вообще, это хрень какая-то. Индекс ценен тем, что одному и тому же индексу всегда соответствует один и тот же элемент, вне зависимости от того, сколько данных добавилось.

Да лана. Берем выборку по индексам, добавляем туда что-то новое, не обязательно в конец, и получаем новую таблицу и уже её индексируем. А теперь предположим, что выборка вдруг состоит из всей имеющейся таблицы, но вот так вышло...

vodz ★★★★★
(18.02.20 11:57:08 MSK)
Последнее исправление: vodz 18.02.20 11:58:35 MSK (всего исправлений: 2)

Ответ на: комментарий от anonymous 18.02.20 11:54:30 MSK

Вы увидели бред? Это проекция?

Вы решили замусорить топик бредовыми сообщениями с личными наездами не по делу в надежде, что заодно снесут и те сообщения, где вы обосрались?

vodz ★★★★★
(18.02.20 12:02:49 MSK)

Ссылка

Ответ на: комментарий от vodz 18.02.20 11:57:08 MSK

но вот так вышло...

шизофазия какая-то

anonymous
(18.02.20 12:13:03 MSK)

Ссылка

Ответ на: комментарий от slovazap 18.02.20 04:59:31 MSK

честно говоря не могу придумать под это юзкейс

«Очередь» спризвольным доступом с вставкой в произвольное место.

Ранговая система с произвольной вставкой и просмотром с произвольного места. «Дайте мне список лузеров, начиная с 100500 места»

anonymous
(18.02.20 12:18:32 MSK)

Ссылка

Ответ на: комментарий от Stanson 18.02.20 11:51:31 MSK

Индекс ценен тем, что одному и тому же индексу всегда соответствует один и тот же элемент

Не всегда. Иногда индекс нужен не ради содержимого элемента, а ради номера элемента.

anonymous
(18.02.20 12:19:22 MSK)

У Berkeley DB есть такая фича: https://docs.oracle.com/cd/E17276_01/html/api_reference/C/dbget.html#dbget_DB_SET_RECNO

К записи в btree можно получить доступ по «логическому номеру». Но у них ограничение в 2**32 номеров, т.е. 100 млрд (если тебе действительно столько нужно) он не сможет.

Если хочешь писать сам, то скорее всего нужно будет хранить в промежуточных узлах какие-то дополнительные метаданные. Ну и из общих соображений доступ «по номеру» будет медленнее чем по ключу, нужно будет читать с диска больше узлов.

Deleted
(18.02.20 12:25:20 MSK)

Ссылка

Сортируй и сохраняй в мелких файлах. Название - индекс. В каждом файле не более N строк. То есть типа такого

db
├── a
│   ├── 0
│   ├── 1
│   └── 2
└── b
    ├── 0
    ├── 1
    └── 2

dnb ★★★★
(18.02.20 12:28:53 MSK)

Ссылка

Зачем вы все сдаете за него собеседование? Это стандартная задача на собеседованиях на Джуна.

~~DELIRIUM~~ ☆☆☆☆☆
(18.02.20 12:37:42 MSK)

задача элементарная, задавали на собеседовании лет 5 назад. Никаких субд не нужно. нужно знать структуры данных и чуть чуть думать башкой. решай сам.

anonymous
(18.02.20 12:43:04 MSK)

Ответ на: комментарий от DELIRIUM 18.02.20 12:37:42 MSK

Зачем вы все сдаете за него собеседование? Это стандартная задача на собеседованиях на Джуна.

Чтобы собеседование превратить в абсурд при равных условиях.

Раз собеседующий может пользоваться придуманными толпой задачами, то и собеседуемый может пользоваться придуманными толпой ответами.

anonymous
(18.02.20 12:49:38 MSK)

Ссылка

Ответ на: комментарий от vodz 18.02.20 11:57:08 MSK

и получаем новую таблицу и уже её индексируем

и в итоге занимаемся нон-стоп переиндексацией

leave ★★★★★
(18.02.20 13:16:58 MSK)

Ответ на: комментарий от leave 18.02.20 13:16:58 MSK

и в итоге занимаемся нон-стоп переиндексацией

В каком таком итоге? Выбирайте выражения. Если задача вот такая с бесконечными вставками — то да. А вы что предлагаете?

vodz ★★★★★
(18.02.20 13:25:54 MSK)

Ссылка

Ответ на: комментарий от DELIRIUM 18.02.20 12:37:42 MSK

А какой ответ правильный? Я просто никогда не собеседовался.

dnb ★★★★
(18.02.20 13:26:41 MSK)

Ответ на: комментарий от dnb 18.02.20 13:26:41 MSK

Ты значит не пройдешь, это задача не на конкретный ответ, как «чему равно два+два?» Твой ответ: спросить на ЛОРе. Ты не прошёл.

~~DELIRIUM~~ ☆☆☆☆☆
(18.02.20 14:18:02 MSK)

Ответ на: комментарий от anonymous 18.02.20 11:44:50 MSK

сделать нечто невразумительное

Тебя уже опровергли. Вразумительное.

~~igloev~~
(18.02.20 14:22:03 MSK) автор топика

Ссылка

Ответ на: На правах вакханалии от LINUX-ORG-RU 18.02.20 04:05:41 MSK

все твои данные это 100 гигов в максимуме

Нет, 200ТБ

futurama ★★★★★
(18.02.20 14:23:02 MSK)
Последнее исправление: futurama 18.02.20 14:23:13 MSK (всего исправлений: 1)

Ссылка

а цена вопроса какая? и почему не в job

anonymous
(18.02.20 14:27:12 MSK)

Ссылка

Ответ на: комментарий от anonymous 18.02.20 12:43:04 MSK

Это ни разу не задача на джуна. Это задача скорее на middle-senior database architect.

slovazap ★★★★★
(18.02.20 14:36:02 MSK)

B-дерево. Все операции за логарифм. На диске хранить не проблема, алгоритмы давно известны.

~~Legioner~~ ★★★★★
(18.02.20 14:37:35 MSK)
Последнее исправление: Legioner 18.02.20 14:37:54 MSK (всего исправлений: 1)

Ответ на: комментарий от DELIRIUM 18.02.20 14:18:02 MSK

твой ответ: спросить на ЛОРе. Ты не прошёл.

Как по мне, так отличный ответ.

anonymous
(18.02.20 14:39:31 MSK)

Ссылка

Ответ на: комментарий от anonymous 18.02.20 12:19:22 MSK

Иногда индекс нужен не ради содержимого элемента, а ради номера элемента.

Номер и индекс - разные вещи.

Stanson ★★★★★
(18.02.20 14:40:53 MSK)

Ссылка

Ответ на: комментарий от slovazap 18.02.20 14:36:02 MSK

Это ни разу не задача на джуна. Это задача скорее на middle-senior database architect.

Какой бы сложности ни была задача, на лоре всегда найдется эксперт который будет говорить что эта задача для джуна, а то и вообще для школьника. Еще мудаком обзовут.

anonymous
(18.02.20 14:41:58 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

← Как заполнить буфер используя поля струтуры

Development

Crystal для REST серисов →

На правах вакханалии

Похожие темы