Во что конвертировать огромный, сотни ГБ, CSV-файл для максимально быстрого чтения по «ключу»?

python, анализ данных, базы данных, деревья

0

3

Есть csv, от десятков ГБ до 1 ТБ, то есть,сильно больше чем моя RAM. В строке таблицы порядка 5 полей. Размер одного поля можно считать нефиксированным, но до 50КБ. Число строк от 100 млн до 2 млрд. Будет именно чтение одним пользователем, никаких записей в файл.

В таблицах есть уникальное поле, «хеш». Во что мне конвертировать csv файл, чтобы максимально быстро получать доступ к строке по индексу?-

А) sql. типа postgre. удобно но эта БД поддерживает многопользовательскую запись, репликации- всё это мне не нужно, оверкилл

Б) sql типа sqllight. на малых объемах летает. но не уверен что она хорошо работает с большими файлами, в том числе сможет быстро создавать индексы

В) nosql база типа mongo?

Г) файлы с индексами - обработка python-ом

Я думаю что вариант Г) - оптимальный. или есть иные варианты? куда именно смотреть?

Ссылка

←	Стример мультикаста на linux

Рендеринг

→

← 1 2 3 →

Возьми PostgreSQL, реши проблему. После чего уже сравнивай и думай, что оптимальнее.

~~Result-Code~~ ★
(14.09.20 09:09:24 MSK)

Ответ на: комментарий от Result-Code 14.09.20 09:09:24 MSK

по крайней мере в 2015 писали, что в районе 1 ТБ могут быть проблемы «If you’re under 1 TB of data, Postgres will give you a good price to performance ratio» наверняка сейчас стало лучше. хотелось бы услышать от тех кто гонял такие базы

Tvorog
(14.09.20 09:14:37 MSK) автор топика

Ссылка

Если файл уместится в лимит файла для твоей ФС, то sqlite норм
https://www.sqlite.org/whentouse.html#:~:text=An SQLite database is limited,t....

CSV там искаропки поддерживается, поэтому ты в одну команду можешь сделать базу и проверить proof-of-concept уже сегодня.
Но я конечно не верю, что ты сможешь

zolden ★★★★★
(14.09.20 09:24:26 MSK)

вариант Г - полное Г, ибо костылишь свой велосипед на дороге, наезжанной базами данных по самое не балуйся.
с оверкилами можещь тыкать некрософт, там оверкилл прямолинейно облегчает карман и как следствие давит на жабу.
лежит куча лишних функций и ладно. а то так доиграешься до переписывания линукса на ассемблер с низкоуровневой оптмизацией…
бери любую базу засовывай туда набор твоих данных и используй без лишних мозговых завихрений или, ежеля чешется, проведи тест по скорости выборки твоих данных и выбери «лутшего».

pfg ★★★★★
(14.09.20 09:27:12 MSK)

Если статика - запихай в кликхаус

upcFrost ★★★★★
(14.09.20 09:27:41 MSK)

Ну, как выше сказали, PostgreSQL, и неважно про твой написанный оверкилл, ты же не будешь его юзать. Главное правильные индексы сделай под свои поля.

Теоретически можешь ещё попробовать ElasticSearch + Kibana(для красоты). Заодно побенчишь для ЛОРа лучшее из двух решений :)

Demacr ★★
(14.09.20 09:27:47 MSK)

Ссылка

Ответ на: комментарий от zolden 14.09.20 09:24:26 MSK

вроде sqlite не умеет хеши?- "hash indexes are O(1) and Btree indexes are O(log n)

Tvorog
(14.09.20 09:29:27 MSK) автор топика

Ответ на: комментарий от pfg 14.09.20 09:27:12 MSK

выбери «лутшего»

конфига для одной единственной опробованой бд.

deep-purple ★★★★★
(14.09.20 09:30:14 MSK)

Ссылка

Разместить в памяти (заранее подготлвить и грузить его с диска) вектор пар хэш:смещение в исходном файле (отсортированный по хэшам) и делать в нем поиск половинным делением. Если не лезет в память отмапировать с диска.

Исходный толстый файл и вектор разместить на ssd.

Если будет тормозить можно поиск по вектору переписать на плюсах.

AntonI ★★★★★
(14.09.20 09:45:04 MSK)
Последнее исправление: AntonI 14.09.20 09:46:29 MSK (всего исправлений: 1)

Ответ на: комментарий от Tvorog 14.09.20 09:29:27 MSK

Что подразумевается под «уметь хеши»?
Судя по описанию, это же просто готовое текстовое поле, движку ничего не надо вычислять самому для его заполнения

zolden ★★★★★
(14.09.20 09:47:06 MSK)

Ответ на: комментарий от AntonI 14.09.20 09:45:04 MSK

спасибо! звучит интересно. может уже что то сделано? «Разместить в памяти вектор пар хэш:смещение»

Tvorog
(14.09.20 09:48:27 MSK) автор топика

Ответ на: комментарий от Tvorog 14.09.20 09:48:27 MSK

Конечно сделано, так БД работают:-)

Только там не вектор пар наверное а хэш таблица обычно, но поскольку у Вас лимитом выступает именно память то накладные расходы на организацию структуры таблицы лучше исключить. Вместо вектора можно взять питоний словарь, но на 2 ярдах записей он встанет колом. А на 10млн нормально.

Это меньше 100 строк кода и хорошее упражнение, если такого раньше не делали.

AntonI ★★★★★
(14.09.20 09:52:46 MSK)
Последнее исправление: AntonI 14.09.20 09:54:56 MSK (всего исправлений: 1)

Ответ на: комментарий от zolden 14.09.20 09:47:06 MSK

см для mysql - Comparison of B-Tree and Hash Indexes а sqlite вроде только B-Tree поддерживает SQLite indexes are B-Tree based. https://pythontic.com/database/sqlite/create%20index -"Что подразумевается под «уметь хеши»?

Tvorog
(14.09.20 09:54:58 MSK) автор топика

Ответ на: комментарий от AntonI 14.09.20 09:52:46 MSK

спасибо! займусь!

Tvorog
(14.09.20 09:55:56 MSK) автор топика

Ссылка

ClickHouse, говорят, под такие данные и создавалась.

vvn_black ★★★★★
(14.09.20 09:55:57 MSK)

Ответ на: комментарий от Tvorog 14.09.20 09:54:58 MSK

Ну я потому и сказал что не верю, что вы сможете.
Вместо того, чтобы прямо сейчас потратить всего 20 минут и проверить на практике, вы увлеклись теоретизированием.

zolden ★★★★★
(14.09.20 10:12:08 MSK)

Ссылка

Ответ на: комментарий от vvn_black 14.09.20 09:55:57 MSK

поскольку у меня индекс в память не влезает - желательно бы еще и patitioning уметь делать. ClickHouse вроде делает но как то под капотом, без явного указания на что делить. например у google bigquery можно сделать партиции по дням, удобно же.

Tvorog
(14.09.20 10:24:40 MSK) автор топика

https://cr.yp.to/cdb.html

anonymous
(14.09.20 10:31:28 MSK)

Если в sqlite отключить транзакции то быстро

~~Jopich1~~ ☆
(14.09.20 10:31:47 MSK)

Ссылка

А ты рядом индекс сделай :) с помощью awk и sed :)

slackwarrior ★★★★★
(14.09.20 10:34:46 MSK)

Ссылка

rocksdb?

~~s-o~~ ★
(14.09.20 10:37:00 MSK)

Ссылка

Ответ на: комментарий от anonymous 14.09.20 10:31:28 MSK

https://cr.yp.to/cdb.html

No random limits: cdb can handle any database up to 4 gigabytes.

anonymous
(14.09.20 10:37:00 MSK)

Ссылка

Это идеальный кейс для ScyllaDB

nikolnik ★★★
(14.09.20 10:57:07 MSK)

Ответ на: комментарий от nikolnik 14.09.20 10:57:07 MSK

Это если у ТС есть ssd’шка на которой можно выделить раздел с xfs :). Но да, быстрее scylla сейчас мало что есть.

ei-grad ★★★★★
(14.09.20 11:05:54 MSK)
Последнее исправление: ei-grad 14.09.20 11:06:13 MSK (всего исправлений: 1)

Ссылка

Ещё хороший вариант - lmdb

ei-grad ★★★★★
(14.09.20 11:07:26 MSK)

Ссылка

Ответ на: комментарий от nikolnik 14.09.20 10:57:07 MSK

ScyllaDB

Какое минимальное количество узлов надо настроить и запустить, чтобы прочитать локальный файл?

anonymous
(14.09.20 11:08:13 MSK)

Разумеется, сначала надо именно sqlite и postgress попробовать. И другие решения И уж сильно потом (или ежели очень руки чешутся) можно велосипед свелосипедить.

Лучший велосипед, имхо, такой: Получить пары хеш-смещение, отсортировать по хешу, положить в файл в виде записей равной длины, искать двоичным поиском (или поиском по хешу, у Кнута всё есть). Я такое даже на баше делал.

legolegs ★★★★★
(14.09.20 11:12:41 MSK)

Ссылка

Ответ на: комментарий от anonymous 14.09.20 11:08:13 MSK

docker run scylladb/scylla

ei-grad ★★★★★
(14.09.20 11:14:49 MSK)

Ответ на: комментарий от vvn_black 14.09.20 09:55:57 MSK

clickhouse? key/value запросы? мыши кололись но кликхаус не тормозит :)

ei-grad ★★★★★
(14.09.20 11:16:17 MSK)

Ответ на: комментарий от ei-grad 14.09.20 11:16:17 MSK

ОП:

В строке таблицы порядка 5 полей. Размер одного поля можно считать нефиксированным, но до 50КБ. Число строк от 100 млн до 2 млрд. Будет именно чтение одним пользователем, никаких записей в файл.

Это ж логи по описанию. Какой-такой кей-валуй? )

vvn_black ★★★★★
(14.09.20 11:20:00 MSK)
Последнее исправление: vvn_black 14.09.20 11:21:30 MSK (всего исправлений: 1)

Г) файлы с индексами - обработка python-ом

однозначно и не слушай вышестоящих теоретиков про базы данных. разбить файл на несколько, сделать индекс файл, написать 10 строк для генерации индекса и 10 строк для получения значения.

vtVitus ★★★★★
(14.09.20 11:21:47 MSK)

Ссылка

Ответ на: комментарий от ei-grad 14.09.20 11:14:49 MSK

docker

Это еще что за зверь? Сколько узлов этого зверя надо настроить и запустить, чтобы прочитать локальный файл?

anonymous
(14.09.20 11:22:09 MSK)

Ссылка

Ответ на: комментарий от vvn_black 14.09.20 11:20:00 MSK

так вопрос то был какой?)

Во что мне конвертировать csv файл, чтобы максимально быстро получать доступ к строке по индексу?

Если советуешь ClickHouse то посчитай хотя бы какую granularity надо выставить чтоб и файл засечек в память влезал и чтоб оно 50кб*8000 с диска не поднимало на каждый запрос по индексу.

ei-grad ★★★★★
(14.09.20 12:05:26 MSK)

Ссылка

А вообще ты не сказал какая нагрузка будет - сколько запросов в секунду и какая задержка терпима.

legolegs ★★★★★
(14.09.20 12:07:30 MSK)

Ответ на: комментарий от legolegs 14.09.20 12:07:30 MSK

А вообще ты не сказал какая…

…локальность запросов будет. Какой сценарий использования - последовательный доступ вперед или назад по индексу, случайный доступ, специально подобранный наихудщий для построенного индекса доступ?

anonymous
(14.09.20 12:21:34 MSK)

Ссылка

Ответ на: комментарий от vvn_black 14.09.20 09:55:57 MSK

Плюсую кликхаус.

Princesska ★★★★
(14.09.20 12:30:52 MSK)

Ссылка

Оптимальный - это тот, при котором у тебя меньше телодвижений будет.

И это варианты А, Б, В. Какой выбрать? Какой быстрее применишь. Я бы взял постгрес, потому что могу быстро.

bvn13 ★★★★★
(14.09.20 12:31:37 MSK)

Если хочется экстравагантного - modin. В pandas’e однозначно упрёшься по раме и скорости.

phoen ★★
(14.09.20 12:33:55 MSK)
Последнее исправление: phoen 14.09.20 12:34:11 MSK (всего исправлений: 1)

Я бы тупо взял и сравнил варианты А и Б. И написал бы на ЛОРе о результатах.

Только не «sqllight», а sqlite.

И поскольку я не уверен, как такой файл будет жеваться стандартной импортилкой, возможно, целесообразно набросать свою, в два потока (чтобы она адекватно отдавала информацию о прогрессе, по которой можно сделать вывод, сколько ещё осталось ждать, 10 минут или двое суток). Но это не точно, возможно, что и стандартная постгряшная серверная COPY нормально справится.

hobbit ★★★★★
(14.09.20 12:41:04 MSK)

Ответ на: комментарий от bvn13 14.09.20 12:31:37 MSK

Оптимальный - это тот, при котором у тебя меньше телодвижений будет.

Это оптимизация первого запроса - как быстро будет выполнен первый запрос (включая настройку-запуск всех необхоимых узлов).

Оптимизация - это решение конкретной проблемы в конкретных условиях, обычно нет глобальной оптимизации по всем параметрам.

anonymous
(14.09.20 12:41:18 MSK)

Ссылка

Быстрый поиск по гитхабу выдал https://github.com/BurntSushi/xsv

Не читал, но…

Rust. Работает с сырым csv (нет бесконечно долгого импорта базы!), умеет строить индекс.

anonymous
(14.09.20 13:09:10 MSK)

Ссылка

Может так оказаться, что данные прекрасно сжимаются в десятки-сотни раз. Тогда есть шанс провернуть трюк с zram или аналогами.

anonymous
(14.09.20 13:10:59 MSK)

Ссылка

Ответ на: комментарий от hobbit 14.09.20 12:41:04 MSK

свою, в два потока (чтобы она адекватно отдавала информацию о прогрессе, по которой можно сделать вывод, сколько ещё осталось ждат

Для этого есть pv и pv -d <pid>.

legolegs ★★★★★
(14.09.20 13:12:34 MSK)
Последнее исправление: legolegs 14.09.20 13:13:15 MSK (всего исправлений: 1)

Ссылка

индекс это номер?

тогда как уже сказали создаёшь индекс смещений - и тогда для чтения i-строки читаешь с [i] смещения по [i+1] смещения не включая.

для однородности при генерации индекса добавляешь лишнее нулевое поле - смотрящее за конец последнего кортежа

тогда чтение i- сsv строки

есть fseek(pos(i)), read(pos(i+1)-pos(i))

т.е если ещё более в низ то два чтения

если размер смещения это n То

fseek(fileofindex,i*n)
indexes=read(fileofindex,n*2)
fseek(rawcsv,indexes[0])
data=read(rawcsv,index[1]-index[0])

qulinxao3 ★☆
(14.09.20 13:43:34 MSK)

Ссылка

Решал подобную задачу. Использовал Postgres.

deterok ★★★★★
(14.09.20 13:59:29 MSK)

Ссылка

Возможно эксперты по СУБД поправят, но для больших объёмов при импорте часто лучше отключить индексы и пересоздать после наполнения, чем импортировать с подключенным индексом.

Elyas ★★★★★
(14.09.20 14:05:24 MSK)

Ответ на: комментарий от Elyas 14.09.20 14:05:24 MSK

А если оно всё в транзакции или вообще COPY, то сама СУБД не догадается соптимизировать? Ведь пока транзакция не завершена индекс не нужен, это можно доказать.

anonymous
(14.09.20 14:18:20 MSK)

Ссылка

Ответ на: комментарий от phoen 14.09.20 12:33:55 MSK

Это если в лоб брать сырой pandas, у data scientists целая куча инструментов для обработки данных, которые не влазят в память.

ZERG ★★★★★
(14.09.20 17:29:17 MSK)

Ответ на: комментарий от ZERG 14.09.20 17:29:17 MSK

«Куча инструментов» - это spark и всё что работает вокруг него, но судя по вопросу у ТСа нет под рукой кластера hadoop’a.

phoen ★★
(14.09.20 18:16:42 MSK)

Ссылка

Во что конвертировать огромный, сотни ГБ, CSV-файл для максимально быстрого чтения по «ключу»?

Вы морду уже набили «создателю» таких CSV?

anonymous
(14.09.20 18:40:13 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

←	Стример мультикаста на linux

General

Рендеринг

→

Похожие темы