Во что конвертировать огромный, сотни ГБ, CSV-файл для максимально быстрого чтения по «ключу»?

python, анализ данных, базы данных, деревья

0

3

Есть csv, от десятков ГБ до 1 ТБ, то есть,сильно больше чем моя RAM. В строке таблицы порядка 5 полей. Размер одного поля можно считать нефиксированным, но до 50КБ. Число строк от 100 млн до 2 млрд. Будет именно чтение одним пользователем, никаких записей в файл.

В таблицах есть уникальное поле, «хеш». Во что мне конвертировать csv файл, чтобы максимально быстро получать доступ к строке по индексу?-

А) sql. типа postgre. удобно но эта БД поддерживает многопользовательскую запись, репликации- всё это мне не нужно, оверкилл

Б) sql типа sqllight. на малых объемах летает. но не уверен что она хорошо работает с большими файлами, в том числе сможет быстро создавать индексы

В) nosql база типа mongo?

Г) файлы с индексами - обработка python-ом

Я думаю что вариант Г) - оптимальный. или есть иные варианты? куда именно смотреть?

Ссылка

←	Стример мультикаста на linux

Рендеринг

→

← 1 2 3 →

sphinx

romanlinux ★★★
(15.09.20 18:26:34 MSK)

Ответ на: комментарий от anonymous 15.09.20 18:25:23 MSK

А толку, ТС всё равно слился.
Мя таки из любопытства прикрутил bulk insert, и время импорта снизилось до 35 минут.

~~izzholtik~~ ★★★
(15.09.20 19:47:42 MSK)

Ответ на: комментарий от izzholtik 15.09.20 19:47:42 MSK

Мя таки из любопытства прикрутил bulk insert, и время импорта снизилось до 35 минут.

После перезагрузки компьютера попробуйте сделать копию 1 ТБ файла и вы поймете «где затык».

Владимир

anonymous
(15.09.20 19:50:23 MSK)

Ответ на: комментарий от anonymous 15.09.20 19:50:23 MSK

Затык в объёме свободного места, вестимо.

~~izzholtik~~ ★★★
(15.09.20 20:03:26 MSK)

Ответ на: комментарий от izzholtik 15.09.20 15:06:12 MSK

Можно еще было взять ssdb (leveldb с интерфейсом redis). Тестить лень, правда.

anonymous
(15.09.20 20:11:18 MSK)

Ссылка

Ответ на: комментарий от izzholtik 15.09.20 20:03:26 MSK

Затык в объёме свободного места, вестимо.

Конечно пошутили.
Не зря CDX Microsoft сделала а-ля «сжатый» …

Владимир

anonymous
(15.09.20 20:13:47 MSK)

Ссылка

Ответ на: комментарий от rumgot 15.09.20 11:16:55 MSK

Неоптимальную по какому критерию?

AntonI ★★★★★
(15.09.20 20:29:34 MSK)

2all:

топик-стартеру по какому ключу индекс то нужен - по тому у которого уникальный хэш - т.е само поле хэш-уникально

ибо чёт ваще не ясно в чём затруднение то?

qulinxao3 ★☆
(16.09.20 12:55:47 MSK)

Ответ на: комментарий от qulinxao3 16.09.20 12:55:47 MSK

ибо чёт ваще не ясно в чём затруднение то?

Затруднение в выборе модного базворда.

anonymous
(16.09.20 13:39:27 MSK)

Ссылка

Ответ на: комментарий от AntonI 15.09.20 20:29:34 MSK

Да по всем. Производительность, надежность и прочие. Нет я полагаю, можно потратить время на исследования, анализ, оптимизацию и отладку. Но будешь ли ты этим заниматься? БД разрабатывают на протяжении нескольких лет, и всякие камни подводные там смотрят и т.д. Поэтому для работы я бы взял готовое решение, а если хочется потренироваться, то только тогда пилил бы сам.

rumgot ★★★★★
(16.09.20 20:24:57 MSK)

Ответ на: комментарий от rumgot 16.09.20 20:24:57 MSK

Как правило узкоспециализированное решение работает в области своей специализации лучше чем общее. В этом смысле БД это общее решение.

Задача ТС достаточно примитивна что бы хорошо сделать ее на коленке за относительно небольшое время.

AntonI ★★★★★
(16.09.20 22:28:22 MSK)

Ответ на: комментарий от AntonI 16.09.20 22:28:22 MSK

Опять же, ты будешь тратить время на грамотную отладку, оптимизацию, тестирование?

rumgot ★★★★★
(17.09.20 08:38:51 MSK)

Ответ на: комментарий от rumgot 17.09.20 08:38:51 MSK

Нормально делай - нормально будет(с)

Если у ТС какие то специфические требования, то это может оказаться быстрее чем настройка существующей БД.

AntonI ★★★★★
(17.09.20 09:57:26 MSK)

Ссылка

Ответ на: комментарий от romanlinux 15.09.20 18:26:34 MSK

Эта ерунда с мелкими то таблицами не работает, куда ей терабайты.

stave ★★★★★
(17.09.20 10:09:54 MSK)

Ссылка

Скан в любой базе будет напряженным для таких данных. Поэтому обычно и первичный ключ задают не хешем, а составным осмысленным - чтобы можно было держать данные отсортированными и помогать скану - смотри устройство hbase, clickhouse.

stave ★★★★★
(17.09.20 10:17:31 MSK)

Ответ на: комментарий от stave 17.09.20 10:17:31 MSK

А по хешам, стало быть, искать нельзя?

legolegs ★★★★★
(17.09.20 13:46:28 MSK)

Ответ на: комментарий от legolegs 17.09.20 13:46:28 MSK

Да, туплю. Сортировка хешей.

stave ★★★★★
(17.09.20 15:49:55 MSK)

Ссылка

К выше перечисленному можно добавить dask. Он умеет разбивать большие датафреймы на сегменты и делать ленивые вычисления. Поддерживает разные форматы, в т.ч. и csv. Просто попробуй разные решения и выбери наиболее быстрое и простое.

~~yvv~~ ★★☆
(17.09.20 16:21:24 MSK)
Последнее исправление: yvv 17.09.20 16:27:38 MSK (всего исправлений: 1)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

←	Стример мультикаста на linux

General

Рендеринг

→

Похожие темы