Во что конвертировать огромный, сотни ГБ, CSV-файл для максимально быстрого чтения по «ключу»?

python, анализ данных, базы данных, деревья

0

3

Есть csv, от десятков ГБ до 1 ТБ, то есть,сильно больше чем моя RAM. В строке таблицы порядка 5 полей. Размер одного поля можно считать нефиксированным, но до 50КБ. Число строк от 100 млн до 2 млрд. Будет именно чтение одним пользователем, никаких записей в файл.

В таблицах есть уникальное поле, «хеш». Во что мне конвертировать csv файл, чтобы максимально быстро получать доступ к строке по индексу?-

А) sql. типа postgre. удобно но эта БД поддерживает многопользовательскую запись, репликации- всё это мне не нужно, оверкилл

Б) sql типа sqllight. на малых объемах летает. но не уверен что она хорошо работает с большими файлами, в том числе сможет быстро создавать индексы

В) nosql база типа mongo?

Г) файлы с индексами - обработка python-ом

Я думаю что вариант Г) - оптимальный. или есть иные варианты? куда именно смотреть?

Ссылка

←	Стример мультикаста на linux

Рендеринг

→

← 1 2 3 →

Ответ на: комментарий от anonymous 14.09.20 18:40:13 MSK

Вы морду уже набили «создателю» таких CSV?

А что не так? Как правильно?

legolegs ★★★★★
(14.09.20 18:54:35 MSK)

Ответ на: комментарий от AntonI 14.09.20 09:45:04 MSK

+100500 тоже самое хотел предложить.

anonymous
(14.09.20 18:55:10 MSK)

Ссылка

а у тебя данные вообще без структуры? всмысле нельзя разбить csv’шку на куски, по какому-нить ключу?

у меня похожее использование - данных суммарно >10Тб, но они приходят медленно, и время - основной критерий, за сутки обычно от 100 до 1000Мб всего, в итоге данные просто лежат в xml или json, по нужде обработать ключи грузится только блок нужного дня и оттуда выдергиваются нужные строки, благо моя нужда обычно именно найти нужную строку и 5-50 соседних в обе стороны.

postgresql всем хорош, но «на круг» у меня он получается в 10-1000 раз медленее чем файлы (с учётом записи, в файл дозапись почти бесплатно, у меня запись 99% операций) + заморочки с передачей блоков туда-сюда.

rukez ★★★★
(14.09.20 18:56:27 MSK)

Ссылка

Ответ на: комментарий от legolegs 14.09.20 18:54:35 MSK

А что не так? Как правильно?

Хотя бы DBF что-ли …

anonymous
(14.09.20 18:57:07 MSK)

Есть csv, от десятков ГБ до 1 ТБ, то есть,сильно больше чем моя RAM.

Почему бы вместо CSV не использовать DBF файлы.
DBF не может быть больше 2 ГБ.
Вместо CSV 1 ТБ у вас будет 500 DBF файлов, которые по существу являются массивами.

anonymous
(14.09.20 19:51:40 MSK)

Ответ на: комментарий от anonymous 14.09.20 19:51:40 MSK

Вместо CSV 1 ТБ у вас будет 500 DBF файлов, которые по существу являются массивами.

Ладно, 500 DBF предположим не хотите.
Но ведь можно же в txt файл добавлять строки одинаковый длины.
Вот вам и массив размером 100 ТБ.

CSV …
Скорее всего конечно вы здесь ни причем и вам такой файл получаете от какой-либо программы.
Для sqlite имеется расширение, которое позволяет в нее добавлять данные из CSV файлов.
Если на диске место есть, то разработайте демон, который периодически запускаться и конвертировать новые порции данных CSV в txt или dbf.

anonymous
(14.09.20 20:05:38 MSK)

Ответ на: комментарий от anonymous 14.09.20 20:05:38 MSK

Но ведь можно же в txt файл добавлять строки одинаковый длины.

Кто будет ожидать, что текстовый файл на самом деле является как бы бинарным с записями фиксированного размера и возможностью произвольного доступа? Нарушается принцип наименьшего удивления.

CSV достаточно удобный формат для импорта/экспорта и не имеет ограничений по размеру. Я ни разу не удивлён, что у ТС так стоит задача.

legolegs ★★★★★
(14.09.20 20:12:28 MSK)

Ответ на: комментарий от legolegs 14.09.20 20:12:28 MSK

CSV достаточно удобный формат для импорта/экспорта и не имеет ограничений по размеру. Я ни разу не удивлён, что у ТС так стоит задача

Если бы был DBF или txt, содержащий строки одинаковой длины, то можно было бы без труда работать с файлом и 100 ТБ …

anonymous
(14.09.20 20:15:20 MSK)

Ответ на: комментарий от anonymous 14.09.20 20:15:20 MSK

Если бы он таким был, то «лишние» данные используемые для выравнивания большую часть этих 100ТБ и заняли бы.

legolegs ★★★★★
(14.09.20 20:18:31 MSK)

Ответ на: комментарий от legolegs 14.09.20 20:18:31 MSK

Если бы он таким был, то «лишние» данные используемые для выравнивания большую часть этих 100ТБ и заняли бы.

Зато доступ к любому полю любой строки был бы как в массиве.
Конечно речь идет о снятии данных и сохранении их.
Если бы ТС рассказал о технических требованиях, …, то можно было бы и «внятно» помочь, а так лишь одни догадки.

anonymous
(14.09.20 20:25:26 MSK)

Ссылка

Ответ на: комментарий от legolegs 14.09.20 20:18:31 MSK

Если бы он таким был, то «лишние» данные используемые для выравнивания большую часть этих 100ТБ и заняли бы.

Вместо записи в CSV можно «на лету» компрессировать данные и будет файл не 1 ТБ, а 1 ГБ.

anonymous
(14.09.20 20:44:37 MSK)

Ответ на: комментарий от Tvorog 14.09.20 10:24:40 MSK

patitioning
ClickHouse вроде делает но как то под капотом, без явного указания

Там можно явно указать.

dsxl ★
(14.09.20 21:01:17 MSK)
Последнее исправление: dsxl 14.09.20 21:01:57 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от upcFrost 14.09.20 09:27:41 MSK

Лорчую, но там желательно ещё дату иметь.

~~WitcherGeralt~~ ★★
(14.09.20 21:07:16 MSK)

Ссылка

Ответ на: комментарий от anonymous 14.09.20 18:40:13 MSK

Так то экспорт, нёбось.

~~WitcherGeralt~~ ★★
(14.09.20 21:08:53 MSK)

Ссылка

Ответ на: комментарий от legolegs 14.09.20 18:54:35 MSK

XML, лол.

~~WitcherGeralt~~ ★★
(14.09.20 21:09:39 MSK)

Ответ на: комментарий от anonymous 14.09.20 20:44:37 MSK

Вместо записи в CSV можно «на лету» компрессировать данные и будет файл не 1 ТБ, а 1 ГБ.

Но тогда не будет случайного доступа.

legolegs ★★★★★
(14.09.20 21:14:56 MSK)

Ответ на: комментарий от WitcherGeralt 14.09.20 21:09:39 MSK

Щас бы провалидировать терабайт XML

legolegs ★★★★★
(14.09.20 21:15:45 MSK)

Ответ на: комментарий от legolegs 14.09.20 21:14:56 MSK

Но тогда не будет случайного доступа.

Так и в CSV нет.
Как «не крути» CSV нужно преобразовать в vector + index /если скорость доступа важна/.

anonymous
(14.09.20 21:19:43 MSK)

Ссылка

Ответ на: комментарий от legolegs 14.09.20 21:15:45 MSK

Щас бы провалидировать терабайт XML…

полтерабайтной xml-схемой.

anonymous
(14.09.20 21:20:16 MSK)

Ссылка

Ответ на: комментарий от legolegs 14.09.20 21:15:45 MSK

Щас бы провалидировать терабайт XML

Здесь уже не по морде, а табуреткой по голове.

anonymous
(14.09.20 21:20:56 MSK)

Ссылка

Ответ на: комментарий от legolegs 14.09.20 21:15:45 MSK

Пристальным взглядом.

~~WitcherGeralt~~ ★★
(14.09.20 21:21:12 MSK)

Ответ на: комментарий от legolegs 14.09.20 21:15:45 MSK

что в этом сложного?

~~izzholtik~~ ★★★
(14.09.20 21:22:54 MSK)

Ответ на: комментарий от WitcherGeralt 14.09.20 21:21:12 MSK

Пристальным

Прогретым

anonymous
(14.09.20 21:26:38 MSK)

Ссылка

Ответ на: комментарий от WitcherGeralt 14.09.20 21:21:12 MSK

Мы тут для Творога стараемся, а он молчит …

anonymous
(14.09.20 21:36:44 MSK)

Ответ на: комментарий от anonymous 14.09.20 21:36:44 MSK

Занят, валидирует. Через пару лет ответит.

~~WitcherGeralt~~ ★★
(14.09.20 22:01:58 MSK)

Постгри без вариантов, если оракловскую БД не рассматривать.

Поясню. На больших объёмах данных она хорошо работает в отличии от СУБД, которые оптимизировались для средних и маленьких БД, а тут большие объёмы. Вариант с велосипедом, ТС, тебе не СУБД надо писать недоделанную, а свою задачу решать. Тем более это не так просто и времени отожрёт вагон, да и знания нужны, как и что писать, имея их ты бы не спрашивал и скорее всего работал бы в другой стране, пилил бы СУБД или что-то вроде того.

peregrine ★★★★★
(15.09.20 00:42:43 MSK)
Последнее исправление: peregrine 15.09.20 00:54:46 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от phoen 14.09.20 12:33:55 MSK

хех, я такой файл кусочками по 10 гигов грузил и по кусочку обрабатывал.

peregrine ★★★★★
(15.09.20 00:45:21 MSK)

Ответ на: комментарий от anonymous 14.09.20 18:57:07 MSK

Уж лучше пачки csv чем пачки dbf, первый хотя бы любым говном открывается и поддержка его в 2 пинка на любом ЯП пишется. csv это если что такой txt

peregrine ★★★★★
(15.09.20 00:47:36 MSK)
Последнее исправление: peregrine 15.09.20 00:47:57 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от izzholtik 14.09.20 21:22:54 MSK

Ну недельку пекарня будет думать минимум (если не пару лет), не факт что не крашнётся в зависимости от валидатора и валидности xml. И если это, оно там DOM где-то строить начнёт, то надо ещё пару терабайтов оперативки не забыть воткнуть.

peregrine ★★★★★
(15.09.20 00:49:43 MSK)
Последнее исправление: peregrine 15.09.20 00:51:05 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от WitcherGeralt 14.09.20 22:01:58 MSK

Вы недооцениваете вылизанность утилит, работающих с XML. 100G файл, лежащий на HDD:

$ time xmllint --stream --schema test.xsd test.xml
real 39m19,197s

~~izzholtik~~ ★★★
(15.09.20 01:05:11 MSK)

Ответ на: комментарий от izzholtik 15.09.20 01:05:11 MSK

А вдруг на тб оно экспоненциально скаканёт?

kogoth
(15.09.20 03:10:22 MSK)

Ответ на: комментарий от kogoth 15.09.20 03:10:22 MSK

Не вижу предпосылок, замерял на 1, 10 и 100, зависимость очень линейная, 23-25 секунд на гигабайт.
Вообще, необходимость валидации вызывает у меня некоторого рода сомнения.

~~izzholtik~~ ★★★
(15.09.20 10:54:26 MSK)
Последнее исправление: izzholtik 15.09.20 10:55:48 MSK (всего исправлений: 1)

Ответ на: комментарий от izzholtik 15.09.20 10:54:26 MSK

Вообще, необходимость валидации вызывает у меня некоторого рода сомнения.

Если валидация не нужна, значит и xml не нужен.

legolegs ★★★★★
(15.09.20 11:12:24 MSK)

Ответ на: комментарий от peregrine 15.09.20 00:45:21 MSK

И у меня такое бывало, но если серьезно - ТСу по хорошему бы сложить данные на HDFS, построить external tables вокруг них в hive и забыть о существовании проблемы.

p.s. Совсем по хорошему надо ещё csv перегнать бы в parquet.

phoen ★★
(15.09.20 11:16:45 MSK)

Ссылка

Ответ на: комментарий от AntonI 14.09.20 09:45:04 MSK

Да блин! Зачем ведосипедить неоптимальную реализацию, когда в базах это уже давно сделано.

rumgot ★★★★★
(15.09.20 11:16:55 MSK)

Вот про MongoDB для таких объемов мне бы тоже было бы интересно послушать.

rumgot ★★★★★
(15.09.20 11:19:47 MSK)

Ссылка

Ответ на: комментарий от rumgot 15.09.20 11:16:55 MSK

Просто из любопытства: сколько по времени будет строиться индекс в любой из реляционок на табличке в 2+тб?

ТСу разве что clickhouse помочь может.

phoen ★★
(15.09.20 11:21:30 MSK)
Последнее исправление: phoen 15.09.20 11:21:38 MSK (всего исправлений: 1)

Ответ на: комментарий от legolegs 15.09.20 11:12:24 MSK

В этой задаче он может пригодиться разве что в качестве промежуточного формата, индексов-то никаких нет. Просто как ~~одинэсника~~ джависта меня немного удручает пренебрежительное отношение к XML.

~~izzholtik~~ ★★★
(15.09.20 11:57:58 MSK)

Ответ на: комментарий от izzholtik 15.09.20 11:57:58 MSK

Ну ёлки-моталки, зачем тут xml? Данные плоские, неирархичные. Вполне возможно, что они создавались методом дописывания в конец (xmlю недоступному by design). Программа, которая их произвела явго не xml-ориентированная. Задача, которую тс решает - поиск записи по ключу - тоже xml не решается.

legolegs ★★★★★
(15.09.20 12:37:23 MSK)

Ссылка

Ответ на: комментарий от phoen 15.09.20 11:21:30 MSK

Ну ведь построится же.

rumgot ★★★★★
(15.09.20 12:44:24 MSK)

Ссылка

Ответ на: комментарий от phoen 15.09.20 11:21:30 MSK

Не знаю, но видел вживую базу на PostgreSQL в 300тб. Yahoo в 2008 году ещё поднимала базу на модифицированном PostgreSQL в 2ПБ. Так что в адекватные сроки скорее всего.

peregrine ★★★★★
(15.09.20 13:01:50 MSK)
Последнее исправление: peregrine 15.09.20 13:02:33 MSK (всего исправлений: 1)

Ответ на: комментарий от peregrine 15.09.20 13:01:50 MSK

Я тоже видел БД такого размера, любой чих в их строну приводил к суткам потерянного времени, переключению на slave (в зависимости от организации блокировок) и всё такое прочее. В 2020 для подобных кейсов разумнее использовать hadoop. Сейчас кстати и занимаюсь миграцией очень большой и не очень известной РСУБД в туда - причины ровно те же что и описал выше. И да, для эксплуатации такого рода баз - нужен прямой контакт с их разработчиками (читай купленный саппорт) т.к. маленькие косячки имеют свойство превращаться в гигантские проблемы вместе с ростом объемов данных.

phoen ★★
(15.09.20 13:09:16 MSK)
Последнее исправление: phoen 15.09.20 13:10:01 MSK (всего исправлений: 1)

В таблицах есть уникальное поле, «хеш». Во что мне конвертировать csv файл, чтобы максимально быстро получать доступ к строке по индексу?-

в MUMPS

anonymous
(15.09.20 14:32:44 MSK)

Ссылка

Затаращил в SQLite 1G записей вида ключ-значение (int + text), заняло это счастье ~50 Гб. Поиск по индексу, если в кэш не попадать, с SSD занимает 25-40 мс, с HDD 150-250. Как по мне, выглядит довольно неплохо, учитывая околонулевые трудозатраты.

~~izzholtik~~ ★★★
(15.09.20 15:06:12 MSK)

Ответ на: комментарий от phoen 15.09.20 13:09:16 MSK

В 2020 для подобных кейсов разумнее использовать hadoop

у него с производительностью всё гораздо хуже, если нет сотен нефти для аренды очень-очень больших кластеров.

peregrine ★★★★★
(15.09.20 15:26:26 MSK)

Ссылка

Ответ на: комментарий от izzholtik 15.09.20 15:06:12 MSK

Вот наконец-то лучший ответ.
А сколько времени происходило само «затаращивание», хотя бы оценочно?

hobbit ★★★★★
(15.09.20 15:30:59 MSK)

Ответ на: комментарий от hobbit 15.09.20 15:30:59 MSK

С одной стороны, почти 2 часа.
С другой, я не заморачивался оптимизацией и просто добавлял по одной записи в цикле. Плюс это было на HDD, плюс журнал не был отключен. Хз, сильно ли можно было ускорить.
Алсо, после этого запустил создание индекса по колонке с текстом, там случайные гуиды набиты. На HDD отработало за 2399894ms, на SSD - хз, случайно прибил терминал с результатом, а повторять лень.

~~izzholtik~~ ★★★
(15.09.20 16:55:34 MSK)
Последнее исправление: izzholtik 15.09.20 16:56:21 MSK (всего исправлений: 1)

Ответ на: комментарий от izzholtik 15.09.20 16:55:34 MSK

Спасибо (хоть я и не ТС).

Офтоп: у тебя в игнор-листе из профиля уже двое забаненных. А у t184256 аватарка, скорее всего уже не та, про которую ты писал (а если та, то это довольно оригинально).

hobbit ★★★★★
(15.09.20 17:51:48 MSK)
Последнее исправление: hobbit 15.09.20 17:53:46 MSK (всего исправлений: 1)

Ответ на: комментарий от hobbit 15.09.20 17:51:48 MSK

Туда им и дорога.
А аватарка всё ещё та, лол.

~~izzholtik~~ ★★★
(15.09.20 18:09:34 MSK)

Ссылка

Ответ на: комментарий от izzholtik 15.09.20 16:55:34 MSK

С одной стороны, почти 2 часа. С другой, я не заморачивался оптимизацией и просто добавлял по одной записи в цикле.

Молодец.
Теперь сделай из 1ТБ CSV 1ГБ файл в котором каждая строка будет находиться в компрессированном формате и попробуй отработать тот же самый алгоритм.
Скорее всего он у тебя отработает минут за пятнадцать.

Владимир

anonymous
(15.09.20 18:25:23 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

←	Стример мультикаста на linux

General

Рендеринг

→

Похожие темы