Работа с огромной базой JSON (>50 ГБ)

0

2

Здравствуйте, возникла необходимость работы с загруженной базой от стороннего ресурса, база была скачана полностью, чтобы не тянуть данные через API.

Задача в принципе одна, нужно с ней работать офлайн, в принципе даже через Access или Excel можно...

Я предполагаю как, эту базу переконвертировать в CSV и запихнуть в MySQL и дальше уже работать там, но большой размер базы вызывает большие трудности в работе с ней.

Есть ли какие-то альтернативы?

Ссылка

←	Вызов асинхронной функции в конструкторе класса

Сигнализировать ошибку в процессе передачи ответа

→

← 1 2 →

50Гб не должно вызывать проблем после импорта в мускуль/постгресс/whatever.

Уточни формат данных и что значит «работать», иначе не понятно что тебе посоветовать.

kardapoltsev ★★★★★
(16.12.18 05:49:30 MSK)

Ссылка

Если это .json файлы в количестве 50 Гигов - то загружать есть смысл в Mongo/ArangoDB/CouchDB, а не в MySQL.

menangen ★★★★★
(16.12.18 08:31:15 MSK)

Есть ли какие-то альтернативы?

SQLite

anonymous
(16.12.18 11:14:23 MSK)

Ссылка

Непонятно, в чём именно проблемы. 50 ГБ это не огромные размеры, это крошечные размеры.

~~Legioner~~ ★★★★★
(16.12.18 11:53:11 MSK)

Ответ на: комментарий от Legioner 16.12.18 11:53:11 MSK

Видимо проблема в том что тс не может найти потоковый парсер который не будет пытатьтся сразу проглотить весь документ.

redixin ★★★★
(16.12.18 12:10:39 MSK)

Есть предположение, что после заливки твои 50гигов ужмуться, да и без этого не такие уж великие размеры. Даже мускуль прожует.

ya-betmen ★★★★★
(16.12.18 12:10:58 MSK)

Ссылка

Ответ на: комментарий от redixin 16.12.18 12:10:39 MSK

Не факт. Скорее всего у него миллионы мелких JSON-ов, а не один огромный. Даже если так, для какого это языка нет потокового парсера? Даже если так, JSON это примитивный формат, парсер для которого пишется на коленке за час.

~~Legioner~~ ★★★★★
(16.12.18 12:44:40 MSK)

Ссылка

Я предполагаю как, эту базу переконвертировать в CSV и запихнуть в MySQL

Направление мысли здравое, но лучше таки не через CSV, он узким местом будет.

Был бы XML, я б тебе посоветовал написать SAX-парсер. Сейчас бегло погуглил — для JSON в подобных случаях люди тоже велосипедят аналог SAX.

hobbit ★★★★★
(16.12.18 12:53:03 MSK)

Ссылка

Ответ на: комментарий от menangen 16.12.18 08:31:15 MSK

Если это .json файлы в количестве 50 Гигов - то загружать есть смысл в Mongo/ArangoDB/CouchDB, а не в MySQL.

И зачем ты для этой задачи предлагаешь всякую NoSQLщину? 50 Гб — это семечки для нормальной реляционной СУБД, того же PostgreSQL, например (кстати, возможно, что и для MySQL тоже, просто не пробовал).

hobbit ★★★★★
(16.12.18 12:54:56 MSK)

Ответ на: комментарий от Legioner 16.12.18 11:53:11 MSK

Для JSON, ага. Некоторых упоротых товарищей хлебом не корми, дай только херни сказануть.

~~WitcherGeralt~~ ★★
(16.12.18 17:55:27 MSK)

Ссылка

А чего именно тебе нужно делать с бащой и как? Clickhouse может импортировать напрямую из json и для него такой объём данных — ничто, минимум пердолинга предстоит. Ну илм можешь взять питонический ijson, например, и написать скрипт в несколько строк, который в stdout будет плевать csv для импорта в любую другуб бд.

~~WitcherGeralt~~ ★★
(16.12.18 18:06:32 MSK)

((re)open)ldap

~~mos~~ ★★☆☆☆
(16.12.18 18:25:18 MSK)

Ссылка

Ответ на: комментарий от Legioner 16.12.18 11:53:11 MSK

ну если у сервака 512 гигов, то да

~~tz4678~~ ★★
(17.12.18 13:16:00 MSK)

Ответ на: комментарий от tz4678 17.12.18 13:16:00 MSK

Да даже если 256 мегов, тоже нормально.

~~Legioner~~ ★★★★★
(17.12.18 16:32:30 MSK)

Ссылка

Выше правильно написали, что конвертировать в csv перед записью в СУБД не нужно.

Я бы советовал данные запихнуть в mysql, затем нормализовать базу данных.

dicos ★★★
(11.01.19 12:15:11 MSK)

Ссылка

база была скачана полностью, чтобы не тянуть данные через API.

но большой размер базы вызывает большие трудности в работе с ней. Есть ли какие-то альтернативы?

Тянуть данные через API ?

router ★★★★★
(11.01.19 12:16:43 MSK)

Ссылка

Я бы все-таки подумал бы либо об документоориентированной бд (монга) либо о встроенных механизмах хранения json в других базах, напр., в постгрессе.

Если это данные стороннего сервиса, без строгих гарантий на соблюдения формата + если стоит задача не единоразово проделать эту операцию, а постоянно обновлять базу, то будет постоянный геммор подгонять схему под изменения данных. Учитывая, что сторонние ребята хранят все в json, я думаю, они не будут особо париться с их содержимым.

Deleted
(11.01.19 14:09:51 MSK)

Ссылка

Может так проще.

https://dev.mysql.com/doc/refman/8.0/en/json.html

comma ★
(11.01.19 14:43:48 MSK)

Ответ на: комментарий от hobbit 16.12.18 12:54:56 MSK

не в MySQL.
И зачем ты для этой задачи предлагаешь всякую NoSQLщину?

Потому что json древовидный.

adn ★★★★
(11.01.19 15:07:11 MSK)

Ссылка

Ответ на: комментарий от WitcherGeralt 16.12.18 18:06:32 MSK

Ну илм можешь взять питонический ijson, например, и написать скрипт в несколько строк, который в stdout будет плевать csv для импорта в любую другуб бд.

Чувак, ты не в теме. Ты не разложишь древовидный json в плоский CSV (или любую другую таблицу)

adn ★★★★
(11.01.19 15:09:26 MSK)
Последнее исправление: adn 11.01.19 15:16:51 MSK (всего исправлений: 1)

Ответ на: комментарий от comma 11.01.19 14:43:48 MSK

Неа. Не проще. В MySQL и postgres есть только поля формата json. В итоге ты получишь примерно то же самое, что получил бы храня это в текстовом файле. Mongo - отличный выбор для этого. Это ее use case.

adn ★★★★
(11.01.19 15:16:06 MSK)

Ответ на: комментарий от adn 11.01.19 15:09:26 MSK

Чувак, ты не в теме

Я-то как раз в теме. А ты мало того, что выдумал кейс о котором нет речи в топике, так ещё глупость сморозил.

Ничто не мешает его разложить на несколько таблиц, если объекты имеют разную структуру, либо в одну, если структура вложенных объектов идентична родителю. Просто генеришь айдишники и добавляешь поля для внешних ключей / ссылок на другие записи той же таблицы.

Проблема возникает только если тебе нужно извлекать это из таблиц обратно в json. В зависимости от субд масштаб проблемы разный, но это всегда решаемо, хоть и не всегда адекватно. В самом худшем случае придётся собирать его вне таблицы, отправляя по запросу на каждый объект, а в лучшем, собрать можно прямо в хранимой процедуре.

~~WitcherGeralt~~ ★★
(11.01.19 16:05:33 MSK)

Ответ на: комментарий от WitcherGeralt 11.01.19 16:05:33 MSK

Ничто не мешает его разложить на несколько таблиц, если объекты имеют разную структуру, либо в одну, если структура вложенных объектов идентична родителю. Просто генеришь айдишники и добавляешь поля для внешних ключей / ссылок на другие записи той же таблицы.

Разложить то можно, а вот что-то делать с этим проблематично.

Проблема возникает только если тебе нужно извлекать это из таблиц обратно в json.

Ты и сам это тут же подтверждаешь. Это будут просто как-то уложенные в таблицы данные.
Зачем копать яму молотком, когда существуют лопаты?

adn ★★★★
(11.01.19 16:54:33 MSK)

Ответ на: комментарий от adn 11.01.19 15:16:06 MSK

с того момента, как в постгрес завезли jsonb, нужность монги под большим сомнением, особенно после того, как утихли визги про noSQL и в свежие монги начали пихать ACID под своим, кислотным соусом.
постгрес развивается просто дичайшими темпами, но уже 3 года назад нагибал nosql в «её» use case

SevikL ★★★★★
(11.01.19 17:03:28 MSK)

Ответ на: комментарий от adn 11.01.19 16:54:33 MSK

а вот что-то делать с этим проблематично

Зависит от задачи. Ты заведомо предположил такую, в которой от укладывания в таблицы одни проблемы, но найдётся и тысяча кейсов, где всё ровно наоборот. У ТС мб в json вообще что-то типа лога.

~~WitcherGeralt~~ ★★
(11.01.19 17:06:44 MSK)

Ответ на: комментарий от SevikL 11.01.19 17:03:28 MSK

нужность монги под большим сомнением, особенно после того, как утихли визги про noSQL

Меня очень веселит, что спорят со мной люди, которые вообще не представляют что такое noSQL и зачем он нужен. И так же, похоже не знают как выглядит json. И я не знаю как postgres кого «натягивает», но хотел бы посмотреть на insert, который добавит hashtag в статью.

{ 'id' : '111',
  'post' : 
     { 'text': 'something',
       'hashtag': ['first' , 'second'] 
     }
}

adn ★★★★
(11.01.19 17:52:07 MSK)

Ответ на: комментарий от Legioner 16.12.18 11:53:11 MSK

у ментов на десктопе обычно Intel core E6200 с 2Гб памяти, кроме них больше никто в спи*енной базе ковыряться не будет
так что да, огромная база

Karapuz ★★★★★
(11.01.19 17:55:04 MSK)

Ответ на: комментарий от WitcherGeralt 11.01.19 17:06:44 MSK

Блин, json и придуман для того, чтобы передавать структуры. А для «плоских» данных он избыточный.

adn ★★★★
(11.01.19 17:55:21 MSK)

Ответ на: комментарий от WitcherGeralt 11.01.19 17:06:44 MSK

У ТС мб в json вообще что-то типа лога.

xтримиста ищут по айпи

Karapuz ★★★★★
(11.01.19 17:56:13 MSK)

Ссылка

Ответ на: комментарий от Karapuz 11.01.19 17:55:04 MSK

2 ГБ памяти это более, чем достаточно.

~~Legioner~~ ★★★★★
(11.01.19 18:23:22 MSK)

Ссылка

Ответ на: комментарий от Karapuz 11.01.19 17:55:04 MSK

у ментов на десктопе обычно Intel core E6200 с 2Гб памяти, кроме них больше никто в спи*енной базе ковыряться не будет

Менты записали бы эти json в Cronos - специально и для ментов, и для NoSQL замечательно подходит. Сетевая БД, с многомерными полями. По сути - родной дедушка Mongo etc.

Deleted
(11.01.19 18:31:44 MSK)

Ссылка

Если задача стоит в написании потокового парсера, который будет импортить это в любую бд, то тут go идеально подойдет

nikolnik ★★★
(11.01.19 18:48:01 MSK)

Ссылка

Ответ на: комментарий от adn 11.01.19 17:52:07 MSK

Можно, но выйдет немного костыльно

nikolnik ★★★
(11.01.19 18:51:52 MSK)

Ссылка

Ответ на: комментарий от adn 11.01.19 17:55:21 MSK

В твоей бинарной вселенной бывает либо плоский, либо дерево с бесконечной вложенностью?

А для «плоских» данных он избыточный

Ты опять какую-то дичь выдумываешь. Напоминаю, что изначально JSON — Object в JS.

~~WitcherGeralt~~ ★★
(11.01.19 18:57:45 MSK)

Ответ на: комментарий от adn 11.01.19 17:52:07 MSK

jsonb_insert(value, '{post,hashtag,0}', '"bla"')

~~Legioner~~ ★★★★★
(11.01.19 19:00:17 MSK)

Ответ на: комментарий от WitcherGeralt 11.01.19 18:57:45 MSK

Ключевое слово «объект». Не строка, не массив.

adn ★★★★
(11.01.19 19:10:56 MSK)

Ответ на: комментарий от adn 11.01.19 19:10:56 MSK

И строка выборки из реляционной бд прекрасно ложится на этот самый объект (которому ничто не мешает быть плоским), как большинство JSON API и работает.

~~WitcherGeralt~~ ★★
(11.01.19 19:18:56 MSK)

Ответ на: комментарий от Legioner 11.01.19 19:00:17 MSK

А кто такой value, почему 0 в path'е и где указание таблицы?
Но давай усложним. Как ты будешь искать все записи где есть hashtag «postgres»?

adn ★★★★
(11.01.19 19:32:15 MSK)

Ответ на: комментарий от WitcherGeralt 11.01.19 19:18:56 MSK

Отстань. Я ничего не имею против реляционных баз данных. Но я против того, чтобы в них древовидные структуры складывать. Уж слишком неудобно и трудозатратно.

adn ★★★★
(11.01.19 19:36:23 MSK)

Ответ на: комментарий от adn 11.01.19 19:36:23 MSK

Отстаю, но апоминаю, что это ты ко мне со своими древовидными структурами пристал, а не я к тебе.

~~WitcherGeralt~~ ★★
(11.01.19 19:48:40 MSK)

Ссылка

Ответ на: комментарий от adn 11.01.19 19:32:15 MSK

А кто такой value

jsonb-значение, куда ты хочешь вставить тег.

почему 0 в path'е

Позиция для вставки

и где указание таблицы?

update mytable set value = jsonb_insert(value, ...) where ... или как тебе угодно.

Но давай усложним. Как ты будешь искать все записи где есть hashtag «postgres»?

select ... from mytable where value->'post'->'hashtag' ? 'postgres'

~~Legioner~~ ★★★★★
(11.01.19 20:21:48 MSK)
Последнее исправление: Legioner 11.01.19 20:22:00 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от adn 11.01.19 19:32:15 MSK

А теперь покажи, как это делать в твоей любимой БД (монго?), тоже интересно. И насколько сложно создать индекс для «искать все записи где есть hashtag «postgres»» (в постгресе это тривиально).

~~Legioner~~ ★★★★★
(11.01.19 20:24:10 MSK)

Ответ на: комментарий от Legioner 11.01.19 20:24:10 MSK

У меня нет любимой db. Каждая db под свои задачи. Я не готов как ты решать все с помощью одного postgresql (не смотря на многолетнюю привязанность к нему).

И насколько сложно создать индекс для «искать все записи где есть hashtag «postgres»»

Вот как-то так.

db.collection.createIndex({post:1},{partialFilterExpression:{"post.hashtag":"postgres"}})

А как в postgres'е для таких json'ов это делается? (Для обычных таблиц я знаю)

adn ★★★★
(13.01.19 02:03:02 MSK)

Смотря как хочешь работать, так-то скрипт писать не долго, один там файл или 50000. Конвертировать в CSV странно, зачем если можно сразу подключиться БД и лить сразу. У постгре вообще есть JSON поля, а так действительно, хоть в SQLite лей, 50Гб это не оче много.

Dred ★★★★★
(13.01.19 04:58:17 MSK)

Ссылка

Так у тебя много мелких файлов или один жирный?

Для поиска в .json часто берут ElasticSearch, вот тулза для импорта json в ElasticSearch

https://github.com/taskrabbit/elasticsearch-dump/blob/master/README.md

menangen ★★★★★
(13.01.19 05:47:55 MSK)

Ссылка

Ответ на: комментарий от adn 13.01.19 02:03:02 MSK

create index on test using gin ((value->'post'->'hashtag'))

~~Legioner~~ ★★★★★
(13.01.19 15:22:50 MSK)

Ответ на: комментарий от Legioner 13.01.19 15:22:50 MSK

мы же про partial index говорили, который индексирует то, что соответствует условию

создать индекс для «искать все записи где есть hashtag «postgres»»

adn ★★★★
(13.01.19 15:46:22 MSK)
Последнее исправление: adn 13.01.19 15:47:07 MSK (всего исправлений: 1)

Ответ на: комментарий от adn 13.01.19 15:46:22 MSK

Этот индекс поможет для всего, в том числе для postgres.

~~Legioner~~ ★★★★★
(13.01.19 15:53:24 MSK)

Ответ на: комментарий от SevikL 11.01.19 17:03:28 MSK

По-моему, конкретно mongo хороша тем, что из коробки умеет во вменяемое горизонтальное масштабирование + у неё есть так называемый aggregation framework, на котором даже сложные запросы не похожи на SQL-жесть.

Octagon ★
(13.01.19 15:58:31 MSK)

Вообще, какой-нибудь пример записи было бы неплохо продемонстрировать. Может быть в SQLite все можно засунуть.

Octagon ★
(13.01.19 15:59:48 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

←	Вызов асинхронной функции в конструкторе класса

Web-development

Сигнализировать ошибку в процессе передачи ответа

→

Похожие темы