ускорить в рамках Python вставки INSERT ON CONFLICT

0

2

Когда реализовал загрузку таблички в Postgres таким образом: с помощью pandas считал все данные и сохранил их в csv-файл и затем загрузил с помощью engine.raw_connection().cursor().copy_from() от sqlalchemy. При это табличка дропается и создается заново. Работает быстро (несколько минимут), но возникла проблема - кончается оперативная память. Датафрейм уже занимает под 10 G и вынужден перейти к дописыванию таблички.

При дописывании возникает проблема. Строки таблицы с последнего момента записывания меняются (глубина несколько суток). Поэтому использую «INSERT ON CONFLICT UPDATE» в Питоновском цикле с execute от sqlalchemy. Все работает, но бесконечно долго. 10 тыс. записей висят несколько часов. Порекомендуйте как ускорится можно?

Ссылка

←	FFmpeg libav* time_incr

Паттерн Builder в C++

→

но возникла проблема - кончается оперативная память

Чанками вставлять?

Порекомендуйте как ускорится можно?

Если задача позволяет, а кмк, она позволяет, сменить БД может быть на колоночную, кликхаус будет вставлять csv-ку «со скоростью чтения файла с диска».

vvn_black ★★★★★
(28.07.22 14:12:05 MSK)

Ответ на: комментарий от vvn_black 28.07.22 14:12:05 MSK

будет вставлять csv-ку «со скоростью чтения файла с диска»

Так это все базы, если лочить и без проверок.

Shadow ★★★★★
(28.07.22 14:21:40 MSK)

Датафрейм уже занимает под 10 G

Сколько всего строк? И попробуй dask поверх пандаса.

Shadow ★★★★★
(28.07.22 14:22:44 MSK)

Ответ на: комментарий от Shadow 28.07.22 14:21:40 MSK

У ТС пандас, наверняка, какие-то серийные данные, да и изначально он вставляет всё скопом заново, должно ему зайти.

vvn_black ★★★★★
(28.07.22 14:23:50 MSK)

Ссылка

Тебе же был сразу хороший совет - pandas to_sql делать записи порциями (комментарий)

vvn_black ★★★★★
(28.07.22 14:28:38 MSK)
Последнее исправление: vvn_black 28.07.22 14:29:01 MSK (всего исправлений: 1)

Ответ на: комментарий от vvn_black 28.07.22 14:28:38 MSK

Попробуй писать пачками через COPY.

А COPY может обновить существующую в таблице запись - уникальный id? Или всетаки, без удалил таблицу - создал таблицу задачка не решается?

В итоге я хотел бы дописывать и обновлять существующую таблицу порциями (пока это Postgres).

PS. пробую через временную таблицу заинсертить с конфликтом … странным кажеться решение, но похоже сработает

scisearcher
(28.07.22 14:57:21 MSK) автор топика
Последнее исправление: scisearcher 28.07.22 15:13:01 MSK (всего исправлений: 1)

Ответ на: комментарий от Shadow 28.07.22 14:22:44 MSK

Спасибо за dask. Если не решается задачка без удаления и создания заново таблицы, заюзаю.

scisearcher
(28.07.22 14:59:08 MSK) автор топика

Ссылка

Ответ на: комментарий от scisearcher 28.07.22 14:57:21 MSK

В итоге, мгновенно работает схема дописывания:

pandas -> csv -> postgres_tmp_table -> postgres_table

запись в postgres_table реализовал через INSERT FROM postgres_tmp_table ON CONFLICT DO UPDATE.

Не знаю, почему-то решение кажется костыльным, но наверное для Постгреса это нормально. Топик пока не буду закрывать, может поделитесь опытом.

scisearcher
(28.07.22 18:16:29 MSK) автор топика
Последнее исправление: scisearcher 28.07.22 18:17:29 MSK (всего исправлений: 1)

Ответ на: комментарий от scisearcher 28.07.22 18:16:29 MSK

А csv в этой схеме какую роль выполняет? Ну т.е. почему сразу из pandas в pg не писать?

cobold ★★★★★
(28.07.22 23:58:11 MSK)

Ответ на: комментарий от cobold 28.07.22 23:58:11 MSK

Не знаю, мне не приходится много грузить из пандаса в постгри, так как я веду обработку и очистку данных прямо на стороне БД (sql запросами, иногда динамическими), а вот наоборот часто делать приходится. Но читать с pg в pandas лучше через csv который правда в оперативку кладётся (через COPY в запросе и io в python-е), а не на диск. Сильно быстрее выходит (в несколько раз). И это именно какая-то болячка пандаса, связанная с выделением памяти. Подозреваю что наоборот тоже так же работает. При этом чем грузить не важно. Что sqlalchemy что psycopg2 лагают примерно одинаково (sqlalchemy чуть больше, но это на единицы процентов разница). А вот csv ускоряет в разы.

peregrine ★★★★★
(29.07.22 10:59:52 MSK)
Последнее исправление: peregrine 29.07.22 11:05:11 MSK (всего исправлений: 2)