Сообщения polin11

Форум — General

быстрый Nested Loop и медленный Merge join

Использую PostgreSQL, есть иерархическая таблица Document, есть простой рекурсивный запрос, получаем записи вниз по иерархии, поле иерархии Hier

 WITH RECURSIVE DOWN AS( 
           SELECT s.* 
           FROM "Document" s 
           WHERE "Hier" =  1123
           UNION 
           SELECT s1.* 
           FROM DOWN 
           INNER JOIN "Document" s1 ON s1."Hier"= DOWN."@Document" 
         ) 
         SELECT * 
         FROM DOWN

На одной БД планировщик использует Nested Loop запрос выполняется быстро

"CTE Scan on down  (cost=229320.82..231171.20 rows=92519 width=253) (actual time=0.207..2.038 rows=17 loops=1)"
"  Buffers: shared hit=62 read=3"
"  CTE down"
"    ->  Recursive Union  (cost=0.43..229320.82 rows=92519 width=272) (actual time=0.202..2.005 rows=17 loops=1)"
"          Buffers: shared hit=62 read=3"
"          ->  Index Scan using "iDocument-Hier" on "Document" s  (cost=0.43..27.52 rows=9 width=272) (actual time=0.194..0.203 rows=4 loops=1)"
"                Index Cond: ("Hier" = 4634473)"
"                Buffers: shared hit=7 read=1"
"          ->  Nested Loop  (cost=0.43..22744.29 rows=9251 width=272) (actual time=0.831..0.870 rows=6 loops=2)"
"                Buffers: shared hit=55 read=2"
"                ->  WorkTable Scan on down down_1  (cost=0.00..1.80 rows=90 width=8) (actual time=0.001..0.008 rows=8 loops=2)"
"                ->  Index Scan using "iDocument-Hier" on "Document" s1  (cost=0.43..251.66 rows=103 width=272) (actual time=0.096..0.098 rows=1 loops=17)"
"                      Index Cond: ("Hier" = down_1."@Document")"
"                      Buffers: shared hit=55 read=2"
"Planning time: 1.200 ms"
"Execution time: 3.596 ms"

На другой БД с примерно теми же данными используется Merge Join и запрос выполняется очень долго и много ресурсов использует

"CTE Scan on down  (cost=14385858.75..16871148.97 rows=124264511 width=253) (actual time=7.388..54128.588 rows=17 loops=1)"
"  Buffers: shared hit=562520 read=190529"
"  CTE down"
"    ->  Recursive Union  (cost=0.56..14385858.75 rows=124264511 width=277) (actual time=7.383..54128.547 rows=17 loops=1)"
"          Buffers: shared hit=562520 read=190529"
"          ->  Index Scan using "iDocument-Hier" on "Document" s  (cost=0.56..1610.97 rows=581 width=277) (actual time=7.373..9.128 rows=4 loops=1)"
"                Index Cond: ("Hier" = 939969)"
"                Buffers: shared read=7"
"          ->  Merge Join  (cost=480.01..1189895.76 rows=12426393 width=277) (actual time=27057.258..27059.673 rows=6 loops=2)"
"                Merge Cond: (s1."Hier" = down_1."@Document")"
"                Buffers: shared hit=562520 read=190522"
"                ->  Index Scan using "iDocument-Hier" on "Document" s1  (cost=0.56..986143.92 rows=6750595 width=277) (actual time=0.706..26652.712 rows=2957380 loops=2)"
"                      Buffers: shared hit=562520 read=190522"
"                ->  Sort  (cost=479.45..493.98 rows=5810 width=8) (actual time=0.034..0.040 rows=11 loops=2)"
"                      Sort Key: down_1."@Document""
"                      Sort Method: quicksort  Memory: 25kB"
"                      ->  WorkTable Scan on down down_1  (cost=0.00..116.20 rows=5810 width=8) (actual time=0.003..0.004 rows=8 loops=2)"
"Planning time: 1.677 ms"
"Execution time: 54145.287 ms"

В обеих базах есть индекс по полю Hier, пробовал выполнить vacuum analyze, reindex, обновить статистику для планировщика - ничего не помогает.

Как решить проблему на второй базе, заставить планировщик использовался Nested Loop?

polin11
(31.01.21 02:28:01 MSK)

Форум — General

Создать индекс для рекурсивного запроса

index, postgresql

Иcпользую PostreSQL, есть рекурсивный запрос в таблице Document для получение записей вниз по иерархии, идентификатор в таблице @Document. Поле Hierarchy ссылка на идентификатор родительской записи.

EXPLAIN (ANALYZE,BUFFERS)
        WITH  RECURSIVE 
                hier_down AS(
                    SELECT
                       h."@Document",
                       h."Hierarchy",
                       h."Hint"
					   FROM "Document" h
                       WHERE
                          "@Document" = 13
                    UNION all
                    SELECT
                        "Document" ."@Document",
                         "Document" ."Hierarchy",
                         "Document"."Hint"
                    FROM hier_down, "Document" 
                    WHERE   "Document"."Hierarchy" =  hier_down."@Document"
                )
SELECT *
FROM hier_down

План выполнения запроса:

"CTE Scan on hier_down  (cost=783.59..861.41 rows=3891 width=44) (actual time=0.008..0.748 rows=5 loops=1)"
"  Buffers: shared hit=281"
"  CTE hier_down"
"    ->  Recursive Union  (cost=0.28..783.59 rows=3891 width=76) (actual time=0.007..0.745 rows=5 loops=1)"
"          Buffers: shared hit=281"
"          ->  Index Scan using "pDocument" on "Document" h  (cost=0.28..8.29 rows=1 width=76) (actual time=0.006..0.006 rows=1 loops=1)"
"                Index Cond: ("@Document" = 13110)"
"                Buffers: shared hit=3"
"          ->  Hash Join  (cost=0.33..69.75 rows=389 width=76) (actual time=0.044..0.143 rows=1 loops=5)"
"                Hash Cond: ("Document"."Hierarchy" = hier_down_1."@Document")"
"                Buffers: shared hit=278"
"                ->  Seq Scan on "Document"  (cost=0.00..62.66 rows=766 width=76) (actual time=0.003..0.061 rows=766 loops=5)"
"                      Buffers: shared hit=275"
"                ->  Hash  (cost=0.20..0.20 rows=10 width=4) (actual time=0.002..0.002 rows=1 loops=5)"
"                      Buckets: 1024  Batches: 1  Memory Usage: 9kB"
"                      ->  WorkTable Scan on hier_down hier_down_1  (cost=0.00..0.20 rows=10 width=4) (actual time=0.000..0.000 rows=1 loops=5)"
"Planning time: 0.336 ms"
"Execution time: 0.786 ms"

Хочется избавиться от seq scan Есть индекс по полю Hierarchy - он не используется Есть составной индекс (Hierarchy, @Document ) - он не используется

сделал индекс

CREATE INDEX "Hier"
ON "Document" USING btree
("Hierarchy" NULLS LAST, "@Document" NULLS LAST, "Hint" NULLS LAST);

он используется, но перестает использоваться когда добавляется новое поле в SELECT, приходится добавлять новое поле в индекс.

Как бы создать индекс, на который не влиял бы набор полей в SELECT?

polin11
(25.01.21 22:40:25 MSK)

1 комментарий

Форум — General

Создать табличку при помощи unnest

postgresql

Использую СУБД Postgresql, unnest для создания временной таблицы

 SELECT UNNEST('{"10","20"}'::varchar[]) "Ключ",
                   UNNEST('{103,101}'::bigint[]) "Документ"

Получаю таблицу из 2 столбцов Ключ и Документ к которым можно обращаться, нужно добавить еще один столбец Массив

            SELECT UNNEST('{"10","20"}'::varchar[]) "Ключ",
                   UNNEST('{103,101}'::bigint[]) "Документ",
                   UNNEST(ARRAY[1,3], ARRAY[4,5]) "Массив"

но к сожалению так просто не получается сделать, просьба поделиться секретом написания такого запроса

polin11
(03.12.20 18:26:55 MSK)

1 комментарий

Форум — General

Помощь в изменении структуры БД

postgresql

Использую PostgreSQL 11.

Есть таблица USERS 2 млн. записей

 
CREATE TABLE USERS (
  id INT NOT NULL,
  name VARCHAR(30) NOT NULL
);
INSERT INTO USERS 
    (id, name) 
VALUES 
    (1,'John'),
    (2,'Mike'),
    (3,'John');

также есть таблица для реализации связей внутри таблицы USERS 15 мнл. записей, по факту храним 2 числа: ид.записи, ид.свзяи.

CREATE TABLE LINKS (
  id INT NOT NULL,
  id_rec INT NOT NULL,
  id_link INT NOT NULL
);
INSERT INTO LINKS 
    (id, id_rec, id_link) 
VALUES 
    (1,1, 2),
    (2,1,3),
    (3,1, 4);

Причем связь односторонняя, то есть связей всего 5000, к которым привязаны от 2 записей до 2 млн. записей, Джойнить эти 2 таблицы стало сложно, долго по времени и по ресурсам.

Хочу узнать мнения по оптимальному изменению структуры таблиц, может быть сделать таблицу на 5000 связей, которым указать идентификаторы в виде массива.

Может кто-то сталкивался с похожей проблемой?

polin11
(20.11.20 23:18:57 MSK)

3 комментария

Форум — General

Выполнить запрос 1 раз, но получать записи по кускам

cursor, postgresql

Использую PostgreSQL, есть большая таблица несколько миллионов записей, для примера

CREATE TABLE towns ( id INTEGER PRIMARY KEY, name CHARACTER VARYING(30), root INTEGER );

INSERT INTO towns VALUES (1, ‘Berlin’, 1);

INSERT INTO towns VALUES (2, ‘Rome’, 2);

INSERT INTO towns VALUES (3, ‘Paris’, 1);

INSERT INTO towns VALUES (1, ‘Turin’, 2);

Нужно используя курсоры в Postgresql написать запрос, получить все записи отсортированные по root, выполнить запрос 1 раз, а получать по значению root

https://postgrespro.ru/docs/postgres...lpgsql-cursors

polin11
(07.11.20 19:24:27 MSK)

2 комментария

Форум — General

Как запретить в триггере вставку пустого jsonb

postgresql, trigger

СУБД Postgresql, нужно в триггере запретить вставку в поле пустого ‘{}’::jsonb

Пробовал что-то подобное, но не работает

BEGIN

IF NEW.«Param» = ‘{}’::jsonb THEN

  DELETE FROM "Table1" WHERE "Key" = NEW."Key";

  RETURN NULL;

END IF;

RETURN NEW;

END;

polin11
(16.10.20 19:11:14 MSK)

3 комментария

Форум — General

Инициализация членов класса

c++

Подскажите ответ на вопрос, не смог ничего нагуглить

Where do you initialize a non-static class member that is a reference?

Point of declaration only
Member initialization list only
Point of declaration and member initialization list
Member initialization list and body of constructor
Body of constructor only

polin11
(21.09.20 03:14:53 MSK)

6 комментариев

Форум — General

Запрос с использованием массива

array, postresql

Использую СУБД PostgreSQL. Для примера, есть таблица 1 столбец - имя владельца 2 столбец - название авто

CREATE TABLE cars (
  id INT NOT NULL,
  name VARCHAR(30) NOT NULL,
  car VARCHAR(30)
);

INSERT INTO cars 
    (id, name, car) 
VALUES 
    (1,'John', 'BMW'),
    (2,'Mike', 'BMW'),
    (3,'John', 'OPEL'),
    (3,'John', 'KIA')

Есть набор названий авто ['BMW', 'KIA'], нужно найти владельцев, которые владели всеми этими авто. Придумал 2 варианта реализации:

SELECT name
FROM cars
WHERE car =  'BMW'
INTERSECT
SELECT name
FROM cars
WHERE car =  'KIA'

Либо

SELECT name
FROM cars
WHERE car =  ANY(ARRAY['BMW', 'KIA'])
GROUP BY name
HAVING COUNT(name) = 2

Вопрос, есть ли другие более оптимальные и простые варианты реализации

polin11
(15.07.20 11:38:05 MSK)

3 комментария

Форум — General

PostgreSQL и обратный слэш

postgresql, sqlite

В PostgreSQL есть прекрасная функция quote_literal, при помощи нее оборачиваю строи из PostgreSQL, заем эти данные идут для вставки в СУБД SQLite.

Проблема возникла если в строке обратный слэш:

select quote_literal(‘\AA’)

я получаю

E’\AA’

из-за префикса E, такие данные не вставляются в SQLite

Вопрос, как избавиться от этого префикса, не удаляя бэк слэш из данных?

polin11
(09.07.20 20:06:38 MSK)

Форум — Development

Предупреждение pylint Unused variable

pylint

Предупреждение pylint Unused variable

Есть некоторое действие, которое нужно повторить N раз, например вывести слово python, пример

def f(n):
    for i in range(n):
        print('python')

f(10)

Но при проверке pylint есть предупреждение, Unused variable 'i' (unused-variable)

Как решить такую проблему?

polin11
(03.07.20 20:43:36 MSK)

2 комментария

Форум — General

Индекс для сортировки

index, postgresql

СУБД PostgreSQL, таблица Документы первичный ключ Документ, поле Код типа text. Есть запрос

SELECT s.*
FROM "Документы" s
where "Документ" = ANY(ARRAY[807830, 807831, 807832, 807833, 807834, 807835, 807836, 807837, 807838, 807839
])
ORDER BY
s."Код"

Создал индекс

CREATE INDEX "index_sort"
	ON "Документы" USING btree
	("Документ" NULLS LAST, "Код" text_pattern_ops NULLS LAST);

Но почему-то планировщик его не использует, делал VACUUM, REINDEX, используется индекс по первичному ключу, план такой:

"Sort  (cost=48.74..48.77 rows=10 width=174) (actual time=0.061..0.062 rows=10 loops=1)"
"  Sort Key: "Код"
"  Sort Method: quicksort  Memory: 26kB"
"  Buffers: shared hit=31"
"  ->  Index Scan using "pДокумент" on "Документы" s  (cost=0.42..48.58 rows=10 width=174) (actual time=0.013..0.025 rows=10 loops=1)"
"        Index Cond: ("Документ" = ANY ('{807830,807831,807832,807833,807834,807835,807836,807837,807838,807839}'::integer[]))"
"        Buffers: shared hit=31"
"Planning time: 0.168 ms"
"Execution time: 0.077 ms"

Как заставить планировщик использовать индекс?

polin11
(13.06.20 02:51:10 MSK)

9 комментариев

Форум — General

Сортировка в запросе по массиву

postgresql

Есть массив значений [4,6,5,1] некоторого поля.

Получаем записи со значениями из этого массива. [code] select * from T where Filed1=ANY(ARRAY[4,6,5,1]) [/code]

Вопрос:

Нужно чтобы записи были в том порядке в котором значения в массиве, то есть Запись1 со значением 4 Запись2 со значением 6 Запись3 со значение 5 Запись4 со значением 1

Можно использовать UNION c каждым значением по отдельности

[code] select * from T where Filed1=4 …. union select * from T where Filed1=1 [/code]

Вопрос: Можно ли добиться такой сортировки без использования UNION(UNION ALL), может быть ORDER BY

polin11
(01.05.20 22:35:12 MSK)

2 комментария

Форум — General

GitLab узнать разницу между веткой и тэгом, исключив один коммит

branch, diff, git, gitlab

В GitLab при создании ветки master, создается тэг tag_master. В процессе работы в master сливаются другие ветки, когда нужно узнать какие файлы были изменены в master берем diff между веткой и тэгом, типа

git diff –name-only tag_master

Вопрос: есть одна ветка (any_branch_master состоит из 1 коммита), которую слили в master(она там должна быть). Мне нужно получить diff между master и tag_master, но исключив из списка файлы измененные в any_branch_master, как это сделать?

polin11
(10.02.20 02:51:38 MSK)

3 комментария

Форум — General

Получение набора записей по курсору

postgresql

СУБД Postgresql есть таблица с городами и странами.

CREATE TABLE T (
  id INTEGER,
  town_country VARCHAR (255),
  is_country bool
) ;--DEFAULT CHARSET=utf8 ;

INSERT INTO T
  (id, town_country, is_country)
VALUES
  (1, 'Франция', true),
  (2, 'Германия', true),
  (4, 'Россия',  true),
  (5, 'Канада', true),
  (6, 'Бельгия',  true),
  (7, 'Беларусь', true),
  (8, 'Австралия', true),
  (9, 'Япония', true),
  (10, 'Афины', null),
  (11, 'Брюссель', null),
  (12, 'Барселона', null)

Отсортированный список

SELECT *
FROM T
ORDER BY
 is_country DESC NULLS LAST, 
 town_country ASC NULLS FIRST

Австралия Беларусь Бельгия Германия Канада Россия Франция Япония Афины Брюссель Барселона

Нужно написать несколько запросов, которые возвращают по 5 записей из этого списка. Начиная со 2 запроса, нужно в условие запроса передать последнюю запись, найденную в предыдущем запросе.

Первый запрос без условия:

SELECT *
FROM T
ORDER BY
 is_country DESC NULLS LAST, 
 town_country ASC NULLS FIRST
LIMIT 5

Получаем набор, все ОК:

Австралия Беларусь Бельгия Германия Канада

https://www.db-fiddle.com/f/SpTXQTSprkMr3syfk6DSE/0

Берем последнюю запись - Канада, нужно получить следующие 5 записей, которые находятся в списке под Канадой, например так

Второй запрос:

SELECT *
FROM T
where town_country > 'Канада'
ORDER BY
 is_country DESC NULLS LAST, 
 town_country ASC NULLS FIRST
 LIMIT 5

https://www.db-fiddle.com/f/39cbZdNmr4HzVzsS1mnfxy/0

Проблема: возвращается только 3 записи (Россия, Франция, Япония), из-за использования сортировки is_country DESC NULLS LAST

Третим запросом нужно вернуть одну запись: Барселона

Как правильно написать 2 и 3 запросы, оставив такую сортировку, во 2 запросе нужно использовать последнюю запись из 1 запроса, в 3 запросе нужно использовать последнюю запись из 2 запроса?

polin11
(29.12.19 16:31:07 MSK)

8 комментариев

Форум — General

Заархивировать папку с нужной кодировкой

zip

Создаю архив в Windows os.system(«C:\Program Files\7-Zip\7z.exe» a FILE.zip D:\data*) при извлечении файлов из архива, имена файлов корректно отображаются (предположительно кодировка utf-8).

Решил использовать zip.ZipFile() или shutil.make_archive() при попытке получить имена файлов из архива, они в непонятной кодировке. Вопрос: можно ли при формировании архива через zip.ZipFile() или shutil.make_archive() указать кодировку имен файлов в архиве?

polin11
(12.11.19 20:00:54 MSK)

10 комментариев

Форум — General

Python создать архив под linux

linux, python

Создаю архив в Windows

os.system(«C:\Program Files\7-Zip\7z.exe» a FILE1.zip D:\data*)

Нужно сделать тоже самое под CentOS 7, не хочется устанавливать CentOS 7, правильно ли я понимаю, что нужно по аналогии указать путь до установленного архиватора 7z.exe и путь к каталогу, что-то типа?

os.system(«/home/7-Zip/7z.exe» a FILE1.zip /home/UserName/desktop/data*)

Знатоки linux подскажите пожалуйста

polin11
(06.10.19 05:18:11 MSK)

9 комментариев

Форум — General

Неиспользуемые индексы

index, postgresql

Использую СУБД Postgresql. Есть много запросов, при помощи, которых можно узнать какие индексы не используются: например

SELECT relname, indexrelname, idx_scan
FROM   pg_catalog.pg_stat_user_indexes
WHERE  schemaname = 'public' and idx_scan = 0;

Мне не понятно за какой промежуток времени отображается такая статистика, за все время использования этой БД? Мне было бы интересно узнать эту информацию начиная с определенной даты, например неделю назад я переписал SQL запросы, хочу с этой даты узнать какие индексы перестали использоваться, как это сделать?

polin11
(24.09.19 13:13:58 MSK)

3 комментария

Форум — General

Идентификаторы при вставке записей Postgresql

insert, postgresql

Использую СУБД PostgreSQL, вставляю записи в таблицу Контакты, поле Контакт - поле c id. Вставку делаю записей при помощи PGCOPY. Вставляемые записи являются частью иерархического списка, у каждой записи есть поле Родитель - id родителя. Я получаю массив id вставляемых записей:

SELECT array_agg(nextval(seq)) «arr»

FROM generate_series(1, 10 ), pg_get_serial_sequence(«Контакты», «Контакт») seq

затем заполняю поле Родитель из полученного массива id и через PGCOPY вставляю записи. Все хорошо работает, но если между получением массива id и вставкой записей, будет добавлена левая запись при помощи INSERT, то будет использован id из массива и иерархия нарушится. Вопрос такой: есть ли возможность в PostgreSQL забронировать некоторый диапазон id, то есть я получаю массив id, этот массив бронируется и при последующей вставке через INSERT с автоинкриментом id из этого массива не используются.

polin11
(01.09.19 01:57:26 MSK)

1 комментарий

Форум — General

Работа с массивами данных

sqlite

Субд SQLite. Есть массив строк [ 'one', 'two'], нужно получить элементы, которых нет в таблице, что-то типа такого

with T as(select 'one', 'two')

select * from T

EXCEPT

select field from Table Where field In (select * from T)

но это не работает SELECTs to the left and right of EXCEPT do not have the same number of result columns

polin11
(24.06.19 03:06:00 MSK)

2 комментария

Форум — General

SQL запрос с массивами

postresql, sql, запрос

Использую СУБД postgresql. Помогите написать запрос. Есть 3 массива со значениями 3 полей таблицы A[a1,a2], B[b1,b2], C[c1,c2] соответственно. Есть запрос:

SELECT *
FROM T
WHERE Field1 = a1 AND Field2 = b1 AND Field3 = c1
UNION
SELECT *
FROM T
WHERE Field1 = a2 AND Field2 = b2 AND Field3 = c2

То есть нужно найти все записи, значения полей которых равны наборам из массивов (a[N],b[N],c[N]). Если массивы большие размером, не хочется лепить запрос через UNION, он выполняется долго и размер этого запроса большой. Может быть можно сократить, что-то типа такого

SELECT *
FROM T
WHERE Field1 = ANY(ARRAY[a1,a2,a3]) AND Field2 = ANY(ARRAY[b1,b2,b3]) AND Field3 = ANY(ARRAY[c1,c2,c3])

Но в таком виде запрос работает неверно, возвращает записи в полях которых входит хотя бы одно значение массива из каждого массива.

polin11
(16.06.19 07:20:03 MSK)

5 комментариев

← назад

следующие →

RSS подписка на новые темы