История изменений
Исправление Paka_RD, (текущая версия) :
Решение условия на include «в лоб»:
У таблички include сделать вычисляемый столбик count(1) over() as Q_inc. Сджойнить её с табличкой «теги у фильма», результат сгруппировать и сравнить count и max(Q_inc).
Про скорость:
Написание (питон?) «m.tags & include == include» подразумевает какую механику соединения/сравнения множеств? Просто последовательно ? или с учетом их распределения ?:)
А обрабатываемые данные всегда влезают в ОЗУ?
А обработка этих множеств как будет параллелиться по нодам?
Исправление Paka_RD, :
Решение условия на include «в лоб»:
У таблички include сделать вычисляемый столбик count(1) over() as Q_inc. Сджойнить её с табличкой «теги у фильма», результат сгруппировать и сравнить count и max(Q_inc).
Про скорость:
Написание (питон?) «m.tags & include == include» подразумевает какую механику соединения/сравнения множеств? Просто последовательно ? или с учетом их распределения ?:)
А обрабатываемые данные всегда влезают в ОЗУ?
А обработка этиз множеств как будет параллелиться по нодам?
Исправление Paka_RD, :
Решение условия на include «в лоб»:
У таблички include сделать вычисляемый столбик ‘‘‘sql count(1) over() as Q_inc’’’. Сджойнить её с табличкой «теги у фильма», результат сгруппировать и сравнить count и max(Q_inc).
Про скорость:
Написание (питон?) ‘‘‘python m.tags & include == include"’’’ подразумевает какую механику соединения/сравнения множеств? Просто последовательно ? или с учетом их распределения ?:)
А обрабатываемые данные всегда влезают в ОЗУ?
А обработка этиз множеств как будет параллелиться по нодам?
Исходная версия Paka_RD, :
Решение условия на include «в лоб»:
У таблички include сделать вычисляемый столбик ‘‘‘sqlcount(1) over() as Q_inc’’’. Сджойнить её с табличкой «теги у фильма», результат сгруппировать и сравнить count и max(Q_inc).
Про скорость:
Написание (питон?) ‘‘‘python m.tags & include == include"’’’ подразумевает какую механику соединения/сравнения множеств? Просто последовательно ? или с учетом их распределения ?:)
А обрабатываемые данные всегда влезают в ОЗУ?
А обработка этиз множеств как будет параллелиться по нодам?