есть какой серый ящик для сборки мультипроцессного(чисто для ускорения на обычных ядрах cpu(8-16-32?) cpu-bound - но не ai И не чистая числомолотилка)python-апликаха на gpu (c их мириадами ядер)
ожидания на порядки порядков нет - но если хотябы в 2-3 раза уже хлеб
на входе обычный python разбиваемый на os.cpu_count - подпроцессы досточно автомномны независимого
вот как бы меньшими усилиями очучествить на cuda?