Оптимизация умножения матриц

0

1

Допустим мне надо посчитать Y = A X, где A небольшая (до 30х30) не разрежённая матрица. A известна на этапе компиляции, X целые, скажем по 14 бит. Также Y можно знать не совсем точно. Есть ли какой нибудь способ преобразовать матрицу A таким образом, чтобы сократить количество умножений/сложений для заданной точности Y, которая задается при компиляции?

Ссылка

←	Как добавить свои фичи в пакет

+1 реализация CL

→

Если все числа целые, можно попробовать реализовать умножение матриц на шаблонах.

dmfd ★
(05.03.13 11:04:14 MSK)

Ответ на: комментарий от dmfd 05.03.13 11:04:14 MSK

Это делается так: "переменные" засовываются в enum'ы и non-type parameters, c помощью частичной специализации можно устроить некое подобие pattern-matching'а. Циклы делаются с помощью рекурсии.

dmfd ★
(05.03.13 11:08:59 MSK)

Ссылка

Ну или кодогенерация.

dmfd ★
(05.03.13 11:12:47 MSK)

Ответ на: комментарий от dmfd 05.03.13 11:12:47 MSK

Элементы A не целые. Кодогенерация естественно. Вопрос был не в этом.

ebantrop ★
(05.03.13 11:33:15 MSK) автор топика

нет

nokachi ★
(05.03.13 11:39:35 MSK)

Ответ на: комментарий от nokachi 05.03.13 11:39:35 MSK

Это можно доказать?

ebantrop ★
(05.03.13 11:48:17 MSK) автор топика

можно преобразовать A в треугольник (или как там оно по научному) до компиляции.

MKuznetsov ★★★★★
(05.03.13 11:49:39 MSK)

Ответ на: комментарий от ebantrop 05.03.13 11:33:15 MSK

Вопрос в том, можно ли что-то выкинуть, например? В общем случае, когда про вектор совсем ничего не известно — нет.

dmfd ★
(05.03.13 11:51:54 MSK)

Ответ на: комментарий от MKuznetsov 05.03.13 11:49:39 MSK

можно преобразовать A в треугольник

Э... и как это по научному, когда треугольная матрица ведет себя близко к полной?

ebantrop ★
(05.03.13 12:11:24 MSK) автор топика

Ответ на: комментарий от ebantrop 05.03.13 11:48:17 MSK

а что тут доказывать? yi = sum aij xj, xj любые

nokachi ★
(05.03.13 12:11:43 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 05.03.13 11:49:39 MSK

тогда и икс надо на соответствующую матрицу домножить, свели задачу к исходной

nokachi ★
(05.03.13 12:12:50 MSK)

Ответ на: комментарий от ebantrop 05.03.13 12:11:24 MSK

хоть сформулируй четко чего ты хочешь. Что значит «ведет себя»?

nokachi ★
(05.03.13 12:14:14 MSK)

Ссылка

Ответ на: комментарий от dmfd 05.03.13 11:51:54 MSK

Вопрос в том, можно ли что-то выкинуть, например?

Именно. Что типа разложения матрицы в ряд, которое бы выделило главные компоненты (ох, какую, право, антинаучную херню я несу).

В общем случае, когда про вектор совсем ничего не известно — нет.

Целые числа от 0 до 2^14.

ebantrop ★
(05.03.13 12:15:56 MSK) автор топика

Ответ на: комментарий от ebantrop 05.03.13 12:15:56 MSK

которое бы выделило главные компоненты

Таких нѣтъ. Представь, что у тебя вектор из нулей, а одна компонента 100500. Какой бы матрица не была, эта компонента вектора всегда даст "главный" вклад.

dmfd ★
(05.03.13 12:20:24 MSK)

Ссылка

Есть ли какой нибудь способ... небольшая (до 30х30) не разрежённая матрица

Нет, ибо: факторизация полезна только для разреженных матриц, а алгоритм Штрассена имеет преимущество при размерах > 64x64.

quickquest ★★★★★
(05.03.13 12:27:15 MSK)

Ссылка

Ответ на: комментарий от ebantrop 05.03.13 12:15:56 MSK

Если умножать только один раз, то дешевле просто взять и умножить. А вот если много — то действительно лучше найти собственный вектор и упростить матрицу.

~~Eddy_Em~~ ☆☆☆☆☆
(05.03.13 12:29:21 MSK)

Ответ на: комментарий от Eddy_Em 05.03.13 12:29:21 MSK

А как это для умножения-то поможет, что-то до меня не доходит. Если матрицу привести в собственный базис, то и вектор придётся туда-обратно переводить.

dmfd ★
(05.03.13 12:34:40 MSK)

Ответ на: комментарий от nokachi 05.03.13 12:12:50 MSK

тогда и икс надо на соответствующую матрицу домножить

нафига ? A и полученная из неё треугольная R, эквивалентны. RX считается мягко говоря быстрее чем AX.

MKuznetsov ★★★★★
(05.03.13 12:37:03 MSK)

Ответ на: комментарий от dmfd 05.03.13 12:34:40 MSK

А, хрен его знает: вдруг упростится матрица? А то и вообще к диагональному (ну или хотя бы треугольному) виду приведется?

// шучу. Тупость сморозил.

~~Eddy_Em~~ ☆☆☆☆☆
(05.03.13 12:37:42 MSK)

Ответ на: комментарий от Eddy_Em 05.03.13 12:37:42 MSK

А то и вообще к диагональному виду приведется?

Если все собственные вектора линейно независимы, то в базисе из них матрица будет именно диагональной. Но вектор придётся приводить в этот базис и обратно двумя умножениями на матрицы. Не весело это.

dmfd ★
(05.03.13 12:51:16 MSK)

Ответ на: комментарий от dmfd 05.03.13 12:51:16 MSK

Ты не понял: если умножений на одну и ту же матрицу 100500 штук, то если ты ее приведешь к диагональному виду, ускоришь минимум в одну-полторы степени размера матрицы!

~~Eddy_Em~~ ☆☆☆☆☆
(05.03.13 12:53:27 MSK)

Ответ на: комментарий от Eddy_Em 05.03.13 12:53:27 MSK

Только вектор перед этим тоже надо будет перевести в соответствующий базис, а результат потом вертать взад.

Gvidon ★★★★
(05.03.13 12:59:05 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 05.03.13 12:53:27 MSK

Ну, если вообще все вычисления в этот базис удастся перевести, то да.

dmfd ★
(05.03.13 12:59:17 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 05.03.13 12:53:27 MSK

Кстати, не любую матрицу можно привести к диагональному виду. ЕМНИП, самый простой вид, к которому можно свести любую матрицу, - это нормальная жорданова форма

Gvidon ★★★★
(05.03.13 13:15:00 MSK)

Ссылка

30*30*14 = 12килобайт. На нормальном проце в кеш врезет. Главное X транспонируй перед умножением, всё летать будет.

Профилирование делал? Проблемы именно в этом умножении?

~~nanoolinux~~ ★★★★
(05.03.13 15:50:10 MSK)

Алгоритм Штрассена

anonymous
(05.03.13 15:52:31 MSK)

Ссылка

Большая ли матрица X? Или может быть 30х10000?

Waterlaz ★★★★★
(05.03.13 16:25:52 MSK)

Ссылка

Ответ на: комментарий от MKuznetsov 05.03.13 11:49:39 MSK

В два «треугольника». LU-разложение называется.

anonymous
(05.03.13 17:49:35 MSK)

Ответ на: комментарий от MKuznetsov 05.03.13 12:37:03 MSK

A и полученная из неё треугольная R, эквивалентны. RX считается мягко говоря быстрее чем AX.

Ересь. Если Rx=Ax для любых x, то R=A.

Manhunt ★★★★★
(05.03.13 18:55:16 MSK)

Ответ на: комментарий от nanoolinux 05.03.13 15:50:10 MSK

30*30*14 = 12килобайт. На нормальном проце в кеш врезет. Главное X транспонируй перед умножением, всё летать будет.

+1. Я бы тоже сосредоточился на эффективном использовании кэшей и, если нужна экстремальная скорость, на SSE. А вот и годная статейка про кэши и умножение матриц: http://www.akkadia.org/drepper/cpumemory.pdf

Manhunt ★★★★★
(05.03.13 19:31:12 MSK)

Ссылка

Да, походу общего рецепта нет. А жаль. Для больших матриц много чего придумали, для маленьких придется делать по-честному.

ebantrop ★
(05.03.13 19:56:47 MSK) автор топика

Ссылка

Ответ на: комментарий от nanoolinux 05.03.13 15:50:10 MSK

30*30*14 = 12килобайт.

Недавно, помню, тут был разговор на тему, а зачем 64 бита, если на самом деле приложению доступно только 48. Рассуждать можно долго, но всё равно должно быть кратно 8-ми: 30*30*16=14КБ. Ещё в кэш должен влезть сам вектор.

gag ★★★★★
(05.03.13 20:28:45 MSK)

Ссылка

Ответ на: комментарий от anonymous 05.03.13 17:49:35 MSK

В два «треугольника». LU-разложение называется.

количество операций останется прежним.

~~dikiy~~ ★★☆☆☆
(08.03.13 00:29:02 MSK)

Ссылка

Ответ на: комментарий от Manhunt 05.03.13 18:55:16 MSK

A и полученная из неё треугольная R, эквивалентны. RX считается мягко говоря быстрее чем AX.

Ересь. Если Rx=Ax для любых x, то R=A.

только если det(R)!=0

~~dikiy~~ ★★☆☆☆
(08.03.13 00:29:58 MSK)

SSE, наверное. И всякие операции скалярных произведений на потоки разбивать. Только не слушай активистов со Штрассеном, на 30*30 разницы не заметишь. А числа - примитивные типы или какой-то библиотеки? Если библиотека, то в ней уже должны быть оптимизированные операции.

cdshines ★★★★★
(08.03.13 00:39:55 MSK)

Ответ на: комментарий от dikiy 08.03.13 00:29:58 MSK

только если det(R)!=0

Пример в студию.

Manhunt ★★★★★
(08.03.13 01:28:23 MSK)

Ответ на: комментарий от Manhunt 08.03.13 01:28:23 MSK

не будет примера. Я не заметил слов «для любых x» :)

~~dikiy~~ ★★☆☆☆
(08.03.13 02:19:34 MSK)

Ссылка

Ответ на: комментарий от cdshines 08.03.13 00:39:55 MSK

Это все понятно. Я знаю про MKL, OpenBLAS (бывший GotoBLAS) и Atlas. Вопрос был в том можно ли так исхитриться что бы считать не все, а только часть для известной ошибки результата.

ebantrop ★
(08.03.13 02:39:09 MSK) автор топика

Ответ на: комментарий от ebantrop 08.03.13 02:39:09 MSK

можно попробовать следующий прикол:

есть такая штука, как разложение Ивасавы. То есть мы разлагаем матрицу на произведение A=ODL, где O - это ортоногальная матрица, D - диагональная и L - треугольная.

тогда мы имеем O^{-1} Y = DLX. правую часть посчитать очевдно быстрее можно, ибо DL - треугольная матрица.

Y надо получать тогда с помощью решения системы линейных уравнений. вот тут и можешь развернуться. Хотя я не думаю, что ты как-то ускоришь это дело. так как у тебя не одна система уравнений, а несколько их (сколько столбцов в матрице Y).

~~dikiy~~ ★★☆☆☆
(08.03.13 02:49:54 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Как добавить свои фичи в пакет

Development

+1 реализация CL

→

Похожие темы