XOR через AVX на C

1

1

Всем здравия! В Сях не бум бум вообще, прошу у вас помощи :)

Есть большая переменная на 128 байт для примера (по факту 128MB, но не суть). Нужно каждые её 8 байт XORить со следующими. И желательно с помощью AVX.

uint8_t A[128];
uint64_t X[128/8];
for (int i = 0; i < 128/8; i++)
{
     X[i] = X[i] ^ (uint64_t*)&A[i];
}

Если надо не uint64_t, а другое типа uint256_t (на тип есть библиотека), то будет так?

uint8_t A[128];
uint256_t X[128/32];
for (int i = 0; i < 128/32; i++)
{
     X[i] = X[i] ^ (uint256_t*)&A[i];
}

Как я понимаю этот код будет правильно работать? Можно это сделать через инструкции AVX? Будет быстрее, чем простой xor ^? Указатели, звездочки и амперсанды для меня тёмный лес:) не ругайте строго, просто надо с этим кодом разобраться.

Ссылка

← Tkinter - не пойму в какой момент виджет был размещен в окне

Команда выводящяя общее начало пути к нескольким директориям/файлам →

А не пробовал не мудрить, написать в лоб, указать компилятору правильные флаги и пусть автовекторизатор сам за тебя все делает?

t184256 ★★★★★
(06.04.23 22:35:11 MSK)

uint256_t

Так C или C++?

dataman ★★★★★
(06.04.23 22:56:13 MSK)

Ответ на: комментарий от dataman 06.04.23 22:56:13 MSK

В чем разница в этой задаче?:) C++

NotWin
(06.04.23 23:04:04 MSK) автор топика

На всякий, справочник по интринсикам. На зеркало, потому что интел - тридварасы. Про выравнивание не забываем, иначе толку ноль.

И да, соглашусь с предыдущим: автовекторизатор компилятора вообще никак? Даже если с опциям/прагмами поиграться?

SkyMaverick ★★★★★
(06.04.23 23:04:23 MSK)

Ответ на: комментарий от t184256 06.04.23 22:35:11 MSK

Это как))

NotWin
(06.04.23 23:04:56 MSK) автор топика

Ссылка

Ответ на: комментарий от NotWin 06.04.23 23:04:04 MSK

Потому что для C++ этих библиотек на любой вкус оптимизаций.

dataman ★★★★★
(06.04.23 23:12:50 MSK)

Ссылка

Ответ на: комментарий от SkyMaverick 06.04.23 23:04:23 MSK

Погуглил про автовекторизатор, завтра попробую. Выравнивать как нужно? А чем разница posix_memalign или char attribute aligned?

NotWin
(06.04.23 23:19:06 MSK) автор топика

Ответ на: комментарий от NotWin 06.04.23 23:19:06 MSK

А чем разница posix_memalign или char attribute aligned?

Первое - для динамических аллокаций (проще говоря, malloc c выравниванием). Второе - атрибут выравнивания для типов.

SkyMaverick ★★★★★
(06.04.23 23:32:51 MSK)
Последнее исправление: SkyMaverick 06.04.23 23:33:15 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от t184256 06.04.23 22:35:11 MSK

Указал опции «-Ofast -mfpmath=sse -funroll-loops -fno-inline -fipa-pta -march=broadwell -msse»

После оптимизации алгоритм стал работать на 20% быстрее. Почти как без XOR. Притом на выходе результат одинаковый. Хорошая вещь - автовекторизатор.

Единственно были сомнения, что после оптимизации компилятор выкинет часть кода или сделает по-своему. Но нет, результат одинаков :) Было такое на STM32, чуть ядерную ракету не запустилась сама после оптимизации…:)

NotWin
(07.04.23 13:33:34 MSK) автор топика

Ответ на: комментарий от NotWin 07.04.23 13:33:34 MSK

Обычно хватает -ftree-vectorize и сборки под 3 архитектуры:

-msse4.2 для старья;
-march=haswell -mavx2 для middle class;
-march=skylake-avx512 для high end.

snizovtsev ★★★★★
(08.04.23 04:03:20 MSK)
Последнее исправление: snizovtsev 08.04.23 04:03:54 MSK (всего исправлений: 1)

Ответ на: комментарий от snizovtsev 08.04.23 04:03:20 MSK

Начиная с GCC 11 и Clang 12 можно можно указывать microarchitecture levels чтобы не было тюнинга под конкретную микроархитектуру, а только общий под доступные расширения.

-march=x86-64-v2
-march=x86-64-v3
-march=x86-64-v4

numas13 ★
(08.04.23 08:07:00 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Tkinter - не пойму в какой момент виджет был размещен в окне

Development

Команда выводящяя общее начало пути к нескольким директориям/файлам →

Похожие темы