Чо за проблемы с AVX-512?

0

2

Привет! Мне тут короче понадобилось двумерную карту флоатов в картинку, по заданной палитре, преобразовать. Если че, это видеостриминг в реалтайме.

Ну я недолго думая привинтил SSE, потом еще подумал, и прикрутил FMA3 инструкции, для более лучшей интерполяции, и для перевода сразу в YUV(линейное преобразование, умножение матрицы на вектор, то сё).

Потом еще подумал, а что это я только по 4 точки прохожу? Вобщем можно и по 8 если AVX. А то и по 16 если AVX-512.

Но тут почитал, что AVX, и особенно AVX-512 делают какую-то черную магию с процессорами, при излишнем использовании. Типа ядра замедляют или чето такое. Поясните че как? Стоит туда жать?

Ссылка

← Фронтенд-разработчик должен ещё и разбираться в мобильной разработке?

перехватывать mount событие →

AVX очень «горячие» инструкции, из-за чего проц нехило сбрасывает частоты при их использовании.

Deleted
(03.05.19 07:16:13 MSK)

Ответ на: комментарий от Deleted 03.05.19 07:16:13 MSK

Это как и зачем? Электричество чтоли за меня экономят?

lovesan ★★☆
(03.05.19 07:18:27 MSK) автор топика

Ответ на: комментарий от lovesan 03.05.19 07:18:27 MSK

Чтобы проц не расплавился

Deleted
(03.05.19 07:20:07 MSK)

Ответ на: комментарий от Deleted 03.05.19 07:20:07 MSK

А смысл вообще есть их использовать тогда? Если один хер частота сбивается

lovesan ★★☆
(03.05.19 07:21:51 MSK) автор топика

Ответ на: комментарий от lovesan 03.05.19 07:21:51 MSK

Вот возьми померяй, потом нам расскажешь, есть ли смысл

Deleted
(03.05.19 07:22:27 MSK)

Ссылка

Ответ на: комментарий от Deleted 03.05.19 07:16:13 MSK

Проблема в процессорах-кипятильниках, а не инструкциях.

anonymous
(03.05.19 07:22:53 MSK)

Ответ на: комментарий от anonymous 03.05.19 07:22:53 MSK

Тебе известны процессоры, которые не сбрасывают частоты на AVX?

Deleted
(03.05.19 07:23:55 MSK)

Не слушай никого

~~deadplace~~ ★
(03.05.19 09:00:12 MSK)

Ссылка

ЕМНИП, на многих процах есть пенальти, если с них переходишь опять на legacy SSE. А всякую чушь про «сброс частот» не слушай вообще

~~deadplace~~ ★
(03.05.19 09:01:37 MSK)

Ссылка

Вопрос лавсану и другим. Можно ли с помощью с помощью шланга работать с 3-х или 4-х векторами из синглов по типу как это сделано в OpenCL? Типа иметь функции select, min, max, итд., умножать, складывать вектора. Чтобы это всё компилялось в эффективный код

~~deadplace~~ ★
(03.05.19 09:10:18 MSK)

Ответ на: комментарий от deadplace 03.05.19 09:10:18 MSK

#include <xmmintrin.h> // SSE
#include <emmintrin.h> // AVX, FMA, etc
#include <zmmintrin.h> // AVX-512

lovesan ★★☆
(03.05.19 09:13:44 MSK) автор топика

Ответ на: комментарий от lovesan 03.05.19 09:13:44 MSK

Это слишком низкоуровневая фигня. Сейчас мне приходится для некоторых функций иметь 2 варианта — с SSE-шнягой из этих хедеров и «обычный», где я работаю с массивами. А хотелось бы более кроссплатформенно и высокоуровнево. Чтобы если на машине нет SIMD-инструкций компилялся «обычный» код, если есть — SIMD

~~deadplace~~ ★
(03.05.19 09:20:33 MSK)

Кстати, а почему ты не дал сорс своего чтива, а то похоже на обычный вброс

~~deadplace~~ ★
(03.05.19 09:33:22 MSK)

Ссылка

Ответ на: комментарий от deadplace 03.05.19 09:20:33 MSK

Так для высокоуровневости все умеют правильно написанные циклы против массививов в векторизированные инструкции переделывать и жаба, и шланг.

Aber ★★★★★
(03.05.19 09:34:42 MSK)

Ответ на: комментарий от Aber 03.05.19 09:34:42 MSK

Э, нет. Цикл по флоатам в векторизированные инструкции точно не переделается. Вот по целым — пожалуйста. А сложение/вычитание/умножение флоатов — не ассоциативная операция, так что увы. Разве что с -ffast-math

А вообще меня больше привлекают такие штуки как blendvps. Избавляет код от кучи ветвлений

~~deadplace~~ ★
(03.05.19 09:39:04 MSK)

Интересное чтиво про смешение AVX и SSE, даже когда ты ничего не мешал

https://stackoverflow.com/questions/41303780/why-is-this-sse-code-6-times-slo...

За 2 года уже пофиксили, наверно

~~deadplace~~ ★
(03.05.19 09:53:58 MSK)

Нет никакой магии, только тупой троттлинг. В худшем случае прироста нет.

anonymous
(03.05.19 10:50:31 MSK)

Ссылка

Ответ на: комментарий от Deleted 03.05.19 07:23:55 MSK

Амуде. Там прироста от авх нет, потому и нагрева нет, много ходов очка.

anonymous
(03.05.19 10:51:44 MSK)

Чего-то кроссплатформенного нет пока что, так как ещё не завезли simd в Стандарт

anonymous
(03.05.19 14:41:05 MSK)

Ссылка

Ответ на: Интересное чтиво про смешение AVX и SSE, даже когда ты ничего не мешал от deadplace 03.05.19 09:53:58 MSK

в gcc вроде как пофиксили

Ford_Focus ★★★★★
(03.05.19 16:15:45 MSK)

Ссылка

Но тут почитал, что AVX, и особенно AVX-512 делают какую-то черную магию с процессорами, при излишнем использовании

никакой черной магии, просто повышенный нагрев от использования

однако в серверных интулях, скорее всего, это не страшно, сильно страдает только десктоп оверклокеров

Ford_Focus ★★★★★
(03.05.19 16:24:13 MSK)

Ссылка

Ответ на: комментарий от deadplace 03.05.19 09:39:04 MSK

А сложение/вычитание/умножение флоатов — не ассоциативная операция, так что увы. Разве что с -ffast-math

Не знал, век живи — век учись.

Aber ★★★★★
(03.05.19 16:26:30 MSK)

Ссылка

Ответ на: комментарий от anonymous 03.05.19 10:51:44 MSK

а прироста нет, потому что 256битных FPU нет, со времён бульдозера там 2 блока по 128бит.

Однако, в ZEN2 исправят это досадное упущение

в целом же да, если код пишется не под определённую железку, лучше использовать SSE.

Ford_Focus ★★★★★
(03.05.19 16:32:41 MSK)

Ссылка

На каких-то моделях использование AVX влечет за собой троттлинг всех ядер сразу. Но серверных среди них вроде бы нету.

Deleted
(03.05.19 21:57:45 MSK)

Ссылка

Почему систему тестируют (при разгоне) с помощью LinX avx? Поэтому, ага.

targitaj ★★★★★
(03.05.19 21:59:25 MSK)

Ссылка

Ответ на: комментарий от deadplace 03.05.19 09:20:33 MSK

https://docs.opencv.org/4.1.0/df/d91/group__core__hal__intrin.html

yoghurt ★★★★★
(04.05.19 12:28:13 MSK)

Ссылка

Ответ на: комментарий от deadplace 03.05.19 09:20:33 MSK

Это слишком низкоуровневая фигня. Сейчас мне приходится для некоторых функций иметь 2 варианта — с SSE-шнягой из этих хедеров и «обычный», где я работаю с массивами. А хотелось бы более кроссплатформенно и высокоуровнево. Чтобы если на машине нет SIMD-инструкций компилялся «обычный» код, если есть — SIMD

У GCC есть vector extension, который поддерживается также и в clang. https://gcc.gnu.org/onlinedocs/gcc/Vector-Extensions.html https://clang.llvm.org/docs/LanguageExtensions.html#vector-literals. Но это не годится т.к. этот vector extension опять-таки работает далеко не на всех платформах, и надо будет мутить какие-то костыли с ифдефами

Интеловский компилятор ICC этого не поддерживает. Интели изобретали какой-то свой особый Intel® Cilk™ Plus https://habr.com/ru/company/intel/blog/204838/, однако из GCC его в итоге выпилили https://www.phoronix.com/scan.php?page=news_item&px=Cilk-Plus-GCC-Dropping

В Clang этот cilk никогда вроде бы и не поддерживался официально, http://cilk.mit.edu/download/ https://cilkplus.github.io/ вот что-то нагуглилось, там патченный LLVM используют.

Про всякие вижуалстудии и прочие проприетарные компиляторы ничего сказать не могу. Стандартного решения вроде как нет

SZT ★★★★★
(05.05.19 18:07:28 MSK)
Последнее исправление: SZT 05.05.19 18:10:40 MSK (всего исправлений: 1)

Ответ на: комментарий от SZT 05.05.19 18:07:28 MSK

Хотя не, вру. ICC это расширение поддерживает https://godbolt.org/z/g8Ccb7. И тот же GCC может это под всякие ARM компилировать. Но это все завязано на гнутое расширение, так что переносимым это не назовешь.

SZT ★★★★★
(05.05.19 18:22:05 MSK)

Ответ на: комментарий от SZT 05.05.19 18:22:05 MSK

#pragma omp simd еще есть

SZT ★★★★★
(05.05.19 20:01:20 MSK)

Ссылка

https://blog.cloudflare.com/on-the-dangers-of-intels-frequency-scaling/

anonymous
(06.05.19 19:14:41 MSK)

Ссылка

жми туда, если проц умеет - значит нужно использовать. у интелей на блок с avx отдельные частоты со своим множителем (если я не ошибаюсь). инструкции да, греют камень. но он на то и нужен, чтобы греться и молоть числа.

SevikL ★★★★★
(06.05.19 19:20:22 MSK)

Ссылка

Ответ на: комментарий от SZT 05.05.19 18:07:28 MSK

Спасибо. Остановлюсь я на ext_vector_type с небольшой обвязочкой

~~deadplace~~ ★
(09.05.19 22:15:38 MSK)

Ответ на: комментарий от deadplace 09.05.19 22:15:38 MSK

Для Clang надо ext_vector_type а для GCC vector_size. Вот пример: https://stackoverflow.com/a/48538557

Вообще, можно ограничиться атрибутом vector_size - его и Clang и GCC и даже ICC понимает. А вот ext_vector_type понятен только для Clang. Можешь на godbolt потестить.

SZT ★★★★★
(11.05.19 16:02:50 MSK)