LINUX.ORG.RU
ФорумTalks

Linus и AVX512

 , ,


2

1

I hope AVX512 dies a painful death, and that Intel starts fixing real problems instead of trying to create magic instructions to then create benchmarks that they can look good on.

I hope Intel gets back to basics: gets their process working again, and concentrate more on regular code that isn’t HPC or some other pointless special case.

I’ve said this before, and I’ll say it again: in the heyday of x86, when Intel was laughing all the way to the bank and killing all their competition, absolutely everybody else did better than Intel on FP loads. Intel’s FP performance sucked (relatively speaking), and it matter not one iota.

Because absolutely nobody cares outside of benchmarks.

The same is largely true of AVX512 now - and in the future. Yes, you can find things that care. No, those things don’t sell machines in the big picture.

And AVX512 has real downsides. I’d much rather see that transistor budget used on other things that are much more relevant. Even if it’s still FP math (in the GPU, rather than AVX512). Or just give me more cores (with good single-thread performance, but without the garbage like AVX512) like AMD did.

I want my power limits to be reached with regular integer code, not with some AVX512 power virus that takes away top frequency (because people ended up using it for memcpy!) and takes away cores (because those useless garbage units take up space).

Yes, yes, I’m biased. I absolutely destest FP benchmarks, and I realize other people care deeply. I just think AVX512 is exactly the wrong thing to do. It’s a pet peeve of mine. It’s a prime example of something Intel has done wrong, partly by just increasing the fragmentation of the market.

Stop with the special-case garbage, and make all the core common stuff that everybody cares about run as well as you humanly can. Then do a FPU that is barely good enough on the side, and people will be happy. AVX2 is much more than enough.

Yeah, I’m grumpy.

Linus

https://www.phoronix.com/scan.php?page=news_item&px=Linus-Torvalds-On-AVX-512

★★★★★

Будущее за single chip с GPU 65536 ядрами и CPU с 128 мощными ядрами, а векторизация имеет смысл как раз в GPU, в CPU лучше 4/8 потоков на ядро делать

menangen ★★★★★
()
Ответ на: комментарий от Spoofing

В коментах на форониксе думают, что он просто срывается на AVX512 после того как Intel заставили его переименовывать blacklist и прочую LGBT чушь в ядре, а сам AVX512 норм…

Maybe he’s just venting after having to politically-correct the kernel source all day.

fsb4000 ★★★★★
() автор топика

Linus is a man after my own heart.

crypt ★★★★★
()
Ответ на: комментарий от menangen

лучше 4/8 потоков на ядро делать

Нет, не лучше.

nvidia
()
Ответ на: комментарий от Meyer

Вроде в следующем поколении обещают добавить и в обычную линейку, но хз.

В любом случае, чего-то мне кажется, что если бы Линус не купил себе тредрипер, а эту самую отдельную линейку, не говорил бы он против avx512. И в принципе, некоторые пользователи, ее таки покупают из-за avx512.

praseodim ★★★★★
()
Ответ на: комментарий от One

Для компиляции он кажется действительно не нужен.

praseodim ★★★★★
()
Ответ на: комментарий от One

FP (Floating Point, операции с плавающей точкой) в ядре и его конпеляции не нужен чуть менее, чем полностью

Harald ★★★★★
()
Ответ на: комментарий от Harald

не примут патч и заслуженно заклеймят неадеквашей

t184256 ★★★★★
()
Ответ на: комментарий от t184256

Лять, я надеялся линус им просто покажет палец и выкинет нахрен. когда ж этот sjw-скам сдохнет наконец… с их энергией на рудники надо отправлять, сразу пять норм дадут за день

upcFrost ★★★★★
()
Ответ на: комментарий от Harald

Ты можешь просто начать сидеть на кортах и лузгать семки. Иди сразу до конца. Можно прямо на зону заехать. А чего тянуть?

targitaj ★★★★★
()
Последнее исправление: targitaj (всего исправлений: 1)
Ответ на: комментарий от i-rinat

Насколько понял, единственная весомая причина лепить больше 2потоков в ядро вместо большего числа ядер это манёвры вокруг софта, за который платят по количеству ядер.

nvidia
()
Последнее исправление: nvidia (всего исправлений: 1)

Эх! Мог бы он интелу показать средний палец в ответ на все это безобразие...

anti_win ★★
()
Ответ на: комментарий от fsb4000

В коментах на форониксе думают, что он просто срывается на AVX512

Кто его знает, но это ни фига не новость, что AVX512 приводит к падению частоты из-за перегрева процессора.

atrus ★★★★★
()
Ответ на: комментарий от atrus

Насколько понимаю, это не только для AVX512 так, чем «шире» инструкции, тем на той же частоте больше ток, а значит нагрев. Хасвелы перегревались в avx при разгоне, потому в broadwell-e и kaby lake ввели avx offset.

nvidia
()
Ответ на: комментарий от nvidia

Я просто читал жалобы на тему мол проще вообще не пользоваться avx512, т.к. с ним задача вычисляется медленнее. Падение частоты превышает выгоду от более широких инструкций...

atrus ★★★★★
()
Ответ на: комментарий от i-rinat

На моих задачах, прирост 5-10% процентов. Измерял отключая SMT в биосе.

Читал что геймеры тоже вырубают SMT. Мол ФПС стабильнее, так как игра использует только реальные ядра, а не что попало.

RazrFalcon ★★★★★
()
Ответ на: комментарий от One

А нахрена, простите )

Очевидно, чтобы PQ-синдромы на захардкоженный 4кб-субстрайп считать всего за 8 итераций.

А ещё у Интела есть IOAT, который в некоторых версиях PQ сам считает.

mv ★★★★★
()
Ответ на: комментарий от mv

Очевидно, чтобы PQ-синдромы на захардкоженный 4кб-субстрайп

что это и где применяется?

Harald ★★★★★
()

В то время как конкуретны (в лице той-же apple) встраивают аппаратное ускорение для обработки нейронных сетей, Intel всеми силами пытается не отставать. Не факт что действуют правильными мерами, возможно некий отдельно-стоящий «NPU» (Neuron Processing Module, некий такой специализированный GPU) был бы более подходящим решением. Но так или иначе - потребность массовая в массовых параллельных вычислениях есть и немалая, и не только в корпоративном секторе – нейронные сети скоро будут в каждом чайнике

qrck ★★
()
Ответ на: комментарий от One

Это при компиляции ядра нужно?

Разве что, компиляция на RAID-5/6 идёт ;)

mv ★★★★★
()
Ответ на: комментарий от qrck

нейронные сети скоро будут в каждом чайнике

У Интела целая Альтера с потрохами купленная. Могли бы уже давно сделать проц с мелким FPGA, который программируется хоть из Питона. Но нет же…

mv ★★★★★
()
Ответ на: комментарий от mv

FPGA это не совсем вот панацея для нейронных сетей. Все быстрые вичисления на FPGA обычно выполняют на DSP ядрах, что бывают десятками встроенны в FPGA как раз для этих целей. А если делать умножители / сумматоры из fabric-а (т.е. из обычных логических ячеек) - это работает медленно, и fabric очень быстро заканчивается когда хочется много параллельных быстрых вычислений. В этом смысле специализированное устройство будет в разы быстрее и что важно - энерго-эффективнее. Где я работаю мы используем Xilinx UltraScale+ для неких задач - карты с этими FPGA жрут так, что мама не горюй. Я разговаривал с нашими FPGA разработчиками, они говорят что если ту-же логику сделать на ASIC - оно будет работать от чуть ли не от AA батарейки.

qrck ★★
()
Ответ на: комментарий от qrck

При чём здесь нейронные сети? Нейронные сети вообще в пропускную способности памяти упрутся, хоть на процах, хоть на GPU, хоть на FPGA.

Я тоже лет десять назад работал в конторе, которая на FPGA (топовые Стратиксы) делала фид-хэндлеры для HFT. Утюгами не были. Xeon’ы вот утюгами были, и за железками нашими не поспевали.

Игрался дома с Zynq, ну очень приятно иметь кучу гейтов, только руку из CPU протяни.

mv ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.