Linus и AVX512

2

1

I hope AVX512 dies a painful death, and that Intel starts fixing real problems instead of trying to create magic instructions to then create benchmarks that they can look good on.

I hope Intel gets back to basics: gets their process working again, and concentrate more on regular code that isn’t HPC or some other pointless special case.

I’ve said this before, and I’ll say it again: in the heyday of x86, when Intel was laughing all the way to the bank and killing all their competition, absolutely everybody else did better than Intel on FP loads. Intel’s FP performance sucked (relatively speaking), and it matter not one iota.

Because absolutely nobody cares outside of benchmarks.

The same is largely true of AVX512 now - and in the future. Yes, you can find things that care. No, those things don’t sell machines in the big picture.

And AVX512 has real downsides. I’d much rather see that transistor budget used on other things that are much more relevant. Even if it’s still FP math (in the GPU, rather than AVX512). Or just give me more cores (with good single-thread performance, but without the garbage like AVX512) like AMD did.

I want my power limits to be reached with regular integer code, not with some AVX512 power virus that takes away top frequency (because people ended up using it for memcpy!) and takes away cores (because those useless garbage units take up space).

Yes, yes, I’m biased. I absolutely destest FP benchmarks, and I realize other people care deeply. I just think AVX512 is exactly the wrong thing to do. It’s a pet peeve of mine. It’s a prime example of something Intel has done wrong, partly by just increasing the fragmentation of the market.

Stop with the special-case garbage, and make all the core common stuff that everybody cares about run as well as you humanly can. Then do a FPU that is barely good enough on the side, and people will be happy. AVX2 is much more than enough.

Yeah, I’m grumpy.

Linus

https://www.phoronix.com/scan.php?page=news_item&px=Linus-Torvalds-On-AVX-512

Ссылка

← Таки intel нагнул.

Proxmox Backup Server Beta, таперича со вкусом Rust →

Краткий пересказ текста: https://www.youtube.com/watch?v=1IAwkEdRZZw

~~Spoofing~~ ★★★★★
(12.07.20 04:00:23 MSK)

Будущее за single chip с GPU 65536 ядрами и CPU с 128 мощными ядрами, а векторизация имеет смысл как раз в GPU, в CPU лучше 4/8 потоков на ядро делать

menangen ★★★★★
(12.07.20 04:36:26 MSK)

Ответ на: комментарий от Spoofing 12.07.20 04:00:23 MSK

На видео дебил какой-то.

i-rinat ★★★★★
(12.07.20 04:36:27 MSK)

Ответ на: комментарий от Spoofing 12.07.20 04:00:23 MSK

В коментах на форониксе думают, что он просто срывается на AVX512 после того как Intel заставили его переименовывать blacklist и прочую LGBT чушь в ядре, а сам AVX512 норм…

Maybe he’s just venting after having to politically-correct the kernel source all day.

fsb4000 ★★★★★
(12.07.20 04:40:15 MSK) автор топика

Linus is a man after my own heart.

~~crypt~~ ★★★★★
(12.07.20 06:56:33 MSK)

Ссылка

независимый график, подтверждающий слова Линуса:

https://lh3.googleusercontent.com/zLc80NE-JM775VNdN4-ROs2S9X7fUmtKCKRNzyw9p1Y...

~~crypt~~ ★★★★★
(12.07.20 07:28:05 MSK)

Ссылка

Ответ на: комментарий от i-rinat 12.07.20 04:36:27 MSK

На видео дебил какой-то.

Тут подробнее:

https://www.youtube.com/watch?v=6UC50jFo5kY

~~EXL~~ ★★★★★
(12.07.20 08:26:09 MSK)

Ссылка

Ответ на: комментарий от menangen 12.07.20 04:36:26 MSK

лучше 4/8 потоков на ядро делать

Нет, не лучше.

~~nvidia~~ ★
(12.07.20 09:56:07 MSK)

Ссылка

Просто на тредрипере Линуса нет инструкции AVX512

praseodim ★★★★★
(12.07.20 10:33:21 MSK)

Ответ на: комментарий от praseodim 12.07.20 10:33:21 MSK

А где оно есть, кроме отдельной линейки зионов?

Meyer ★★★★★
(12.07.20 11:21:11 MSK)

Ответ на: комментарий от Meyer 12.07.20 11:21:11 MSK

Вроде в следующем поколении обещают добавить и в обычную линейку, но хз.

В любом случае, чего-то мне кажется, что если бы Линус не купил себе тредрипер, а эту самую отдельную линейку, не говорил бы он против avx512. И в принципе, некоторые пользователи, ее таки покупают из-за avx512.

praseodim ★★★★★
(12.07.20 11:24:19 MSK)

Ответ на: комментарий от praseodim 12.07.20 11:24:19 MSK

А зачем ему для компиляции avx512? Ему как раз FP нужен.

~~One~~ ★★★★★
(12.07.20 11:32:21 MSK)

Ответ на: комментарий от One 12.07.20 11:32:21 MSK

Для компиляции он кажется действительно не нужен.

praseodim ★★★★★
(12.07.20 11:44:27 MSK)

Ссылка

Там ещё интересное обсуждение, https://www.realworldtech.com/forum/?threadid=193189&curpostid=193214

Valeg ★★★
(12.07.20 14:38:10 MSK)

Ссылка

Ответ на: комментарий от menangen 12.07.20 04:36:26 MSK

в CPU лучше 4/8 потоков на ядро делать

Кому лучше? У меня 8/16 и мне мало.

~~RazrFalcon~~ ★★★★★
(12.07.20 15:06:27 MSK)

Ответ на: комментарий от fsb4000 12.07.20 04:40:15 MSK

после того как Intel заставили его переименовывать blacklist и прочую LGBT чушь в ядре

Не прошло же вроде?

upcFrost ★★★★★
(12.07.20 15:17:03 MSK)

Лол, в ядре кто-то юзал AVX512 и его не распяли?

t184256 ★★★★★
(12.07.20 15:21:31 MSK)

Ответ на: комментарий от upcFrost 12.07.20 15:17:03 MSK

Красных и зеленых синие не продавили, а остальное прошло.

t184256 ★★★★★
(12.07.20 15:22:54 MSK)

Ответ на: комментарий от One 12.07.20 11:32:21 MSK

FP (Floating Point, операции с плавающей точкой) в ядре и его конпеляции не нужен чуть менее, чем полностью

Harald ★★★★★
(12.07.20 15:27:19 MSK)

Ссылка

Ответ на: комментарий от t184256 12.07.20 15:22:54 MSK

а если я буду «black overlord/white cuckold» в терминологии использовать, что будет?

Harald ★★★★★
(12.07.20 15:29:40 MSK)

Ответ на: комментарий от Harald 12.07.20 15:29:40 MSK

не примут патч и заслуженно заклеймят неадеквашей

t184256 ★★★★★
(12.07.20 15:30:42 MSK)

Ссылка

Ответ на: комментарий от t184256 12.07.20 15:22:54 MSK

Лять, я надеялся линус им просто покажет палец и выкинет нахрен. когда ж этот sjw-скам сдохнет наконец… с их энергией на рудники надо отправлять, сразу пять норм дадут за день

upcFrost ★★★★★
(12.07.20 15:39:10 MSK)

Ссылка

Ответ на: комментарий от t184256 12.07.20 15:21:31 MSK

https://elixir.bootlin.com/linux/v5.8-rc4/C/ident/kernel_fpu_begin

~~nvidia~~ ★
(12.07.20 15:50:08 MSK)

Ответ на: комментарий от Harald 12.07.20 15:29:40 MSK

Ты можешь просто начать сидеть на кортах и лузгать семки. Иди сразу до конца. Можно прямо на зону заехать. А чего тянуть?

targitaj ★★★★★
(12.07.20 15:59:12 MSK)
Последнее исправление: targitaj 12.07.20 15:59:35 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от nvidia 12.07.20 15:50:08 MSK

lib/raid6/avx512.c

А нахрена, простите )

~~One~~ ★★★★★
(12.07.20 16:00:42 MSK)

Ответ на: комментарий от RazrFalcon 12.07.20 15:06:27 MSK

4/8 потоков на ядро

У меня 8/16

У тебя SMT2, а он писал про SMT4 или SMT8.

i-rinat ★★★★★
(12.07.20 19:36:24 MSK)

Ответ на: комментарий от i-rinat 12.07.20 19:36:24 MSK

Да, затупил. Но это ещё хуже. Даже от SMT2 толку ноль.

~~RazrFalcon~~ ★★★★★
(12.07.20 19:58:08 MSK)

Ответ на: комментарий от RazrFalcon 12.07.20 19:58:08 MSK

IBM заявляла, что на Db2 на больших нагрузках SMT8 даёт на 30% больше попугаев, чем SMT4.

i-rinat ★★★★★
(12.07.20 20:16:37 MSK)

Ответ на: комментарий от i-rinat 12.07.20 20:16:37 MSK

Насколько понял, единственная весомая причина лепить больше 2потоков в ядро вместо большего числа ядер это манёвры вокруг софта, за который платят по количеству ядер.

~~nvidia~~ ★
(12.07.20 20:28:54 MSK)
Последнее исправление: nvidia 12.07.20 20:30:17 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Spoofing 12.07.20 04:00:23 MSK

ПОКАЖИ ТКНИ.

~~a1batross~~ ★★★★★
(12.07.20 20:30:30 MSK)

Ссылка

Ответ на: комментарий от i-rinat 12.07.20 04:36:27 MSK

Но видео легендарное

mittorn ★★★★★
(12.07.20 20:33:38 MSK)

Ссылка

Эх! Мог бы он интелу показать средний палец в ответ на все это безобразие...

~~anti_win~~ ★★
(12.07.20 20:37:05 MSK)

Ссылка

Ответ на: комментарий от fsb4000 12.07.20 04:40:15 MSK

В коментах на форониксе думают, что он просто срывается на AVX512

Кто его знает, но это ни фига не новость, что AVX512 приводит к падению частоты из-за перегрева процессора.

atrus ★★★★★
(12.07.20 22:23:31 MSK)

Ответ на: комментарий от atrus 12.07.20 22:23:31 MSK

Насколько понимаю, это не только для AVX512 так, чем «шире» инструкции, тем на той же частоте больше ток, а значит нагрев. Хасвелы перегревались в avx при разгоне, потому в broadwell-e и kaby lake ввели avx offset.

~~nvidia~~ ★
(12.07.20 22:40:04 MSK)

Ответ на: комментарий от i-rinat 12.07.20 04:36:27 MSK

Это классика!

TheAnonymous ★★★★★
(13.07.20 12:43:51 MSK)

Ссылка

Ответ на: комментарий от nvidia 12.07.20 22:40:04 MSK

Я просто читал жалобы на тему мол проще вообще не пользоваться avx512, т.к. с ним задача вычисляется медленнее. Падение частоты превышает выгоду от более широких инструкций...

atrus ★★★★★
(13.07.20 14:57:39 MSK)

Ссылка

Ответ на: комментарий от i-rinat 12.07.20 20:16:37 MSK

На моих задачах, прирост 5-10% процентов. Измерял отключая SMT в биосе.

Читал что геймеры тоже вырубают SMT. Мол ФПС стабильнее, так как игра использует только реальные ядра, а не что попало.

~~RazrFalcon~~ ★★★★★
(13.07.20 16:43:15 MSK)

Ссылка

Ответ на: комментарий от One 12.07.20 16:00:42 MSK

А нахрена, простите )

Очевидно, чтобы PQ-синдромы на захардкоженный 4кб-субстрайп считать всего за 8 итераций.

А ещё у Интела есть IOAT, который в некоторых версиях PQ сам считает.

mv ★★★★★
(14.07.20 04:01:35 MSK)

Ответ на: комментарий от mv 14.07.20 04:01:35 MSK

Очевидно, чтобы PQ-синдромы на захардкоженный 4кб-субстрайп

что это и где применяется?

Harald ★★★★★
(14.07.20 04:03:37 MSK)

Ссылка

Ответ на: комментарий от mv 14.07.20 04:01:35 MSK

Это при компиляции ядра нужно?

~~One~~ ★★★★★
(14.07.20 08:43:42 MSK)

В то время как конкуретны (в лице той-же apple) встраивают аппаратное ускорение для обработки нейронных сетей, Intel всеми силами пытается не отставать. Не факт что действуют правильными мерами, возможно некий отдельно-стоящий «NPU» (Neuron Processing Module, некий такой специализированный GPU) был бы более подходящим решением. Но так или иначе - потребность массовая в массовых параллельных вычислениях есть и немалая, и не только в корпоративном секторе – нейронные сети скоро будут в каждом чайнике

~~qrck~~ ★★
(14.07.20 19:06:03 MSK)

Ответ на: комментарий от One 14.07.20 08:43:42 MSK

Это при компиляции ядра нужно?

Разве что, компиляция на RAID-5/6 идёт ;)

mv ★★★★★
(15.07.20 08:09:11 MSK)

Ссылка

Ответ на: комментарий от qrck 14.07.20 19:06:03 MSK

нейронные сети скоро будут в каждом чайнике

У Интела целая Альтера с потрохами купленная. Могли бы уже давно сделать проц с мелким FPGA, который программируется хоть из Питона. Но нет же…

mv ★★★★★
(15.07.20 08:10:57 MSK)

Ответ на: комментарий от mv 15.07.20 08:10:57 MSK

FPGA это не совсем вот панацея для нейронных сетей. Все быстрые вичисления на FPGA обычно выполняют на DSP ядрах, что бывают десятками встроенны в FPGA как раз для этих целей. А если делать умножители / сумматоры из fabric-а (т.е. из обычных логических ячеек) - это работает медленно, и fabric очень быстро заканчивается когда хочется много параллельных быстрых вычислений. В этом смысле специализированное устройство будет в разы быстрее и что важно - энерго-эффективнее. Где я работаю мы используем Xilinx UltraScale+ для неких задач - карты с этими FPGA жрут так, что мама не горюй. Я разговаривал с нашими FPGA разработчиками, они говорят что если ту-же логику сделать на ASIC - оно будет работать от чуть ли не от AA батарейки.

~~qrck~~ ★★
(15.07.20 13:04:26 MSK)

Ответ на: комментарий от qrck 15.07.20 13:04:26 MSK

При чём здесь нейронные сети? Нейронные сети вообще в пропускную способности памяти упрутся, хоть на процах, хоть на GPU, хоть на FPGA.

Я тоже лет десять назад работал в конторе, которая на FPGA (топовые Стратиксы) делала фид-хэндлеры для HFT. Утюгами не были. Xeon’ы вот утюгами были, и за железками нашими не поспевали.

Игрался дома с Zynq, ну очень приятно иметь кучу гейтов, только руку из CPU протяни.

mv ★★★★★
(15.07.20 17:11:34 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Таки intel нагнул.

Talks

Proxmox Backup Server Beta, таперича со вкусом Rust →

Похожие темы