А вот как Интель добивается «превосходства» в некоторых программах

2

2

На Реддите выложили рецепты, как отучить Matlab проверять производителя процессора. Это позволяет задействовать на AMD весь набор инструкций типа SSE и AVX, что поднимает производительность до 3 раз. «Искаропки» же Matlab использует на не-Интеловских процессорах только SSE1

Ссылка

←	Роскомнадзор предложил создать единый счетчик интернет-аудитории.

ZFS roadmap

→

Даже из-под виртуалки на ARMе? Ужас какой.

tiinn ★★★★★
(18.11.19 18:24:09 MSK)

Ссылка

Аххахахах)

kekelia
(18.11.19 18:28:19 MSK)

Ссылка

Так кто виноват-то? Intel или разработчики Matlab?

~~Korchevatel~~ ★★★★★
(18.11.19 18:28:51 MSK)

что поднимает производительность до 3 раз

А 2+2 при этом будет равно 4?

no-such-file ★★★★★
(18.11.19 18:34:29 MSK)

Ответ на: комментарий от no-such-file 18.11.19 18:34:29 MSK

Сказано же, до 3 раз.

Если процессор мощный, может и аж 12 выдать.

karton1 ★★★★★
(18.11.19 18:37:02 MSK)

Ответ на: комментарий от karton1 18.11.19 18:37:02 MSK

Я понимаю, что в военное время синус может равняться чему угодно. Вопрос в том, можно ли доверять получаемым результатам вычислений?

no-such-file ★★★★★
(18.11.19 18:38:24 MSK)

Ответ на: комментарий от no-such-file 18.11.19 18:38:24 MSK

Если без шуток, то хороший вопрос. Мб там округление менее точным до этого было на AMD и тд.

karton1 ★★★★★
(18.11.19 18:39:33 MSK)

у меня дежавю, было же что-то похожее с интеловским компилятором

WerNA ★★★★★
(18.11.19 19:01:38 MSK)

Ответ на: комментарий от karton1 18.11.19 18:39:33 MSK

Векторизация ошибок не добавит, просто циклы будут быстрее выполняться и всё, не знаю конечно как внутри Матлаба это организовано. Может просто тестиили на интеловских процах и решили не рисковать? А вот OpenMP на криво распараллеленном коде запросто может показывать разные результаты на разных процах, сам недавно наблюдал когда забыл переменным атрибут private указать. На старом коре2дуо в два потока тестил и не заметил ошибки, а разница в результате вылезла на 4 потоках у 4790K ну и ессно на дуал Xeon с 28 ядрами.

WerNA ★★★★★
(18.11.19 19:08:46 MSK)
Последнее исправление: WerNA 18.11.19 19:09:03 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от no-such-file 18.11.19 18:34:29 MSK

Для тебя - будет рыбой.

targitaj ★★★★★
(18.11.19 19:09:22 MSK)

Ссылка

«Как отучить Matlab» звучит так, как будто Matlab специально дискриминирует процессоры AMD. Но дискриминацией занимается MKL, а не Matlab.

seiken ★★★★★
(18.11.19 19:33:24 MSK)

Ссылка

«Искаропки» же Matlab использует на не-Интеловских процессорах только SSE1

Типичная, продажная проприетарь. Даже не удивлён.

С другой стороны, гугловская либа Skia работает почти в 3 раза быстрее, если собрана через clang, а не gcc. Так что спасенья нет.

~~RazrFalcon~~ ★★★★★
(18.11.19 19:36:05 MSK)

Ответ на: комментарий от WerNA 18.11.19 19:01:38 MSK

у меня дежавю, было же что-то похожее с интеловским компилятором

seiken

как будто Matlab специально дискриминирует процессоры AMD. Но дискриминацией занимается MKL

Я конечно все понимаю, но почему проприетарные продукты интел должны быть оптимизированы под чужие процессоры? Интел содержит программистов вкладывает в разработку софта деньги, амд то почему все это должен бесплатно получать.

uin ★★★
(18.11.19 21:16:15 MSK)

Ответ на: комментарий от uin 18.11.19 21:16:15 MSK

Я конечно все понимаю, но почему проприетарные продукты интел должны быть оптимизированы под чужие процессоры?

А про это и речи не идет, пусть под свои процессоры оптимизируют как хотят. Но в данном случае под остальные процессоры создается заведомо медленный код, не смотря на то что они могут спокойно выполнять оптимизированный код.

V1KT0P ★★
(18.11.19 21:24:43 MSK)

Ответ на: комментарий от uin 18.11.19 21:16:15 MSK

Я конечно все понимаю, но почему проприетарные продукты интел должны быть оптимизированы под чужие процессоры?

Абсолютно не обязаны. Если бы я работал на интел, я бы даже специально так имплементил, чтобы на АМД тормозило побольше. Другое дело, что матлабовцы могли бы все эти настройки из статьи сами в своих дистрибутивах применить. Но вобщем, они тоже по большому счету не обязаны. Ради оптимизации для маргинальных процессоров может и не быть ресурсов.

seiken ★★★★★
(18.11.19 21:28:57 MSK)

Ответ на: комментарий от seiken 18.11.19 21:28:57 MSK

Если бы я работал на интел, я бы даже специально так имплементил, чтобы на АМД тормозило побольше.

Пссс… по слухам, в Н. Новгороде и Новосибе с кадрами как-то не очень хорошо обращаются.

DarkAmateur ★★★★
(18.11.19 23:12:57 MSK)

Ссылка

Ответ на: комментарий от seiken 18.11.19 21:28:57 MSK

Если бы я работал на интел, я бы даже специально так имплементил, чтобы на АМД тормозило побольше.

если это докажут в суде, то тебе крышка

~~stevejobs~~ ★★★★☆
(18.11.19 23:23:58 MSK)

Ссылка

Это позволяет задействовать на AMD весь набор инструкций типа SSE и AVX, что поднимает производительность до 3 раз.

Лол.

Как-то я не замечал, надо обратить внимание и попробовать.

~~curufinwe~~ ★★★★★
(18.11.19 23:24:01 MSK)

Ссылка

Ответ на: комментарий от V1KT0P 18.11.19 21:24:43 MSK

Но в данном случае под остальные процессоры создается заведомо медленный код

Там просто не задействуется автовекторизация насколько я понимаю. Это ведь не такая простая оптимизация как инлайнинг какой нибудь, это ведь надо хитро цикл расплести на независимые операнды, и тут такие амд/виа «мы векторных регистров натыркали, нам тожа здэлай давай па братски, красыва»

uin ★★★
(18.11.19 23:42:38 MSK)

проприетарный софт нас необманет

~~takino~~ ★★★★★
(18.11.19 23:43:12 MSK)

Ссылка

Ответ на: комментарий от uin 18.11.19 23:42:38 MSK

Там просто не задействуется автовекторизация

На сколько мне известно, это фишка компилятора.

DarkAmateur ★★★★
(18.11.19 23:44:14 MSK)

Ответ на: комментарий от DarkAmateur 18.11.19 23:44:14 MSK

Ну а компилятор интеловский.

uin ★★★
(18.11.19 23:45:24 MSK)

Ответ на: комментарий от uin 18.11.19 23:45:24 MSK

А результат бинарный.

DarkAmateur ★★★★
(18.11.19 23:46:03 MSK)

Ответ на: комментарий от DarkAmateur 18.11.19 23:46:03 MSK

Ну так и? Говори сразу к чему клонишь.

uin ★★★
(18.11.19 23:47:47 MSK)

Ответ на: комментарий от uin 18.11.19 23:47:47 MSK

Машинный код либо попадает в систему команд, либо нет. В данном случае речь идёт о том, что попадает и медвежья услуга со стороны Интеля не нужна. От неё достаточно фразы «на AMD даже не тестировали и не запускали, всё на Ваш страх и риск.» Всё.

DarkAmateur ★★★★
(18.11.19 23:52:00 MSK)

Ответ на: комментарий от uin 18.11.19 23:47:47 MSK

Вообще, генерить говно под non-Intel интеловскими компилерами — отдельный цирк.

DarkAmateur ★★★★
(18.11.19 23:55:59 MSK)

Ссылка

Ответ на: комментарий от DarkAmateur 18.11.19 23:52:00 MSK

медвежья услуга со стороны Интеля не нужна

Ну так он ее и не оказывает - «вектаризуйте, мол руками»

Вообще, генерить говно под non-Intel интеловскими компилерами — отдельный цирк.

Вообще у них там на североамериканских западах с давних времен вот это вот все практикуется, вон хоть на эпл тот же посмотреть.

uin ★★★
(19.11.19 00:04:13 MSK)
Последнее исправление: uin 19.11.19 00:04:32 MSK (всего исправлений: 1)

Ссылка

Наброшу здесь.

https://www.securitylab.ru/news/498543.php

Deleted
(19.11.19 09:43:48 MSK)
Последнее исправление: Deleted 19.11.19 09:44:47 MSK (всего исправлений: 2)

Ответ на: комментарий от Deleted 19.11.19 09:43:48 MSK

набрось для начала галочку лоркода в настройках своего профиля.

deep-purple ★★★★★
(19.11.19 09:48:20 MSK)

Ответ на: комментарий от deep-purple 19.11.19 09:48:20 MSK

Наброшу Лень-матушка.

Deleted
(19.11.19 09:55:02 MSK)

Ссылка

Ответ на: комментарий от Korchevatel 18.11.19 18:28:51 MSK

Никто. Картельный сговор.

Deleted
(19.11.19 12:35:25 MSK)

Ссылка

Ответ на: комментарий от RazrFalcon 18.11.19 19:36:05 MSK

гугловская либа Skia работает почти в 3 раза быстрее, если собрана через clang, а не gcc

можно пруф?

Kompilainenn ★★★★★
(19.11.19 16:00:35 MSK)

Ответ на: комментарий от RazrFalcon 18.11.19 19:36:05 MSK

С другой стороны, гугловская либа Skia работает почти в 3 раза быстрее, если собрана через clang, а не gcc. Так что спасенья нет.

Хром получается выгоднее clang-ом собирать? :)

Впрочем неудивительно, они сейчас даже на Android не пользуются GCC. Даже для сборки ядра.

В моих личных тестах кстати clang с -mllvm -polly обходит GCC -fgraphite-identity.

~~a1batross~~ ★★★★★
(19.11.19 16:22:24 MSK)
Последнее исправление: a1batross 19.11.19 16:23:58 MSK (всего исправлений: 1)

Ответ на: комментарий от Kompilainenn 19.11.19 16:00:35 MSK

https://skia.org/user/build#performance

Ну и я сам тестировал - реально медленнее.

~~RazrFalcon~~ ★★★★★
(19.11.19 22:20:44 MSK)

Ответ на: комментарий от a1batross 19.11.19 16:22:24 MSK

Хром получается выгоднее clang-ом собирать?

Хром вообще хитрый фрукт. Как я его (хромиум) не собирал на генту - он всегда медленнее бинарника. Возможно нужно повозится и собрать через clang.

С другой стороны у лисы есть lto и pgo use-флаги, и она с ними на 30-40% быстрее.

~~RazrFalcon~~ ★★★★★
(19.11.19 22:24:20 MSK)

Ссылка

Ответ на: комментарий от RazrFalcon 19.11.19 22:20:44 MSK

«gcc не виноват, просто мы решили оптимизировать под шланг»

INFOMAN ★★★★★
(20.11.19 13:02:58 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Роскомнадзор предложил создать единый счетчик интернет-аудитории.

Talks

ZFS roadmap

→

Похожие темы