LINUX.ORG.RU

Ответ на: комментарий от i-rinat

В х86 до сих пор два бэкэнда для fp операций. Старый х87 с стеком fp регистров st0-7 на 80 бит каждый, поверх которых кстати раньше sse1 работал. И новый sse2/avx/avx512 c xmm/ymm/zmm0-15 на 128/256/512 бит.

Для режима long mode (оно же х64) всегда доступно sse2, поэтому для float32/64 компиляторы не заморачиваются и пихают их xmm. Вместо fadd будет addps даже когда нет вектора, ибо так быстрее.

geks
()
Ответ на: комментарий от geks

Старый х87 с стеком fp регистров st0-7 на 80 бит каждый, поверх которых кстати раньше sse1 работал.

Ты запамятовал, наверное. Поверх регистров сопроцессора работал MMX, mmx регистры ломали значения регистров FPU. SSE уже оперировал xmm регистрами, в отдельном регистровом файле. SSE2 добавил операций поверх тех же регистров.

Но я не про это писал, а про то, что для 32- и 64-битных операций с плавающей точкой используются разные схемы. Из двух 32-битных умножалок сложновато сэмулировать одну 64-битную. Поэтому не факт, что производительность в float'ах будет такая же, как и в double'ах.

i-rinat ★★★★★
()
Ответ на: комментарий от templarrr

Это как непродающиеся материнки с 2+ слотами под память.

CaveRat ★★
()
Ответ на: комментарий от templarrr

Это значит что 15 нм у Интела чисто маркетинговые и никак не влияют на тепловыделение и производительность.

DNA_Seq ★★☆☆☆
()
Ответ на: комментарий от geks

Вместо fadd будет addps даже когда нет вектора, ибо так быстрее.

Насчёт быстрее есть некоторые сомнения. Было бы интересно увидеть прямое сравнение.

Тут ещё важно, что стековый x87 позволяет довольно длинную цепочку вычислений сделать прямо на стеке. Эту возможность вообще мало кто использует.

anonymous_incognito ★★★★★
()
Последнее исправление: anonymous_incognito (всего исправлений: 1)
Ответ на: комментарий от geks

Для режима long mode (оно же х64) всегда доступно sse2, поэтому для float32/64 компиляторы не заморачиваются и пихают их xmm

Нет, не поэтому. Потому что в режиме x64 fpu не доступен вообще.

lenin386 ★★★★
()
Ответ на: комментарий от lenin386

Потому что в режиме x64 fpu не доступен вообще.

Доступно там всё.

Но винда 64-битная не сохраняет FPU стек при переключениях задач. В Linux вроде бы это зависит от параметра ядра при компиляции.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от greenman

Не в прошлом, смотри мой предыдущий пост, но его использование в 64-битном режиме может быть затруднено.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от lenin386

в режиме x64 fpu не доступен вообще.

Что ты несёшь?

i-rinat ★★★★★
()
Ответ на: комментарий от DNA_Seq

15 нм у Интела чисто маркетинговые

Есть более простое объяснение: AMD слукавило, заявив что впихнуло вдвое больше ядер в аналогичный теплопакет.

aidaho ★★★★★
()
Ответ на: комментарий от DNA_Seq

Ага, никак не влияют. Всего лишь дают стабильный разгон >5 ГГц с майонезом под крышкой, когда Sandy Bridge ЕМНИП с припоем такие частоты не брали.

templarrr ★★★★★
()
Ответ на: комментарий от templarrr

А, вроде говорят, что в Райзенах припой используется.

Deleted
()
Ответ на: комментарий от lenin386

Ты сейчас говоришь какую-то дичь.

Теории заговора, ага...

mandala ★★★★★
()

Не прошло и полгода, как амудедети забыли историю с самыми лучшими наногазмановыми rx4xx. Которые тоже по предварительным сливам были лудше всех, а на деле со снулей.

svr4
()
Ответ на: комментарий от templarrr

Местами да. Кор2дуо это римейк пентиума2, в который с каждым новым ядром становится все больше пентиума4. Как раз к 5-7му поколению и должен был остаться чистый пентиум4

DNA_Seq ★★☆☆☆
()
Последнее исправление: DNA_Seq (всего исправлений: 1)
Ответ на: комментарий от i-rinat

Но я не про это писал, а про то, что для 32- и 64-битных операций с плавающей точкой используются разные схемы. Из двух 32-битных умножалок сложновато сэмулировать одну 64-битную. Поэтому не факт, что производительность в float'ах будет такая же, как и в double'ах.

Порт alu один. По latency/throughput вектор float будет считаться столько же сколько double.

geks
()
Ответ на: комментарий от geks

Порт alu один. По latency/throughput вектор float будет считаться столько же сколько double.

Это настолько расплывчатое утверждение, что с ним можно спорить до бесконечности.

i-rinat ★★★★★
()
Ответ на: комментарий от DNA_Seq

а что там кукурузного у броадвелов? вроде нормальные 14нм..

Thero ★★★★★
()
Ответ на: комментарий от RazrFalcon

почему слишком хорошо? ничего фантастического в рязани нет всё закономерно и по плану.

Thero ★★★★★
()
Ответ на: комментарий от grem

в принципе одно и тоже теперь должно быть.. да и амдспецифичные инструкции из рязани всёравно выпилили..

Thero ★★★★★
()
Ответ на: комментарий от DNA_Seq

в который с каждым новым ядром становится все больше пентиума4. Как раз к 5-7му поколению и должен был остаться чистый пентиум4

Ты хоть сам понял что ляпнул?

templarrr ★★★★★
()
Ответ на: комментарий от templarrr

Майнить битки на амдпечках уже давно нельзя (примерно с тех пор как списали VLIW4 и VLIW5).

А для игор они внезапно подходят хуже, чем хуанг.

svr4
()
Ответ на: комментарий от templarrr

говорят что amd не может использовать что-то кроме припоя потому что у них кристаллы не могут разогреваться до 110 градусов без последствий в отличие от интела.. но это экстраполяция. скальпирования ждём.

Thero ★★★★★
()
Ответ на: комментарий от templarrr

Ну тащемта, фишка 4-пней типа D940 с ядерным TDP была в том, что трудно найти мать, способную дуть в хилый 775 сокет такую кучу питания.

В остальном - вполне адекватные для своих лет процы.

В 2011 проблем с питанием уже не было, так что 8 ядер/16 потоков/20 метров кэша вполне себе спокойно там жужжали.

svr4
()
Ответ на: комментарий от svr4

У меня FX с 125W TPD, с повышенным напряжением и разогнан. Только суперкулеры вроде Noctua позволяют с этим справляться и не шуметь. Водяное охлаждение не хочу ставить.

Добавлю, что он всё время загружен полностью, ибо BOINC.

anonymous00 ★★
()
Последнее исправление: anonymous00 (всего исправлений: 1)
Ответ на: комментарий от anonymous00

Упоминаемый цулермастер под 2011 - такая же башня как и эти ваши школоклокерские нохчи.

И да

FX

Сколько не разгоняй четвертопень (хоть до 5ггц под азотом), быстрее современных процов он не станет. Как и кукуруза.

svr4
()

Я теперь понял весь смысл слова «кукаретик».

Deleted
()
Ответ на: комментарий от Thero

То есть, если долго компилить гентушку, процессор заточится под компилянье гентушки? Вот это прикол, конечно, если правда.

Deleted
()
Ответ на: комментарий от Thero

Высокоточная настройка с шагом 25 МГц.

Какой-то большой шаг, если учесть, что у меня на старом Sandy Bridge частоты прыгают по считанным мегагерцам.

Deleted
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.