Тесты Intel Linpack

0

1

Почему-то никак не могу найти сравнение производительности процессоров в тесте Intel Linpack. Определённые результаты замеров для решения системы из 10000 уравнений можно найти nix, просматривая данные по каждому процессору отдельно, но почему-то для core i5-4590 и i7-4790K схожий с их результатом я получаю только при нагрузке на 2 ядра из 4-х, а при загрузке на 4 ядра он заметно выше, но для core i3-550 у меня результат такой же как и у них (для 2-х ядер). Поэтому непонятно, насколько можно доверять другим данным, особенно для процессоров AMD серии FX-83y0.

Может кто-нибудь поделиться тестами для AMD FX-83y0 при следующих настройках в файле lininput_xeon64 (для бинарника с сайта, без своих опций сборки. со своими тоже приветствуется, но лучше в сравнении с теми, что в собранном бинарнике):

Sample Intel(R) Optimized LINPACK Benchmark data file (lininput_xeon64)
Intel(R) Optimized LINPACK Benchmark data
2 # number of tests
10000 20000 # problem sizes
10000 20000 # leading dimensions
4 4   # times to run a test
4 4   # alignment values (in KBytes)

Желательно убедиться, что нагружаются все 8 ядер. Заранее спасибо.

Ссылка

← Для развития нашего iT нужно 10⁶ программистов, заявил министр связи Николай Никифоров

Странные люди →

~~kep~~, как обладатель нового i5-6600, можешь поделиться результатами данного теста при указанных настройках?

grem ★★★★★
(15.01.16 16:27:19 MSK) автор топика

Ссылка

Во-первых, есть разные линпаки, без AVX, с AVX, с AVX2. Они дают разные результаты.
Во-вторых, у модульных ЦП от АМД на один модуль один FPU. То есть, 4 FPU на 4-х модульный процессор.
Что с чем ты собрался сравнивать?

targitaj ★★★★★
(15.01.16 16:30:37 MSK)
Последнее исправление: targitaj 15.01.16 16:31:07 MSK (всего исправлений: 1)

Вот нафига гонять эти тесты, если можно тупо посчитать теоретическую производительность. Ну даст тебе тест 70-80% от этого значения, ну и? Я ещё могу понять товарищей оверклокеров, они хоть проверяют стабильность работы системы, а простому смертному эти тесты нафиг не уперлись.

no-such-file ★★★★★
(15.01.16 16:44:53 MSK)

Ответ на: комментарий от targitaj 15.01.16 16:30:37 MSK

Во-первых, есть разные линпаки, без AVX, с AVX, с AVX2. Они дают разные результаты.

Я дал ссылку на конкретный бинарник на сайте Intel, пусть для него и указано «Intel Optimized LINPACK Benchmark». Отдельных исполняемых файлов для использования/неиспользования данных оптимизаций я не заметил (вижу xlinpack_xeon64 c файлом для запуска lininput_xeon64 или в виндоус linpack_xeon64.exe/runme_xeon64.bat). Очевидно, что для AMD FX нет смысла смотреть тест с AVX2. Если у кого есть возможность продемонстрировать отличия с/без AVX, то будет только лучше.

Во-вторых

Хочу посмотреть как обстоят дела для данного теста, потому, что пока даже сравнивать нечего. Сколько FPU на модуль пока не так интересно, просто хочется знать что получится.

grem ★★★★★
(15.01.16 16:45:10 MSK) автор топика

Может кто-нибудь поделиться тестами для AMD FX-83y0

Под виндой:
В среднем 82-85 гигафлопс на 4ГГц.
Для A10-7850k@4000 - 45-48 на тех же 4ГГц.

Под онтопиком проверять как-то не доводилось.

devl547 ★★★★★
(15.01.16 16:47:26 MSK)
Последнее исправление: devl547 15.01.16 16:48:13 MSK (всего исправлений: 2)

Ответ на: комментарий от no-such-file 15.01.16 16:44:53 MSK

Вот нафига гонять эти тесты

Потому, что

LINPACK — программная библиотека, написанная на языке Фортран, которая содержит набор подпрограмм для анализа и решения плотных систем линейных алгебраических уравнений (с) wiki

!решения плотных систем линейных алгебраических уравнений

Оверклокеры этим тестом обычно температуру измеряют и энергопотребление, то есть явно не то, для чего benchmark предназначен.

Да, ещё, как вариант, есть LAPACK benchmark, но мне его собирать лень. Опять же непонятно где искать данные для сравнения производительности. Да, оба бенчмарка не идеальны и не дают представления об общей производительности для всех сценариев и использования всех оптимизаций, но речь не об этом.

grem ★★★★★
(15.01.16 16:49:32 MSK) автор топика

Ответ на: комментарий от grem 15.01.16 16:45:10 MSK

Может лучше сразу сходить сюда, например? Вообще, как выше правильно сам же заметил, линпаком тупо тестируют на стабильность. Гоняют его много, но цифры результата приводят где и как попало. В основном - скриншотами. Потому что они особо никому не интересны. Это тупо средство тестирования на стабильность.

targitaj ★★★★★
(15.01.16 16:50:22 MSK)
Последнее исправление: targitaj 15.01.16 16:52:42 MSK (всего исправлений: 1)

Ответ на: комментарий от devl547 15.01.16 16:47:26 MSK

Кстати, а давай прогоним. У меня сейчас есть включенные два kaveri - на ноуте и десктопный. FX-8350 пока в дауне.

targitaj ★★★★★
(15.01.16 16:51:35 MSK)

Ответ на: комментарий от devl547 15.01.16 16:47:26 MSK

Под онтопиком проверять как-то не доводилось

Спасибо, хоть и не fx, но лучше, чем ничего. Для моего i3 разница в онтопик-оффтопик была незначительна.

Для 10000 и 20000 уравнений приблизительно одинаковые значения выдал?

grem ★★★★★
(15.01.16 16:53:08 MSK) автор топика

Ответ на: комментарий от grem 15.01.16 16:53:08 MSK

Я ж написал)
83хх на 4ггц - 82-85

devl547 ★★★★★
(15.01.16 16:54:06 MSK)

Ссылка

Ответ на: комментарий от targitaj 15.01.16 16:51:35 MSK

Через пару часов дома буду - можем прогнать.

devl547 ★★★★★
(15.01.16 16:55:21 MSK)

Ответ на: комментарий от grem 15.01.16 16:49:32 MSK

Оверклокеры этим тестом обычно температуру измеряют и энергопотребление

Это школоклокеры какие-то. Нормальные люди проверяют не скидывает ли проц частоту под долгой нагрузкой и держит ли система питание, т.е. получается ли расчётная производительность или где-то есть просадка.

no-such-file ★★★★★
(15.01.16 16:57:13 MSK)

Ссылка

Ответ на: комментарий от devl547 15.01.16 16:55:21 MSK

Собственно, у меня был затык тупо с запуском. В смысле, мне было тупо лень разбираться с его приготовлением (((((( Тебе на жаббер мылить можно или как связаться?

targitaj ★★★★★
(15.01.16 16:59:31 MSK)

Ссылка

Ответ на: комментарий от devl547 15.01.16 16:47:26 MSK

В среднем 82-85 гигафлопс на 4ГГц

Теоретический максимум 4*4*8=128, у A10 соответственно 64. Вангую, что на 8300 можно выжать чуток побольше, хотя бы 90-95.

no-such-file ★★★★★
(15.01.16 17:03:11 MSK)

Ответ на: комментарий от targitaj 15.01.16 16:50:22 MSK

Меня linpack ещё интересует и потому, что слов о том, что у fx всё плохо c FPU много, а внятных тестов (не факт, что этот внятный) найти тоже не удаётся. Само собой, что разделение одного блока FPU на модуль из двух ядер прыти не прибавляет, но непонятно насколько всё плохо на текущий момент. Производительность «мультимедия», которую часто приводят в обзорах, пока не интересна. Linpack хоть как-то приближен к «оценке» производительности в области научных расчётов, а доступа к последним AMD у меня нет, поэтому и оценить насколько они пригодны в этой сфере я не могу.

результата приводят где и как попало

За ссылку спасибо, вспомнил, что она мне попадалась ранее. Результаты там действительно приводят как попало и для разных начальных данных, а они могут заметно отличаться.

grem ★★★★★
(15.01.16 17:10:17 MSK) автор топика

Ответ на: комментарий от no-such-file 15.01.16 17:03:11 MSK

Amd говорит о теоретическом пике в 120 с учётом зависимостей по данным.

Реально на платах от gigabyte выжимали сотню, но там есть свои нюансы, например топовые асусы так не могут.
Плюс чипсет 890 показывает выше результаты, чем последний 990.

devl547 ★★★★★
(15.01.16 17:12:01 MSK)

Ссылка

Ответ на: комментарий от no-such-file 15.01.16 17:03:11 MSK

Теоретический максимум 4*4*8=128

4 гГГц на 8 ядер? а вторая 4-ка что такое? 4 операции на каждом ядре?

grem ★★★★★
(15.01.16 17:12:30 MSK) автор топика
Последнее исправление: grem 15.01.16 17:14:03 MSK (всего исправлений: 1)

Ответ на: комментарий от targitaj 15.01.16 16:50:22 MSK

http://forums.overclockers.ru/viewtopic.php?f=16&t=547887

devl547 ★★★★★
(15.01.16 17:18:32 MSK)

Не раньше понедельника, он работе стоит.

~~kep~~
(15.01.16 17:19:29 MSK)

Ответ на: комментарий от grem 15.01.16 17:12:30 MSK

4 ГГц, 4 fpu, 8 dp flops каждое.

devl547 ★★★★★
(15.01.16 17:19:47 MSK)

Ссылка

Ответ на: комментарий от grem 15.01.16 17:10:17 MSK

Меня linpack ещё интересует и потому, что слов о том, что у fx всё плохо c FPU много

под 100к на 4-х модулях FX-83x0
за 200к на 4-х ядрах skylake
Вопрос в том где, чем и для чего FPU используется. Кроме игр, научных расчетов и системы обработки звука/графики. СУБД используют? веб-сервера? qemu/kvm?

targitaj ★★★★★
(15.01.16 17:20:28 MSK)

Ответ на: комментарий от devl547 15.01.16 17:18:32 MSK

я имел ввиду «приготовить под linux». Под вендой-то проблем погонять не было.

targitaj ★★★★★
(15.01.16 17:22:37 MSK)

Ответ на: комментарий от kep 15.01.16 17:19:29 MSK

Не раньше понедельника, он работе стоит.

GNU-Ubuntu1204LTS, возможно, сможет быстрее предоставить.

~~kep~~
(15.01.16 17:26:29 MSK)

Ссылка

Ответ на: комментарий от targitaj 15.01.16 17:22:37 MSK

Под Linux сейчас надо по хорошему возиться с очередной версией мат.либ от amd.
У меня все руки не доходят(

devl547 ★★★★★
(15.01.16 17:28:09 MSK)

Ссылка

Можешь объяснить, как этим пользоваться? Сейчас прогоню, пока качаю

sehellion ★★★★★
(15.01.16 17:38:57 MSK)

Ответ на: комментарий от targitaj 15.01.16 17:20:28 MSK

под 100к на 4-х модулях FX-83x0

что-то близкое к i5-4590, но его более точный результат, как и для i7-4790k, я смогу выдать не раньше 25 января, когда выйду из отпуска.

за 200к на 4-х ядрах skylake

у i7-4790k, если мне не изменяет память, было около 195k

Вопрос в том где, чем и для чего FPU используется. Кроме игр, научных расчетов и системы обработки звука/графики. СУБД используют? веб-сервера? qemu/kvm?

не знаю, особенно когда дело касается именно двойной точности

grem ★★★★★
(15.01.16 17:48:02 MSK) автор топика

Ответ на: комментарий от sehellion 15.01.16 17:38:57 MSK

./runme_xeon64
This is a SAMPLE run script for SMP LINPACK. Change it to reflect
the correct number of CPUs/threads, problem input files, etc..
./runme_xeon64: 37: [: -gt: unexpected operator
Пт янв 15 17:48:08 MSK 2016
This binary version of the SMP LINPACK benchmark is optimized for and runs on only genuine Intel processors
Done: Пт янв 15 17:48:08 MSK 2016

sehellion ★★★★★
(15.01.16 17:48:51 MSK)

Ссылка

Ответ на: комментарий от sehellion 15.01.16 17:38:57 MSK

скачать «l_mklb_p_11.3.1.002.tgz», распаковать;
перейти в «l_mklb_p_11.3.1.002\benchmarks_11.3.1\linux\mkl\benchmarks\linpack»;
отредактировать файл «lininput_xeon64», приведя его к указанному в топике виду;
запустить «runme_xeon64»;
дождаться появления результата либо в терминале, либо в каком-то файлике в той же директории (его название для linux не помню, возможно «lin_xeon64»)

Отмечу, что если памяти только 4 Гб, то её для решения 20000 уравнений может не хватить.

grem ★★★★★
(15.01.16 17:55:30 MSK) автор топика

Ответ на: комментарий от grem 15.01.16 17:55:30 MSK

Сделал все, как описано, результат выше

sehellion ★★★★★
(15.01.16 17:56:45 MSK)

Ответ на: комментарий от sehellion 15.01.16 17:56:45 MSK

угу, вижу. я пока на amd не запускал, что-то ему не нравится в строчке 37:

if [  $nnodes -gt 1 -a $cpucores -gt 8 ]

Но больше беспокоит строка

This binary version of the SMP LINPACK benchmark is optimized for and runs on only genuine Intel processors

Похоже, что нужно что-то ещё :(

grem ★★★★★
(15.01.16 18:04:47 MSK) автор топика
Последнее исправление: grem 15.01.16 18:05:28 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от targitaj 15.01.16 16:30:37 MSK

модульный

У тебя в слове «кукурузный» очепятка.

svr4 ☆
(15.01.16 18:24:50 MSK)

нет в убунте даже PPA с linpak ((((

targitaj ★★★★★
(15.01.16 18:31:01 MSK)

Ссылка

Ответ на: комментарий от svr4 15.01.16 18:24:50 MSK

Модульность и кукуруза мало связаны. Просто архитектурно они так себе, боттлнеков много.

devl547 ★★★★★
(15.01.16 18:42:18 MSK)

Ответ на: комментарий от devl547 15.01.16 18:42:18 MSK

боттлнеки... У меня пара хостов на оптеронах под qemu-kvm. Тащат просто отлично.

targitaj ★★★★★
(15.01.16 18:52:10 MSK)

Ответ на: комментарий от targitaj 15.01.16 18:52:10 MSK

Тормозной контроллер памяти, тормозные write-through кэши (зато у них кэши с ECC!), fpu ни к черту, декодер инструкций медленный.
Да, оно работает. Да, мощи за глаза и так. Но осадочек остался)

devl547 ★★★★★
(15.01.16 18:55:27 MSK)

Ссылка

Ответ на: комментарий от sehellion 15.01.16 17:56:45 MSK

похоже, что там просто библиотеки для mp_linpack, hpcg идущие в комплекте собраны с arch = intel64

grem ★★★★★
(15.01.16 18:59:36 MSK) автор топика

Ссылка

i5 3330

Maximum memory requested that can be used=3200404096, at the size=20000

=================== Timing linear equation system solver ===================

Size   LDA    Align. Time(s)    GFlops   Residual     Residual(norm) Check
10000  10000  4      8.125      82.0760  9.603002e-11 3.386116e-02   pass
10000  10000  4      8.087      82.4603  9.603002e-11 3.386116e-02   pass
10000  10000  4      8.099      82.3429  9.603002e-11 3.386116e-02   pass
10000  10000  4      8.094      82.3952  9.603002e-11 3.386116e-02   pass
20000  20000  4      61.605     86.5861  4.097986e-10 3.627616e-02   pass
20000  20000  4      61.750     86.3834  4.097986e-10 3.627616e-02   pass
20000  20000  4      61.857     86.2326  4.097986e-10 3.627616e-02   pass
20000  20000  4      61.575     86.6278  4.097986e-10 3.627616e-02   pass

Performance Summary (GFlops)

Size   LDA    Align.  Average  Maximal
10000  10000  4       82.3186  82.4603 
20000  20000  4       86.4575  86.6278 

Residual checks PASSED

windows

Maximum memory requested that can be used=3200404096, at the size=20000

=================== Timing linear equation system solver ===================

Size   LDA    Align. Time(s)    GFlops   Residual     Residual(norm) Check
10000  10000  4      8.327      80.0871  9.603002e-011 3.386116e-002   pass
10000  10000  4      8.317      80.1823  9.603002e-011 3.386116e-002   pass
10000  10000  4      8.669      76.9266  9.603002e-011 3.386116e-002   pass
10000  10000  4      8.415      79.2497  9.603002e-011 3.386116e-002   pass
20000  20000  4      63.081     84.5601  4.097986e-010 3.627616e-002   pass
20000  20000  4      65.082     81.9601  4.097986e-010 3.627616e-002   pass

Novell-ch ★★★★★
(15.01.16 20:24:14 MSK)

Ссылка

Ответ на: комментарий от grem 15.01.16 17:48:02 MSK

Оба процессора без разгона, часты если повышаются, то автоматически за счёт Turbo Boost.

Core i5-4590@3.3GHz

CPU frequency:    3.690 GHz
Number of cores: 4
Number of threads: 4

Maximum memory requested that can be used=3200404096, at the size=20000
=================== Timing linear equation system solver ===================

Size   LDA    Align. Time(s)    GFlops   Residual     Residual(norm) Check
10000  10000  4      5.937      112.3243 9.460580e-011 3.335896e-002   pass
10000  10000  4      5.816      114.6542 9.460580e-011 3.335896e-002   pass
10000  10000  4      5.751      115.9472 9.460580e-011 3.335896e-002   pass
10000  10000  4      5.786      115.2566 9.460580e-011 3.335896e-002   pass
20000  20000  4      40.280     132.4267 3.665309e-010 3.244601e-002   pass
20000  20000  4      40.456     131.8515 3.665309e-010 3.244601e-002   pass
20000  20000  4      40.145     132.8733 3.665309e-010 3.244601e-002   pass
20000  20000  4      40.432     131.9281 3.665309e-010 3.244601e-002   pass

Performance Summary (GFlops)
Size   LDA    Align.  Average  Maximal
10000  10000  4       114.5456 115.9472
20000  20000  4       132.2699 132.8733

Core i7-4790K@4.0GHz - с Zalman Performa 11X@1600rpm греется как «кипятильник» (до 85-88 градусов) в отличии от предыдущего процессора c боксовым кулером.

CPU frequency:    4.398 GHz
Number of cores: 4
Number of threads: 8

Maximum memory requested that can be used=3200404096, at the size=20000

=================== Timing linear equation system solver ===================
Size   LDA    Align. Time(s)    GFlops   Residual     Residual(norm) Check
10000  10000  4      3.496      190.7279 9.460580e-011 3.335896e-002   pass
10000  10000  4      3.516      189.6718 9.460580e-011 3.335896e-002   pass
10000  10000  4      3.555      187.5745 9.460580e-011 3.335896e-002   pass
10000  10000  4      3.526      189.1301 9.460580e-011 3.335896e-002   pass
20000  20000  4      24.311     219.4100 3.665309e-010 3.244601e-002   pass
20000  20000  4      24.264     219.8372 3.665309e-010 3.244601e-002   pass
20000  20000  4      24.243     220.0314 3.665309e-010 3.244601e-002   pass
20000  20000  4      24.241     220.0475 3.665309e-010 3.244601e-002   pass

Performance Summary (GFlops)
Size   LDA    Align.  Average  Maximal
10000  10000  4       189.2761 190.7279
20000  20000  4       219.8315 220.0475

grem ★★★★★
(25.01.16 12:40:03 MSK) автор топика
Последнее исправление: grem 25.01.16 12:45:39 MSK (всего исправлений: 2)

Ссылка

27 сентября 2016 г.

Core i7-5820K@3.3 GHz

CPU frequency:    3.296 GHz
Number of CPUs: 1
Number of cores: 6
Number of threads: 12

Parameters are set to:

Number of tests: 2

Maximum memory requested that can be used=3200404096, at the size=20000

=================== Timing linear equation system solver ===================

Size   LDA    Align. Time(s)    GFlops   Residual     Residual(norm) Check
10000  10000  4      2.997      222.5247 9.432638e-011 3.326044e-002   pass
10000  10000  4      2.920      228.4006 9.432638e-011 3.326044e-002   pass
10000  10000  4      2.887      230.9781 9.432638e-011 3.326044e-002   pass
10000  10000  4      2.922      228.2113 9.432638e-011 3.326044e-002   pass
20000  20000  4      20.557     259.4776 3.819847e-010 3.381402e-002   pass
20000  20000  4      20.126     265.0417 3.819847e-010 3.381402e-002   pass
20000  20000  4      20.159     264.5978 3.819847e-010 3.381402e-002   pass
20000  20000  4      20.220     263.8000 3.819847e-010 3.381402e-002   pass

Performance Summary (GFlops)

Size   LDA    Align.  Average  Maximal
10000  10000  4       227.5287 230.9781
20000  20000  4       263.2293 265.0417

grem ★★★★★
(27.09.16 20:21:52 MSK) автор топика
Последнее исправление: grem 27.09.16 20:22:11 MSK (всего исправлений: 1)

Ответ на: комментарий от grem 27.09.16 20:21:52 MSK

В предыдущем тесте для процессора Core i7-5820K частота всё же была 3.4 за счёт автоматического ускорения (множитель по умолчанию был 34). Энергосбережение отключено, иначе результаты заметно ниже - в определённые моменты процессор начинает понижать частоту на некоторых операциях, не требующих по его мнению высокой производительности системы.

После повышения множителя для всех ядер с 34 до 38 (т.е. частота каждого ядра 3.8 GHz)в тесте «Size 20000 LDA 20000» среднее значение результата стало примерно равно 285. При этом температура и энергопотребление по данным программки от материнской платы и RealTemp были на приемлемом уровне (~55-60 градусов и 70-75 Ватт). При повышении множителя до 40 температура повышалась до 80 градусов, а энергопотребление было на уровне 140-145 Ватт. Повышение производительности в вышеуказанном варианте теста было ничтожным - составило всего 287.

grem ★★★★★
(30.09.16 23:25:24 MSK) автор топика
Последнее исправление: grem 30.09.16 23:27:19 MSK (всего исправлений: 1)