Производительность памяти.

amd, intel, безысходность

Вобщем такое дело: Я для дела и апгрейда решил заменить свой старый штеуд на новое железо, и потянуло меня что-то на амд, ибо разницы в перфомансе моего штеуда и новомодного i7 нет, но вёдра и более высокая ТТ, а так же нужные мне фичи - сподвигли меня купить что-то.

Вобщем выбрал я fx8350 и уже почти заказал, но братуха говорит, что бульдозер у него делает «буль-буль» и всё пичаль. Мы побенчили и пришли в выводу, что на штуеду по каким-то мистическим причинам память работает намного быстрее, хотя там и там 1600 дефолтные планки.

Братуха стал выдвигать теории о разном устройстве двуканала и прочено, моя вера в амд пошатнулась. И только вы можете меня спасти.

Кто хочет помочь - пожалуйста побенчите и выложите сюда результаты бенчей и свой проц/память - это будет всем интересно. http://www.alasir.com/software/ramspeed/ramsmp-3.5.0.tar.gz - бенч, собираем sh build.sh.

Мне интересные 10,11,(12),16,17,(18) - то, что в скобках не обязательно. Так же, попробуйте -p1,2,3,4,5,6,7,8, пожалуйста.

Так же, люди, кто юзал «новую» «стримовую запись», аля movnt* - как оно? Для многократного обхода данных, непомещающихся в кеш - кеш мне только мешает, поэтому nt запись через буферы меня спасает, но с чтением проблемы - поэтому я решил поверить в sse4.2 и купить себе новое железо.

Ссылка

← неплохой короткий курс по swi-prolog

Плавный переход на C++ с PHP. →

← 1 2 3 4 →

Ответ на: комментарий от Jurik_Phys 30.06.13 15:09:45 MSK

Для того чтобы все тесты были доступны надо править build.sh. Впиши arch руками x86_64 и заработает.

true_admin ★★★★★
(30.06.13 15:21:43 MSK)

Ссылка

Ответ на: комментарий от devl547 30.06.13 15:19:41 MSK

Турбо тоже у меня отключён :)

true_admin ★★★★★
(30.06.13 15:22:38 MSK)

Ответ на: комментарий от Jurik_Phys 30.06.13 15:09:45 MSK

Открой build.sh - замени на ARCH=«i386» если 32битно, а ARCH=«x86_64», если amd64.

~~osh5pntp8~~
(30.06.13 15:24:09 MSK) автор топика

Ответ на: комментарий от true_admin 30.06.13 15:22:38 MSK

Ну тогда какой-же это сток :3

devl547 ★★★★★
(30.06.13 15:28:50 MSK)

Ссылка

Ответ на: комментарий от osh5pntp8 30.06.13 14:27:50 MSK

Почему не в тактах?

Хм, по-моему, очень разумно указывать в наносекундах. Очень удобно сравнивать между собой системы без заморочек с пересчётом с учётом частоты камня.

PS тоже интересно как был получен тест. Меня удивляет цифра 15ns для топового решения. Как-то это нереально быстро, имхо.

true_admin ★★★★★
(30.06.13 15:28:54 MSK)

Ответ на: комментарий от true_admin 30.06.13 15:15:07 MSK

Хорошо, а на бульдозерах есть (un)ganged как на атлонах, или где там оно есть? На 8-ми вёдрах оно где-то на уровне i7, но вот на одном-двух вёдрах сливает в такой хлам.

Непонятки немного ушли.

~~osh5pntp8~~
(30.06.13 15:31:57 MSK) автор топика

Ответ на: комментарий от true_admin 30.06.13 15:28:54 MSK

А зачем что-то пересчитывать - время в тактах отражает реальную суть, а вот ns какой-то бред. Взависимости от частоты оно будет плавать, а время в тактах нет, поэтому наносекунды надо пересчитывать.

100тактов будет 100тактов и на 5ггц, и на 2.5 и на 1.25, а вот 10нс на 5ггц, будут 5на на 2.5 и 2.5 на 1.25.

~~osh5pntp8~~
(30.06.13 15:35:13 MSK) автор топика

Ответ на: комментарий от osh5pntp8 30.06.13 15:31:57 MSK

а на бульдозерах есть (un)ganged как на атлонах, или где там оно есть?

Вот не помню :(. Я не видел в настройках биоса gigabyte GA-970A-UD3 .

true_admin ★★★★★
(30.06.13 15:36:07 MSK)

Ответ на: комментарий от osh5pntp8 30.06.13 15:35:13 MSK

Взависимости от частоты оно будет плавать, а время в тактах нет

Ты совсем не прав. Скорость памяти лимитируется _главным образом_ задержкой row address strobe (если не путаю), там нужно совершенно конкретное время чтобы произошла выборка нужной строки и частота ЦПУ тут ни при чём.

true_admin ★★★★★
(30.06.13 15:39:20 MSK)

Ответ на: комментарий от osh5pntp8 30.06.13 15:24:09 MSK

Уже. Чуть позже выложу полную версию результатов.

Jurik_Phys ★★★★★
(30.06.13 15:47:41 MSK)

Ссылка

Ответ на: комментарий от true_admin 30.06.13 15:39:20 MSK

Я говорил про «в целом». Считать что-то в нс глупо.

Для примера: ТТ*sizeof(mov). Для 1ггц и 64битных интов - это 8 предельных гигов, для sse 16предельных гигов. Если там тест на 64битных интах, то его предел 16гигов на 2ггц, хотя реально это не предел памяти. Поэтому всё это плывёт, кривит и косит.

Поэтому норм пацаны, чтобы не путать людей пишут код своего бенча и считают в тактах.

~~osh5pntp8~~
(30.06.13 15:54:45 MSK) автор топика

Ответ на: комментарий от osh5pntp8 30.06.13 15:54:45 MSK

RAS не привязан к тактам. Если посмотришь тайминги памяти то увидишь что он растёт пропорционально росту частоты.

Ты же не считаешь, например, random seek time у харда в тактах процессора.

true_admin ★★★★★
(30.06.13 16:00:30 MSK)

Вот результаты для AMD FX-4300, 4 потока: http://pastebin.com/zt1CC6sG
Есть правда небольшой разгон, память ~1700.

abacaba ★
(30.06.13 16:05:47 MSK)

Ссылка

Ответ на: комментарий от true_admin 30.06.13 16:00:30 MSK

Мув-то у тебя минимум 1 так, вот посчитай сколько процессор может сделать мувов. Почему мериют sse( я даже не уверен, что в этой кривой проприетарщине кто-то что-то нормально мериет), а не 64битными интами.

Ты же не считаешь, например, random seek time у харда в тактах процессора.

Это совершенно не то. Скорость памяти привязана не только к скорости самой памяти(таймингам), но и к скорости мувов, поэтому все операции процессора логичней записывать в тактах, даже если то, что стоит под ними не зависит от процессора.

~~osh5pntp8~~
(30.06.13 16:35:42 MSK) автор топика

Ссылка

Ответ на: комментарий от Jurik_Phys 30.06.13 15:09:45 MSK

AMD FX(tm)-8350 Eight-Core Processor (Без разгона, без турбо)
DDR3 1600MHz 9-9-9-24.

for bench in 7 8 9 10 11 12 13 14 15 16 17 18; do
    for cores in 1 2 3 4; do
        echo "bench $bench, cores - $cores";
        ./ramsmp -b $bench -p $cores;
    done;
done > ramsmp_full.out

Результат тут.

Jurik_Phys ★★★★★
(30.06.13 18:15:01 MSK)

Ответ на: комментарий от pekmop1024 30.06.13 05:19:25 MSK

Перцовый не тормозит и на и3

это который PepperFlash ?
а версия у него какая ?

smilessss ★★★★★
(30.06.13 18:28:49 MSK)

В общем, судя по всему, разницы между Core i* и AMD FX-* в этом плане нет.

~~fragmentor~~
(30.06.13 18:32:11 MSK)

Ссылка

Ответ на: комментарий от smilessss 30.06.13 18:28:49 MSK

Самая свежая какая-то, 11.7 с хвостиком

pekmop1024 ★★★★★
(30.06.13 18:39:25 MSK)

Ответ на: комментарий от Jurik_Phys 30.06.13 18:15:01 MSK

Сколько планок памяти?

mv ★★★★★
(30.06.13 18:48:05 MSK)

Ответ на: комментарий от pekmop1024 30.06.13 18:39:25 MSK

О, пока ты здесь)
Там же какие-то костыли в реализации ganged/unganged mode и корявости dual channel у AMD?

devl547 ★★★★★
(30.06.13 18:57:51 MSK)

В общем, нормальный тест упрётся в количество каналов к планкам памяти, помножить на максимальную пропускную памяти. Мерять пропускную имеет смысл только в несколько тредов (у одного ядра load/store портов меньше, чем у интерфейса к памяти), на AVX на Nehalem и SSE на всех остальных. На штеудах HT должен быть отключен, или софт должен про HT знать и биндить потоки на разных ядрах.

В этом комменте глупый тест, похоже, не смог заставить процессор выйти из кэшей.

mv ★★★★★
(30.06.13 19:24:24 MSK)

Ответ на: комментарий от mv 30.06.13 18:48:05 MSK

Сколько планок памяти?

2x8GB Corsair и 2x2GB Kingston.

Jurik_Phys ★★★★★
(30.06.13 19:44:07 MSK)

Ссылка

Ответ на: комментарий от mv 30.06.13 19:24:24 MSK

В этом комменте глупый тест, похоже, не смог заставить процессор выйти из кэшей.

В данном случае при сборке теста не определилась архитектура системы, может это дало эффект.

Jurik_Phys ★★★★★
(30.06.13 19:48:21 MSK)

Ответ на: комментарий от devl547 30.06.13 18:57:51 MSK

Так это у тебя же FX есть, у меня интелы кругом :)
Я память на AMD толком не тестил, но подобные приколы припоминаю...

pekmop1024 ★★★★★
(30.06.13 20:04:10 MSK)

Ответ на: комментарий от pekmop1024 30.06.13 20:04:10 MSK

Я тоже особо не тестировал, но походу двуканал у AMD какой-то дутый.

devl547 ★★★★★
(30.06.13 20:10:46 MSK)

Ответ на: комментарий от mv 30.06.13 19:24:24 MSK

Мерять пропускную имеет смысл только в несколько тредов (у одного ядра load/store портов меньше, чем у интерфейса к памяти), на AVX на Nehalem и SSE на всех остальных.

Этот тест написан по царски, и лучше ты не напишешь. Только вот суть в том, что на штеуде мы имеем 20гигов уже на 2-х нитях, а на бульдозере только на 8-ми.

Суть треда в том, какого хрена так происходит.

В этом комменте глупый тест, похоже, не смог заставить процессор выйти из кэшей.

В этом тесте глупый mv просто не осилил прочитать то, что там написанно. На r/w тестах - он перебирает степени двойки до 32метров, а там, где он бенчит умножение/сложение/сложение+умножение - там он бенчит 32-мя метрами.

Если тебе мало 32-х метров, то там есть ключик -m -ставь сколько хочешь, ибо мне 32-х метров хватит за глаза. На тестах с nt записью - там на кеши вообще кладётся.

~~osh5pntp8~~
(30.06.13 20:12:56 MSK) автор топика

Ответ на: комментарий от devl547 30.06.13 20:10:46 MSK

Скорее, требует определенных настроек. Все же HyperTransport нельзя плохой шиной назвать.

pekmop1024 ★★★★★
(30.06.13 20:15:03 MSK)

Ответ на: комментарий от pekmop1024 30.06.13 20:15:03 MSK

А какое отношение HyperTransport имеет к оперативке?

~~fragmentor~~
(30.06.13 20:17:28 MSK)

Ответ на: комментарий от fragmentor 30.06.13 20:17:28 MSK

А чем она по-твоему подключена, через libastral.so?

pekmop1024 ★★★★★
(30.06.13 20:18:27 MSK)

Ответ на: комментарий от pekmop1024 30.06.13 20:18:27 MSK

Насколько я знаю, HyperTransport - это шина на мост.

~~fragmentor~~
(30.06.13 20:20:14 MSK)

Ответ на: комментарий от pekmop1024 30.06.13 20:15:03 MSK

Оператива не задействует гипертранспорт же.

А что касательно настроек - по сути только одна есть (увеличивать частоту cpu_nb при увеличении частоты памяти).

devl547 ★★★★★
(30.06.13 20:20:49 MSK)

Ответ на: комментарий от pekmop1024 30.06.13 20:15:03 MSK

Где взять эти настройки? - я никогда в глаза амд не щупал, ибо всегда сидел на штеудах и видел только штеуды.

Я тоже не верю, что такая пичаль имеет место быть.

~~osh5pntp8~~
(30.06.13 20:21:22 MSK) автор топика

Ответ на: комментарий от devl547 30.06.13 20:20:49 MSK

Оператива не задействует гипертранспорт же.

Вопрос тот же - что там за шина, если не HT?

pekmop1024 ★★★★★
(30.06.13 20:30:59 MSK)

Ответ на: комментарий от fragmentor 30.06.13 20:20:14 MSK

HT - штука универсальная, как и QPI

pekmop1024 ★★★★★
(30.06.13 20:31:17 MSK)

Ответ на: комментарий от osh5pntp8 30.06.13 20:21:22 MSK

Методом чтения тематических веток на руоверах и экспериментов, думаю, решаемо.

pekmop1024 ★★★★★
(30.06.13 20:34:26 MSK)

Ссылка

Ответ на: комментарий от pekmop1024 30.06.13 20:31:17 MSK

Откуда ты это взял?

~~fragmentor~~
(30.06.13 20:37:13 MSK)

Ссылка

Ответ на: комментарий от pekmop1024 30.06.13 20:30:59 MSK

Сорри, но ты с дуба рухнул?

HT_Link там идет только с проца до северника.
А память напрямую к процессору цепляется отдельной шиной.

devl547 ★★★★★
(30.06.13 20:42:45 MSK)

Ответ на: комментарий от devl547 30.06.13 20:42:45 MSK

Я ниоткуда не рухнул, мне правда интересно, что там. У нехалемов QPI, у сандиков-ивиков DMI. А тут?

pekmop1024 ★★★★★
(30.06.13 20:47:06 MSK)

Пожалуйста:
http://bpaste.net/show/110956/

amd fx8350
Kingston KVR16E11/8 x2 (ECC)

NeverLoved ★★★★★
(30.06.13 20:48:26 MSK)

Ссылка

Ответ на: комментарий от pekmop1024 30.06.13 20:47:06 MSK

У нехалемов QPI, у сандиков-ивиков DMI. А тут?

А тут HT.

Но! Обмен контроллера памяти с самими планками идет по отдельной независимой шине у всех.

devl547 ★★★★★
(30.06.13 20:49:32 MSK)

Ответ на: комментарий от devl547 30.06.13 20:49:32 MSK

Явно же узкое место - это связь процессора с контроллером, ибо от планок до контроллера у всех всё одинаковое и работает со скоростью планок.

pekmop1024 ★★★★★
(30.06.13 20:51:32 MSK)

Ответ на: комментарий от pekmop1024 30.06.13 20:51:32 MSK

Явно же узкое место - это связь процессора с контроллером

И сам контроллер. ЕМНИП, его частота у Интела сильно повыше.

devl547 ★★★★★
(30.06.13 20:56:24 MSK)

Ответ на: комментарий от devl547 30.06.13 20:56:24 MSK

Реальная - вряд ли. Эффективная... ну, допустим, на моем разогнанном i7 - около 6.4 ГТ/с.

pekmop1024 ★★★★★
(30.06.13 21:05:14 MSK)

Ну, и fx4300 с памятью 1600, без разгона, 2 потока

abacaba ★
(30.06.13 21:16:03 MSK)

Ответ на: комментарий от pekmop1024 30.06.13 21:05:14 MSK

Если честно, то я понял, что в FX-ах с работой разных частей процессора полный шлак.

В реальных задачах от частот HT_Link и CPU_NB ничего не зависит, как и от повышения частот памяти 1866->2400.

Синтетика да, реагирует. А на деле - пшик.

devl547 ★★★★★
(30.06.13 21:17:34 MSK)

Ответ на: комментарий от abacaba 30.06.13 21:16:03 MSK

Спасибо, всё как обычно 12 на первую нить, и потом по 2 с каждой нити.

SSE (nt)  Copy:      19715.21 MB/s  [NTA prefetch]
SSE (nt)  Scale:     19707.36 MB/s  [NTA prefetch]
SSE (nt)  Add:       15130.34 MB/s  [T0 prefetch]
SSE (nt)  Triad:     15176.87 MB/s  [T0 prefetch]

А вот это очень странно. Попробуй пожалуйста:

ramsmp -p2 -b18 -t0
ramsmp -p2 -b18 -t1
ramsmp -p2 -b18 -t2

ramsmp -p1 -b18 -t0
ramsmp -p1 -b18 -t1
ramsmp -p1 -b18 -t2

ramsmp -p4 -b18 -t0
ramsmp -p4 -b18 -t1
ramsmp -p4 -b18 -t2

~~osh5pntp8~~
(30.06.13 21:33:06 MSK) автор топика

Ответ на: комментарий от devl547 30.06.13 21:17:34 MSK

Как-то это смахивает на излишнюю автоматизацию проектирования. «Я его слепила из того что было».

pekmop1024 ★★★★★
(30.06.13 21:36:45 MSK)

Ответ на: комментарий от Jurik_Phys 30.06.13 19:48:21 MSK

В данном случае при сборке теста не определилась архитектура системы, может это дало эффект.

Перестаньте онанировать на флаги компилятора.

mv ★★★★★
(30.06.13 21:41:27 MSK)

Ответ на: комментарий от pekmop1024 30.06.13 21:36:45 MSK

Ну так про автоматизацию разработки буля инженеры говорили с самого начала.

devl547 ★★★★★
(30.06.13 21:42:15 MSK)

Ответ на: комментарий от osh5pntp8 30.06.13 20:12:56 MSK

Глупый mv сходил на вики, посмотрел пиковую пропускную способность планки DDR3, помножил на количество планок (это если планок меньше, чем каналов, и система в полный интерливинг сконфигурирована). В данном случае, у ТС две планки DDR3-1600, т.е. всё, что выше 2 * 12800 = 25.6 G/s - это гон.

mv ★★★★★
(30.06.13 21:46:07 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 →

← неплохой короткий курс по swi-prolog

Development

Плавный переход на C++ с PHP. →

Похожие темы