[intel][amd][bulldozer] частота ядра и скорость последовательного доступа не важна — важна скорость произвольного доступа к памяти

0

2

я говорю о важности с точки зрения десктопного применения и визуальной оценки скорости работы компа

можно глянуть например сюда http://www.roylongbottom.org.uk/randmem results.htm#anchorRAM2 и вспомнить о том, что Пентиум М был лидером до Core 2 Duo по визуальным оценками — что явно видно в таблице

понятно, что и скорость последовательного доступа тоже играет некоторую роль, но похоже она делит 2-е место со скоростью проца

теперь к бульдозеру и сравнению его с интелом http://www.fcenter.ru/online.shtml?articles/hardware/processors/32091 (но можно сразу смотреть только картинку http://www.fcenter.ru/img/article/CPU/Bulldozer/178218.png )

смотрим и ужасаемся

латентность кэшей 1, 2 и 3-го уровней повышена, и насколько!!!

как раз настолько, чтобы обеспечить то самое «на одинаковой частоте удельная производительность Bulldozer в пересчёте на ядро упала на 25-40 % по сравнению с микроархитектурой AMD прошлого поколения»

особенно хреново с латентностью кэша Л2 — она увеличилась более чем в 2 раза

выводы (говорю, как сочувствующий амд):

1. амд обосралось

2. у них может быть есть шансы исправить ситуацию, выпустив феномы на старой архитектуре с ТУПО бОльшим количеством кэша, которое позволяет 32-нм технология (это помогает быстродействию)

( 3. амд как, не собирается прекратить выпуск старых феномов? а не закупить ли феномчик на замену, на случай если мой сгорит? )

UPDATE: для веб-серверного применения 8 типа-вроде-ядер может быть и хорошо, но опять нужна скорость произвольного доступа к памяти; ну и не забываем, что современную RAM по факту нужно считать Sequential Access Memory

Ссылка

← [криокамера][lolwut][тупняк] мобильники

Работающая нормально убунта? →

← 1 2 →

> латентность кэшей 1, 2 и 3-го уровней повышена, и насколько!!!
rtfm: http://support.amd.com/us/Processor_TechDocs/48063.pdf

550 Latency Performance Counters Are Not Accurate
Description
Latency performance counters NBPMCx1E2 through NBPMCx1E7 are not accurate when L3 speculative miss
prefetching is enabled (D18F2x1B0[13] = 0b, Extended Memory Controller Configuration Low[SpecPrefDis]).
Potential Effect on System
Performance monitoring software cannot accurately measure latency events. The reported latency may greatly
exceed the actual latency in some instances.
Suggested Workaround
No workaround is recommended. Performance monitoring code may set D18F2x1B0[13] = 1b to collect
accurate latency values. This workaround has an impact to overall system performance.
Fix Planned
No fix planned

~~JustGuest~~ ★
(15.10.11 17:55:40 MSK)

> у них может быть есть шансы исправить ситуацию, выпустив феномы на старой архитектуре с ТУПО бОльшим количеством кэша, которое позволяет 32-нм технология (это помогает быстродействию)

И как это они без тебя не догадались.

Relan ★★★★★
(15.10.11 18:05:02 MSK)

[intel][amd][bulldozer] Технические характеристики не важны, важно ощущение ШВАБОДКИ!

Можно же было короче и лаконичнее.

Lighting ★★★★★
(15.10.11 18:05:41 MSK)

>амд обосралось

И что? Я не делаю из компьютерных комплектующих культ, дабы затем подвергать нападкам хулителей его богов.

Nebuchadnezzar ★★★★
(15.10.11 18:15:31 MSK)

Ответ на: [intel][amd][bulldozer] Технические характеристики не важны, важно ощущение ШВАБОДКИ! от Lighting 15.10.11 18:05:41 MSK

> Технические характеристики не важны, важно ощущение ШВАБОДКИ!

ты идиот, или только прикидываешься?

есть много характеристик, и из часть влияет сильнее, а часть слабее — так что в введении я приблизительно их сортирую, а затем на этой основе сравниваю процы

если у тебя есть конкретный класс программ, которым поможет бОльший, но тормознутый кэш Л2 — поделись, не стесняйся

кстати, линейная скорость записи в Л2 тоже упала по тем данным

www_linux_org_ru ★★★★★
(15.10.11 18:24:21 MSK) автор топика

Ответ на: комментарий от JustGuest 15.10.11 17:55:40 MSK

> 550 Latency Performance Counters Are Not Accurate

интересно

не знаю как там Aida64 меряет латентность, а я бы мерил не через счетчики, а рандомным проходом по памяти

www_linux_org_ru ★★★★★
(15.10.11 18:27:49 MSK) автор топика

Ссылка

Ответ на: комментарий от Relan 15.10.11 18:05:02 MSK

> И как это они без тебя не догадались.

мне тоже интересно; у тебя есть гипотезы?

з.ы. а вообще случаев выпуска говна хватает — вспомним например пентиум 4

www_linux_org_ru ★★★★★
(15.10.11 18:30:36 MSK) автор топика

Ответ на: [intel][amd][bulldozer] Технические характеристики не важны, важно ощущение ШВАБОДКИ! от Lighting 15.10.11 18:05:41 MSK

если у тебя есть конкретный класс программ, которым поможет бОльший, но тормознутый кэш Л2, и заодно уменьшение L1D с 64 до 16 Кбайт — поделись, не стесняйся

www_linux_org_ru ★★★★★
(15.10.11 18:40:06 MSK) автор топика

Ссылка

Ответ на: комментарий от www_linux_org_ru 15.10.11 18:24:21 MSK

Это был сарказм. И вообще, мы же сугубо десктопный процессор обсуждаем, разве для него важна не реальная производительность на реальных же задачах?

Lighting ★★★★★
(15.10.11 18:43:56 MSK)

Ура штеуд. Позор фьв! Делать-то что? Срочно покупать штеудовское тормозное гогно?

GateKeeper ★★
(15.10.11 18:53:09 MSK)

Ответ на: комментарий от Lighting 15.10.11 18:43:56 MSK

> Это был сарказм. И вообще, мы же сугубо десктопный процессор обсуждаем, разве для него важна не реальная производительность на реальных же задачах?

щас придется выступить в роли К.О.

да, конечно, но

1. задач много

2. средняя производительность зависит от набора задач

3. реальная производительность зависит от поддержки микроархитектуры компилятором

и самое главное (это уже не К.О.)-- для разработчика программ важно хотя бы приблизительно сводить огромное множество разнообразных производительностей разнообразных программ к нескольким, а то и одной, характеристике, которая является bottleneck-ом современных компьютеров

что я и пытаюсь тут сделать (и оценить влияние бульдозера на bottleneck-и)

www_linux_org_ru ★★★★★
(15.10.11 18:54:34 MSK) автор топика

Ответ на: комментарий от GateKeeper 15.10.11 18:53:09 MSK

> Ура штеуд. Позор фьв! Делать-то что? Срочно покупать штеудовское тормозное гогно?

я бы продолжил покупать феном II для бюджетных решений, и интел для топовых

www_linux_org_ru ★★★★★
(15.10.11 18:57:04 MSK) автор топика

Ссылка

Ответ на: комментарий от www_linux_org_ru 15.10.11 18:54:34 MSK

> для разработчика программ важно хотя бы приблизительно сводить огромное множество разнообразных производительностей разнообразных программ к нескольким, а то и одной, характеристике, которая является bottleneck-ом современных компьютеров

для веб-серверного применения... нужна скорость произвольного доступа к памяти

есть пруфы/тесты/статьи о влиянии произвольного доступа к памяти на ВСЕ или хотя бы большинство реальных задач? потому что если это сводится только к скорости и размеру кеша, то от него, судя по тестам кешелюбивых программ, не так много зависит... да, всякие корелы, фотожопы несомненно, но их и компилят под штеуд штеудовским же компилятором, так что там уже условия неравные, а что-то более привычное и земное типа браузеров уже хз...

Lordwind ★★★★★
(15.10.11 19:11:05 MSK)

Ответ на: комментарий от Lordwind 15.10.11 19:11:05 MSK

> есть пруфы/тесты/статьи о влиянии произвольного доступа к памяти на ВСЕ или хотя бы большинство реальных задач?

вроде как все об этом говорят... но пруф с точными данными мне неизвестен

интересно было бы точно посимулировать время отклика программы в зависимости от кэшей

могу дать только стандартный текст на тему памяти http://lwn.net/Articles/252125/

www_linux_org_ru ★★★★★
(15.10.11 19:21:09 MSK) автор топика

Подтверждаю.

После Athlon XP 2500+ мне не понравился ни один ИХ проц. Ощущение того, что повысилась общая латентность системы. Куда дели Athlon XP 3200+ — ОЧЕНЬ БОЛЬШАЯ ЗАГАДКА. До сих пор он бы оставался лучшим одноядерным CPU для архитектуры [i386].

Купил Athlon X2 3800+, потом купил Athlon X2 5400+ — никакого улучшения в ответной реакции не заметил, только выросло тепловыделение до 90 Вт, хотя заявлен TDP=65W.

Далее, поменял материнку (была с DDR2, стала с DDR3), купил процессор Phenom II X4 810. Ну не стоит он того, чтобы отказываться от Athlon X2 5400+!!

iZEN ★★★★★
(15.10.11 19:23:19 MSK)

Ну вроде бульдозер изначально выглядел странно. Так что тут ничего удивительного нет. Но продадут, если маркетологи не сопьются.

Последний проц от АМД, который я купил это Phenom II X4 965. Мне он понравился.

soomrack ★★★★★
(15.10.11 19:34:26 MSK)

Ссылка

Вывод: мои атлон2 x3, x2 и семпрон (обрезок от них же) - самые быстрые процессоры. А что, латентность доступа ниже (кэша L3 вообще нет), при быстрой памяти совсем неплохо.

В общем, выдыхай.

x3al ★★★★★
(15.10.11 19:39:00 MSK)

Ответ на: комментарий от x3al 15.10.11 19:39:00 MSK

> при быстрой памяти совсем неплохо

выходи из анабиоза

быстрой RANDOM access memory нет! (ну есть, но не для обычных компов)

максимум, на что ты можешь рассчитывать — это на 500 МБ/с, и это на Core i7

www_linux_org_ru ★★★★★
(15.10.11 19:48:58 MSK) автор топика

Ответ на: комментарий от www_linux_org_ru 15.10.11 19:48:58 MSK

Эм. У них случайный доступ к памяти быстрее, чем у феномов. Ты будешь утверждать, что феномы медленнее? =)

А вообще — да, есть такое с объектно-ориентированным быдлокодом. И вообще, многие кодеры заранее думают о cache-friendly расположении структур/объектов в RAM. Думаешь, к бенчмаркам это не относится?

x3al ★★★★★
(15.10.11 20:12:49 MSK)

Закупи лучше Sandy Bridge.

mv ★★★★★
(15.10.11 20:13:04 MSK)

Ссылка

Ответ на: комментарий от x3al 15.10.11 20:12:49 MSK

> Эм. У них случайный доступ к памяти быстрее, чем у феномов. Ты будешь утверждать, что феномы медленнее?

да, буду — феномы медленнее в 1.5 ... 2 раза, но стоят дешевле в несколько раз

у нас все точно (с) робот-официант в ответ громозеке

www_linux_org_ru ★★★★★
(15.10.11 20:17:15 MSK) автор топика

Ссылка

Ответ на: комментарий от GateKeeper 15.10.11 18:53:09 MSK

Ура штеуд. Позор фьв! Делать-то что? Срочно покупать штеудовское тормозное гогно?

Если только на свалке. В магазинах продают штеудовские jet fighter'ы.

У них в эволюции линейки x86, по крайней-мере, заметный просёр на концептуальном уровне был только один: netburst.

mv ★★★★★
(15.10.11 20:18:11 MSK)

Ответ на: комментарий от www_linux_org_ru 15.10.11 19:21:09 MSK

интересно было бы точно посимулировать время отклика программы в зависимости от кэшей

Вы ставите интерактивность программы в зависимость от скорости и размеров кэшей? o_O Такой зависимости, видимой человеку, нет.

mv ★★★★★
(15.10.11 20:20:00 MSK)

Ответ на: комментарий от x3al 15.10.11 20:12:49 MSK

и в 2 раза — это запас, а на самом деле в 1.5

www_linux_org_ru ★★★★★
(15.10.11 20:21:00 MSK) автор топика

Ссылка

Ответ на: комментарий от mv 15.10.11 20:20:00 MSK

> Вы ставите интерактивность программы в зависимость от скорости и размеров кэшей? o_O Такой зависимости, видимой человеку, нет.

эклипс не запускал ни разу что ли?

жабка она любит тормозить, и кэш ей ой-ой-ой как нужен

www_linux_org_ru ★★★★★
(15.10.11 20:23:00 MSK) автор топика

Ссылка

Ответ на: комментарий от mv 15.10.11 20:18:11 MSK

> У них в эволюции линейки x86, по крайней-мере, заметный просёр на концептуальном уровне был только один: netburst.

обрати внимаение — пентиум 4 на 1900 МГц рандомно читал память медленнее, чем Celeron A на 300 МГц !!!

так что это еще раз подтверждает мою гипотезу

http://www.roylongbottom.org.uk/randmem results.htm#anchorRAM

www_linux_org_ru ★★★★★
(15.10.11 20:32:01 MSK) автор топика

Ответ на: комментарий от mv 15.10.11 20:20:00 MSK

> Такой зависимости, видимой человеку, нет.

ну и кроме того: когда например мплеер в консоли показывает десятые доли секунды, я вижу их все, и чувствую между ними некоторый промежуток

возможно, другие это не видят, но за всех людей говорить не надо

www_linux_org_ru ★★★★★
(15.10.11 20:34:07 MSK) автор топика

Ответ на: комментарий от mv 15.10.11 20:18:11 MSK

> У них в эволюции линейки x86, по крайней-мере, заметный просёр на концептуальном уровне был только один: netburst.

можно сравнить похожее: Pentium 4 1900 рандомно читал втрое медленне и рандомно писал вдвое медленне, чем Pentium IIIEB 1000 — и это на одной и той же памяти 133 MHz

так что видно корреляцию между говном и тормозами рандомного доступа

http://www.roylongbottom.org.uk/randmem results.htm#anchorRAM

www_linux_org_ru ★★★★★
(15.10.11 20:41:33 MSK) автор топика

Ссылка

Ответ на: комментарий от mv 15.10.11 20:20:00 MSK

не просто есть, а именно из-за нее фаерфокс *несколько лет* никак не могут перенести на мобильные/карманные компы

он (точнее xul) там СТРАШНО тормозит, даже будучи жутко обрезан

при том, что на 600-МГц компах он работал вполне приемлемо в *полной* версии

почему? вспоминаем объем кэша (хотя может и не только)

www_linux_org_ru ★★★★★
(15.10.11 20:46:10 MSK) автор топика

Ответ на: комментарий от www_linux_org_ru 15.10.11 20:32:01 MSK

обрати внимаение — пентиум 4 на 1900 МГц рандомно читал память медленнее, чем Celeron A на 300 МГц !!!

Читать память медленней контроллер памяти не может. У netburst очень длинный конвейер с соответствующим очень большим пенальти в случае промаха предсказателя.

mv ★★★★★
(15.10.11 21:15:28 MSK)

Ответ на: комментарий от www_linux_org_ru 15.10.11 20:34:07 MSK

ну и кроме того: когда например мплеер в консоли показывает десятые доли секунды, я вижу их все, и чувствую между ними некоторый промежуток

За десятую долю секунды двухгигагерцовый процессор выполнит порядка сотен миллионов микроопераций. Шанса у человек из-за медленного кэша заметить увеличение латентности нет.

mv ★★★★★
(15.10.11 21:19:44 MSK)

Ссылка

Ответ на: комментарий от www_linux_org_ru 15.10.11 20:46:10 MSK

почему? вспоминаем объем кэша (хотя может и не только)

Вы переоцениваете значение кэша. Гораздо важнее кэша эффективность кишков процессора, его тактовая частота и объём доступной памяти.

mv ★★★★★
(15.10.11 21:21:54 MSK)

Ссылка

Ответ на: Подтверждаю. от iZEN 15.10.11 19:23:19 MSK

> Куда дели Athlon XP 3200+ — ОЧЕНЬ БОЛЬШАЯ ЗАГАДКА.

3200+ не нужен. Берем 2500+, сажаем на 200-ю шину и получаем 3200+. Все так и делали, потому младший Barton и был так популярен.

YAR ★★★★★
(15.10.11 21:29:26 MSK)

Ссылка

Ответ на: комментарий от mv 15.10.11 21:15:28 MSK

> Читать память медленней контроллер памяти не может. У netburst очень длинный конвейер с соответствующим очень большим пенальти в случае промаха предсказателя.

конвеер, пенальти...

не будь Ъ, сходи по ссылке и посмотри randmem.c (в архиве) — там действительно просто обход памяти, и промах предсказателя будет 1 раз в 500 случаев или еще реже

интел обосрался, причем так же, как щас амд — то есть по-детски, и придумывает для этого разные умные оправдания...

«длинный конвеер», $#@

www_linux_org_ru ★★★★★
(15.10.11 21:47:03 MSK) автор топика

Ссылка

Ответ на: комментарий от mv 15.10.11 21:15:28 MSK

для Ъ:

( arraymax = 1536 )

int testIIR(int jmax, int arraymax)    
{
    int i, j;
    int toti;
    
    start_time();
    
    for (j=0; j<jmax; j++)
    {
        toti = 0;
        for (i=0; i<arraymax; i=i+32)
        {
            toti = toti & xi[xi[i+30]] | xi[xi[i+28]]
                        & xi[xi[i+26]] | xi[xi[i+24]]
                        & xi[xi[i+22]] | xi[xi[i+20]]
                        & xi[xi[i+18]] | xi[xi[i+16]]
                        & xi[xi[i+14]] | xi[xi[i+12]]
                        & xi[xi[i+10]] | xi[xi[i+ 8]]
                        & xi[xi[i+ 6]] | xi[xi[i+ 4]]
                        & xi[xi[i+ 2]] | xi[xi[i+ 0]];
        }
    }
    end_time();
        
    return toti;
}

www_linux_org_ru ★★★★★
(15.10.11 21:52:50 MSK) автор топика

Ответ на: комментарий от mv 15.10.11 21:15:28 MSK

конвеер у него, $#@, длинный

ты посмотри сколько чтений он делает в секунду — всего лишь 12М штук ( = 48MБайт/4 байта)

т.е. одно чтение занимает 150 тиков частоты 1900 МГц

за эти 150 тиков можно, $#@, любой конвеер перезапустить

твой предсказатель может на for-e КАЖДЫЙ раз промахиваться, и перезапускать конвеер, и это все равно не объяснит таких тормозов

www_linux_org_ru ★★★★★
(15.10.11 22:05:24 MSK) автор топика

Где-то в книжках Таненбаума говорилось, что каждый следующий метр кеша все меньше и меньще влияет на скорость выполнения программы.

DarkAmateur ★★★★★
(16.10.11 00:30:29 MSK)

Ссылка

Ответ на: комментарий от www_linux_org_ru 15.10.11 21:52:50 MSK

Ты действительно думаешь, что это «просто» обход памяти?

mv ★★★★★
(16.10.11 01:46:33 MSK)

Ответ на: комментарий от www_linux_org_ru 15.10.11 22:05:24 MSK

твой предсказатель может на for-e КАЖДЫЙ раз промахиваться, и перезапускать конвеер, и это все равно не объяснит таких тормозов

Мне почему-то кажется, что ты имеешь весьма отдалённое представление о том, как работает конвейер и предсказатель у netburst.

mv ★★★★★
(16.10.11 01:51:52 MSK)

Ответ на: Подтверждаю. от iZEN 15.10.11 19:23:19 MSK

>После Athlon XP 2500+ мне не понравился ни один ИХ проц. Ощущение того, что повысилась общая латентность системы

потому что потом все камни были с QnC, не?

nu11 ★★★★★
(16.10.11 10:16:45 MSK)

Ссылка

Ответ на: комментарий от mv 16.10.11 01:46:33 MSK

> Ты действительно думаешь, что это «просто» обход памяти?

а у тебя в голове ИИ или мозги?

там действительно есть несколько операций — на каждый терм вида xi[xi[i+12]] приходится максимум 3 сложения (ну пусть 5 при -О0) и одна логическая операция

в сумме получаем 6 простых операций, которые пень должен выполнять емнип за 3 тика — ну пусть даже за 10 тиков — а теперь скажи, куда деваются остальные 140 тиков?

З.Ы. я подробно не анализировал код, но мне *кажется*, что внутренняя операция xi[i+12] выполняется из L1D, и разработчик не считает ее обращением к памяти; если же я не прав, тогда разрабочик считает, что каждый терм xi[xi[i+12]] содержит 2 обращения к памяти, значит расходует 300 тиков, и тебе придется объяснять, куда уходят 290 тиков

www_linux_org_ru ★★★★★
(16.10.11 14:35:37 MSK) автор топика

Ответ на: комментарий от mv 16.10.11 01:51:52 MSK

> Мне почему-то кажется, что ты имеешь весьма отдалённое представление о том, как работает конвейер и предсказатель у netburst.

всем пофиг

ты лучше объясни мне, причем тут конвеер, если Pentium III EB 1000 выполняет этот код в 3 (три!!!) раза быстрее, чем Pentium 4 1900 ?

www_linux_org_ru ★★★★★
(16.10.11 14:39:54 MSK) автор топика

Я с этим согласен, да и всегда так было, что чем больше кэш, тем больше скорость.

ZenitharChampion ★★★★★
(16.10.11 14:43:44 MSK)

Ссылка

Ответ на: Подтверждаю. от iZEN 15.10.11 19:23:19 MSK

Попробовал Athlon 550 MHz в 2000 году, был в восторге. Там кеш 512 килобайтов. Потом были маленькие атлоны, не слотовые, а сокетовые, а также дюроны. У первых был 256 килобайт кеш, у вторых - 128. В магазине мне объясняли «куда тебе так много?! 512 только для серверных процессоров делают!». В итоге Duron 700 MHz во всех тестах проигрывал слотовому атлону 550 MHz, кроме того мой любимый Morrowind на 550 МГц летал (тестировались на одной видеокарте).

ZenitharChampion ★★★★★
(16.10.11 14:50:10 MSK)

Ответ на: комментарий от mv 16.10.11 01:51:52 MSK

ключевое слово — «почему-то»

конвейер и предсказатель у вменяемого процессора не должны сбрасываться иначе, как на командах передачи управления (да и то не на всех)

сколько ты там видишь команд передачи управления на 1 команду доступа к памяти?

я вижу 0.06 команд передачи управления на 1 команду доступа к памяти, (или даже 0.03)

какова вероятность неправильного предсказания? порядка 0.02 (ну может 0.06 на самый худший случай)

www_linux_org_ru ★★★★★
(16.10.11 14:50:40 MSK) автор топика

Ответ на: комментарий от ZenitharChampion 16.10.11 14:50:10 MSK

тут конечно кэш в 2 раза стал больше, но зато и тормознулся по скорости в 2 раза (про что собственно я и ужасаюсь)

www_linux_org_ru ★★★★★
(16.10.11 14:52:17 MSK) автор топика

Ответ на: комментарий от www_linux_org_ru 16.10.11 14:52:17 MSK

Этому все ужасаются. Потом в журнале ЖЕЛЕЗО напишут те ограниченные виды операций, на который топовый Buldozer уделывает топовый Phenom. :-(

ZenitharChampion ★★★★★
(16.10.11 14:55:49 MSK)

Ответ на: комментарий от www_linux_org_ru 16.10.11 14:52:17 MSK

s/по скорости/по времени произвольного доступа/

но на десктопной практике это почти одно и то же

www_linux_org_ru ★★★★★
(16.10.11 14:57:23 MSK) автор топика

Ссылка

Ответ на: комментарий от ZenitharChampion 16.10.11 14:50:10 MSK

> Athlon 550 MHz

Слотовый? Та еще печка была) Хотя гнался неплохо и рулил.

devl547 ★★★★★
(16.10.11 14:59:37 MSK)

Ответ на: комментарий от ZenitharChampion 16.10.11 14:55:49 MSK

по тем тестам, которые сделал фцентр (ссылка в треде здесь), бульдозер практически везде сливает коре-и5-2500

www_linux_org_ru ★★★★★
(16.10.11 15:01:20 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← [криокамера][lolwut][тупняк] мобильники

Talks

Работающая нормально убунта? →

[intel][amd][bulldozer] Технические характеристики не важны, важно ощущение ШВАБОДКИ!

Подтверждаю.

Похожие темы