LINUX.ORG.RU

Новый CRAY на AMD и Linux


0

0

Компания Cray представила новое поколение компьютеров под названием XT5, в которых применяются 8-процессорные blade-серверы, поддерживающие установку чипов AMD Opteron, в том числе, новых четырехъядерных процессоров с кодовым названием Barcelona. В шести стойках при этом могут быть размещены до 1112 чипов Opteron, обеспечивающих производительность в 43 терафлопса (триллиона операций с плавающей запятой в секунду). По сравнению с предыдущими суперкомпьютерами серии ХТ, новые вычислительные комплексы обеспечивают вдвое более высокую плотность размещения процессоров и значительное повышение производительности в расчете на ватт энергии. Кроме того системы ХТ5 на сегодняшний день являются самыми масштабируемыми суперкомпьютерами под управлением операционной системы Linux, которые предоставляют оптимальную производительность для широкого спектра приложений.

>>> Подробности

Оно и понятно: распиаренные интеловские ксеоны выигрывают у оптеронов только в рекламных кампаниях интела. А на деле - раза в два сливают даже по тактам на тривиальном CALL.

Led ★★★☆☆
()

Чёт я в с окетах запутался. Там таки 8 сокетов в одном лезвии или 2 ? Или 8 это число блейдов в шасси ? Вообще 4-х сокетные лезвия есть. Если они смогли сделать 8-сокетное эт конечно круто. До сих пор 8-сокетные платы были либо заказные (пробовал одну - отстой ;)) либо 1+1

PS: Барса кстати очень достойный процессор с потенциалом но не с современными частотами, HT1 линками и контроллерами памяти.

sS ★★★★★
()
Ответ на: комментарий от Led

Они сливают на задачах чувствительных к ПСП и латентности памяти.

Кстати список компаний, которые такими задачами как раз занимаются приведён по ссылке ;) На плотной арифметики и несильносвязанных задачах зеоны совсем неплохи ;)

sS ★★★★★
()
Ответ на: комментарий от sS

>Они сливают на задачах чувствительных к ПСП и латентности памяти.

Да, FB-DIMM'ы - это что-то:)

>На плотной арифметики и несильносвязанных задачах зеоны совсем неплохи.

Ага, только писать код нужно с минимумом функций, или с принудительными inline'ами:)

Led ★★★☆☆
()
Ответ на: комментарий от sS

В Барсе вроде число HT-линков больше стало, значит 8-и сокетная система более связной (извините за некорректный термин, если что) получается.

anonymfus ★★★★
()
Ответ на: комментарий от Led

>только писать код нужно с минимумом функций, или с принудительными inline'ами:)

Оптероны тоже это любят ;)

Только речь немного о другом. "Плотный" имеется ввиду по данным а не по коду. То есть маленькие размеры данных с большим количеством вычислений на них. У меня как раз ровно обратный случай ;) Поэтому у меня стойка набита как раз оптеронами в плотной упаковке ;)

sS ★★★★★
()

>обеспечивающих производительность в 43 терафлопса

А Виста будет на нем тормозить

anonymous
()
Ответ на: комментарий от anonymfus

>В Барсе вроде число HT-линков больше стало, значит 8-и сокетная система более связной (извините за некорректный термин, если что) получается.

Я двушку пробовал. там 1 синхронный HT1 линк который затыкается довольно быстро

sS ★★★★★
()
Ответ на: комментарий от sS

Прочитал, как "Я ДЕВУШКУ пробовал. там 1 синхронный HT1 линк который затыкается довольно быстро". Задумался.

anonymous
()
Ответ на: комментарий от GladAlex

> Небольшое добавление: Названный "Франклином" в честь первого всемирно признанного американского ученого..

Да однозначно в честь бакса названный

HEBECTb_KTO
()
Ответ на: комментарий от Led

> Оно и понятно: распиаренные интеловские ксеоны выигрывают у оптеронов только в рекламных кампаниях интела. А на деле - раза в два сливают даже по тактам на тривиальном CALL.

О Боже, опять!

Я тебе тогда почти поверил -- никогда до этого с FB дела не имел... Дискуссия с тобой стОила мне нескольких лишних тестов.

Извини, но ты не прав ни разу. Почитай хоть, что такое FB.

Die-Hard ★★★★★
()
Ответ на: комментарий от sS

>>В Барсе вроде число HT-линков больше стало, значит 8-и сокетная система более связной (извините за некорректный термин, если что) получается.

> Я двушку пробовал. там 1 синхронный HT1 линк который затыкается довольно быстро

:-)

С сентября я уже несколько "девушек" перепробовал.

Не знаю, что _будет_, но пока Барселона -- ОТСТОЙ! То, что сейчес можно пошшупать, вообще никуда не годится.

Die-Hard ★★★★★
()
Ответ на: комментарий от sS

> Они сливают на задачах чувствительных к ПСП и латентности памяти.

Ну не так это!

Латентность начинает проявляться тогда, когда памяти уже напихано столько, что FB альтернативы просто нет.

> На плотной арифметики и несильносвязанных задачах зеоны совсем неплохи ;)

Даже на СИЛЬНО связанных задачах и даже на исключительно ЦЕЛОЧИСЛЕННОМ счете Ксеоны оказываются раза в 2 дешевле Оптеронов (при той же производительности). Исключение -- масштабируемость за пределы 8 корок: тут Ксеоны потихоньку начинают сливать, и к 32 коркам перфоманс/прайс на относительно хорошо масштабируемых задачах (когда амдалевская константа порядка процента) примерно сравнивается (я сейчас про кластеры говорю).

Die-Hard ★★★★★
()
Ответ на: комментарий от Die-Hard

>Латентность начинает проявляться тогда, когда памяти уже напихано столько, что FB альтернативы просто нет.

Как это? Латентность памяти начинает проявляться всегда, когда обрабатываемые данные не помещаются в кэш. То есть, должно быть, всегда.

Объясните, в чём моё недопонимание?

anonymfus ★★★★
()
Ответ на: комментарий от sS

Новые оптероны на вычислениях с плавающей точкой просто звери. Плюс на поточной или случайной обработке, когда кэш не важен очень сильно опережают интелы из-за низколатентного контроллера памяти.

anonymous
()
Ответ на: комментарий от Die-Hard

>Латентность начинает проявляться тогда, когда памяти уже напихано столько, что FB альтернативы просто нет.

Бред какой-то... Как связано количество памяти с латентностью? Никак.

>исключительно ЦЕЛОЧИСЛЕННОМ счете Ксеоны

Сказано и перемолото уже тысячу раз, новые оптероны на вычислениях с плавающей точкой намного быстрее ксеонов, поэтому их и будут пихать в вычислительные кластеры.

Также интересны задачи типа web серверов, на них даже старые оптероны быстрее новых.

anonymous
()
Ответ на: комментарий от anonymous

>на них даже старые оптероны быстрее новых.

Имелось ввиду, быстрее новых ксеонов.

anonymous
()
Ответ на: комментарий от sS

> Я двушку пробовал. там 1 синхронный HT1 линк который затыкается довольно быстро

Прочитал как "А я девушку пробовал". Думаю - уже сравнивают секс с кластером с сексом с девушкой :)))

Arceny ★★
()
Ответ на: комментарий от Arceny

> Я двушку пробовал. там 1 синхронный HT1 линк который затыкается довольно быстро

+1 так же прочитал как "девушку" :)))

cyclon ★★★★★
()
Ответ на: комментарий от cyclon

Пробовали мы недавно кластер на ксеонах по 2 2-х головых ксеона в узле... MPI тестировали... В общем, два процесса на узле ещё более-менее шевелятся, а 4 просто тормозят не меряно. Вот и всё, так что кластерок в итоге получается не на 1024 проца, а только на 512. А стоит как большой...

yz
()

У кого-нибудь есть под рукой двухсокетная Барселона? У меня как раз свободный ML370 G5 с 2xXeon 5320 есть, давайте потестим.

agabekov
()

Вот что то вспомнилось: "Если к ж№пе присобачить Сопроцессов фирмы Cray Можно гадить в 2 сартира В 40 тысяч раз быстрей"

[:|||:] конечно, но смешно :-)

anonymous
()
Ответ на: комментарий от schakal

> Гентушники могут пересобирать мир не за 6+1 дней, а за 6 часов? =))

Старайтесь, юноша, старайтесь. Вдруг станете знаменитым метеористом. Средненький мир пересобирается на корке за 3 часа.

balodja ★★★
()
Ответ на: комментарий от anonymous

> О, сразу видно опытного красноглазого гентушника ;)

В отличие от неопытного белоглазого виндусятника..

HappySquirrel
()
Ответ на: комментарий от sS

>Чёт я в с окетах запутался. Там таки 8 сокетов в одном лезвии или 2 ? Или 8 это число блейдов в шасси ?

Each dual-socket node supports up to ...

anonymous
()
Ответ на: комментарий от anonymfus

> Латентность памяти начинает проявляться всегда, когда обрабатываемые данные не помещаются в кэш.

FB-DIMM память имеет последовательную природу, поэтому ее латентность пропорциональна количеству установленных модулей.

Принято считать, что Advanced Memory Buffer вносит дополнительные задержки (собственно на буферизацию и на т.н. "сериализацию", т.е. приведение к последовательному виду) при передаче команд и данных между микросхемами памяти и контроллером. Может, когда-то это так и было, но сейчас тесты показывают, что задержки по сравнению с обычной DDR2 становяться ощутимыми, если напихать ОЧЕНЬ много модулей (я цифр навскидку не помню).

Die-Hard ★★★★★
()
Ответ на: комментарий от Die-Hard

>О Боже, опять!

>Я тебе тогда почти поверил -- никогда до этого с FB дела не имел... Дискуссия с тобой стОила мне нескольких лишних тестов.

>Извини, но ты не прав ни разу. Почитай хоть, что такое FB.

Я ж говорю: ксеоны очень распиарены - вот даже на ЛОРе ты их пиариш. Но мы люди простые - пиару не верим на-слово - проверяем и тестируем сами:)

Led ★★★☆☆
()
Ответ на: комментарий от Die-Hard

Я же привёл тебе пример, можешь сам повторить простой опыт: CALL на опреронах - ок. 150-160 тактов, на ксеонах >300. Удачи в написании в "мало-CALL'овых" или "без-CALL'овых" кластерных программ:)

Led ★★★☆☆
()
Ответ на: комментарий от anonymous

> Как связано количество памяти с латентностью?

FB диммы вяжутся цепочкой.

> Сказано и перемолото уже тысячу раз, новые оптероны на вычислениях с плавающей точкой намного быстрее ксеонов, ...

Это маркетинговая служба АМД так говорит и мелет. На реальных тестах они примерно одинаковы (если частоту привести).

Die-Hard ★★★★★
()

>В шести стойках при этом могут быть размещены до 1112 чипов Opteron...

185.33... Не помещаются:(

anonymous
()
Ответ на: комментарий от Led

> Но мы люди простые - пиару не верим на-слово

Я уже устал тебе повторять.

Я терпеть не могу Ксеоны, они гораздо хуже Оптеронов "идеологически", несколько лет назад они очень плохо масштабировались. Но теперь Ксеоны гораздо дешевле и шустрее Оптеронов.

Последние несколько месяцев я занимаюсь тем, что гоняю бенчмарки на кластерах из многоголовых Оптеронов (включая Барселону) и Ксеонов. Десятки различных систем шести независимых фирм сравнивали! На этой неделе надо окончательно решать, как потратить червертьлимона евр.

Да, на 8-корковом SMP ноде Ксеон масштабируется гораздо хуже Оптерона. Но все равно остается быстрее и в 2(!) раза дешевле. А на разнесенных нодах масштабируемость у Ксеон-базированных решений оказывается даже и не хуже, чем у Оптеронов. Это то, что я ЛИЧНО наблюдаю каждый день последние несколько месяцев, и не на синтетических тестах, а на реальных задачах.

Die-Hard ★★★★★
()
Ответ на: комментарий от Die-Hard

>Даже на СИЛЬНО связанных задачах и даже на исключительно ЦЕЛОЧИСЛЕННОМ счете Ксеоны оказываются раза в 2 дешевле Оптеронов (при той же производительности). Исключение -- масштабируемость за пределы 8 корок: тут Ксеоны потихоньку начинают сливать, и к 32 коркам перфоманс/прайс на относительно хорошо масштабируемых задачах (когда амдалевская константа порядка процента) примерно сравнивается (я сейчас про кластеры говорю).

Сколько задач столько и мнений ;)

Я тестировал Барселону на маштабируемость (8 корок 4x2) Картина получилась интересная. Если отнести к частоте то она порвала и старые оптероны и дуалкоровые зеоны (про старые интеловские квадкоры вообще умолчим, новые не пробовал - говорят они получьше) в клочья на 4-х ядрах. Как только переезжаем на 2 сокета с 6-го ядра идёт завал. Не хватает пропускной способности HT1. На моих задачах 2224 по любому рвёт 5160 это уже проверено многократно. То что на других задачах может быть по другому никто не спорит. Ниша оптеронов никуда не делась и список клиентов крея из этой самой ниши по ссылке :)

sS ★★★★★
()
Ответ на: комментарий от anonymous

>>Чёт я в с окетах запутался. Там таки 8 сокетов в одном лезвии или 2 ? Или 8 это число блейдов в шасси ? >Each dual-socket node supports up to ...

А это что значит ?

> new eight-socket Cray XT5 compute blade

blade - это же одно лезвие (нода) или они так всё шасси обозвали ?

Если так то это фигня. У меня таких шассей в стойке 2 и не по 8 а по 10 лезвий каждое ...

sS ★★★★★
()
Ответ на: комментарий от agabekov

>У кого-нибудь есть под рукой двухсокетная Барселона? У меня как раз свободный ML370 G5 с 2xXeon 5320 есть, давайте потестим.

Конкретно этот зеон полный отстой ;)

sS ★★★★★
()
Ответ на: комментарий от sS

>Даже на СИЛЬНО связанных задачах и даже на исключительно ЦЕЛОЧИСЛЕННОМ счете Ксеоны оказываются раза в 2 дешевле Оптеронов (при той же производительности).

конфигурации в студию

anonymous
()
Ответ на: комментарий от schakal

> Гентушники могут пересобирать мир не за 6+1 дней, а за 6 часов? =))

Ну так сильно сочинять то не надо:

Мои мир (без монстров типа кде/гном, оупенофис) на Athlonxp 2600+ собирался где-то часов 6-8.

defmacro
()
Ответ на: комментарий от sS

> Я тестировал Барселону на маштабируемость (8 корок 4x2)

FP или целые?

Насколько локальные обращения к памяти?

Например, если заниматься обращением небольших матриц, то я вполне могу поверит, что Барселона всех порвет за счет L3 кыша. Но если строки в кыш не влезут, то ???

Кстати, кто знает, насколько слабая модель памяти у К10 (в смысле, насколько оно умеет обращения к памяти переупорядочивать)?

> Как только переезжаем на 2 сокета с 6-го ядра идёт завал.

Я тоже это заметил -- на моих тестах они ведут себя (в смысле масштабируемости) почти как 800 серия...

> На моих задачах 2224 по любому рвёт 5160 это уже проверено многократно.

Ну, она и пошустрее чуть по гыгыгерцам... Но, вообше, странно -- на всех моих тестах Intel 5355 существенно шустрее, чем AMD 2218.

> Если отнести к частоте...

Ну, если отнести к частоте, то Итаник их всех порвет, а Альфа еще круче будет -- только где они все?

> Ниша оптеронов никуда не делась ...

Сантехники потихоньку на Ксеоны переползают, и остается верным АМД только Крей. Финансовые дела у АМД довольно аховые, и если они в ближайшее время Барселону до ума не доведут, то тяжко им придется...

Die-Hard ★★★★★
()
Ответ на: комментарий от anonymous

Специалисты по процам, расскажите лучше убогому, на каких процессорах собирать бюджетный сервер для Linux 2.6.x с NATом, если NAT с форвардом - единственная задача сервера.

anonymous
()
Ответ на: комментарий от anonymous

бюджетный == в пределах пяти штук баксов.

anonymous
()
Ответ на: комментарий от Eugeny_Balakhonov

Два двухъядерных Intel(R) Xeon(R) CPU 5160 @ 3.00GHz , рулящие двумя bond'ами (EtherChannel'ами, PortChannel'ами, кому как больше нравится) из четырёх сетевух e1000 (по две в каждом), заткнулись на NAT'е 450 000 одновременных соединений при 90 000 пакетов в секунду и 600+ Мбит/с в обе стороны на 2.6.20.

Два двухъядерных Intel(R) Xeon(TM) CPU 3.73GHz на том же месте умерли при нагрузке меньшей где-то на четверть.

Поэтому, вопрос не праздный..

anonymous
()
Ответ на: комментарий от Die-Hard

>FP или целые?

Разумеется FP

> Насколько локальные обращения к памяти?

Весьма ;) Размер расчётной области 1Gb на ядро. Кеш практически не при делах. Хотя код заточен под максимальную локальность насколько это в данной ситуации вообще возможно.

>Например, если заниматься обращением небольших матриц, то я вполне могу поверит, что Барселона всех порвет за счет L3 кыша.

Ну L3 у барсы ничем не выдающийся. Если сравнить с K8 получается что у последнего оторвали половину L2 и эту оторванную половину засунули в L3 Что как бы увеличило суммарный размер кеша для однопоточных задач но для задач в которых все ядра нагружены равномерно и независимо общий размер кеша на ядро остался прежним при возросшей длине цепочки для случаев когда данные лежат в L3

>Ну, она и пошустрее чуть по гыгыгерцам... Но, вообше, странно -- на всех моих тестах Intel 5355 существенно шустрее, чем AMD 2218.

Всё дело в задаче ;)

>Сантехники потихоньку на Ксеоны переползают

Сантехники никогда не занимались железом для ниши, в которой тусуются Адапко и Ансис ;) В отличае от того же крея

sS ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.