Новый CRAY на AMD и Linux

Компания Cray представила новое поколение компьютеров под названием XT5, в которых применяются 8-процессорные blade-серверы, поддерживающие установку чипов AMD Opteron, в том числе, новых четырехъядерных процессоров с кодовым названием Barcelona. В шести стойках при этом могут быть размещены до 1112 чипов Opteron, обеспечивающих производительность в 43 терафлопса (триллиона операций с плавающей запятой в секунду). По сравнению с предыдущими суперкомпьютерами серии ХТ, новые вычислительные комплексы обеспечивают вдвое более высокую плотность размещения процессоров и значительное повышение производительности в расчете на ватт энергии. Кроме того системы ХТ5 на сегодняшний день являются самыми масштабируемыми суперкомпьютерами под управлением операционной системы Linux, которые предоставляют оптимальную производительность для широкого спектра приложений.

>>> Подробности

Ссылка

← NVU может ожить

OSS под GPLv2 - итоги и уроки →

← 1 2 →

Небольшое добавление:

Названный "Франклином" в честь первого всемирно признанного американского ученого Бенджамина Франклина (Benjamin Franklin)...

http://www.3dnews.ru/news/bendzhamin_franklin_snova_na_sluzhbe_nauke-270513/

Ещё вариант: http://ko.itc.ua/node/32718

GladAlex ★★★★★
(08.11.07 00:43:26 MSK) автор топика

Оно и понятно: распиаренные интеловские ксеоны выигрывают у оптеронов только в рекламных кампаниях интела. А на деле - раза в два сливают даже по тактам на тривиальном CALL.

Led ★★★☆☆
(08.11.07 01:29:30 MSK)

Чёт я в с окетах запутался. Там таки 8 сокетов в одном лезвии или 2 ? Или 8 это число блейдов в шасси ? Вообще 4-х сокетные лезвия есть. Если они смогли сделать 8-сокетное эт конечно круто. До сих пор 8-сокетные платы были либо заказные (пробовал одну - отстой ;)) либо 1+1

PS: Барса кстати очень достойный процессор с потенциалом но не с современными частотами, HT1 линками и контроллерами памяти.

sS ★★★★★
(08.11.07 01:31:27 MSK)

Ответ на: комментарий от Led 08.11.07 01:29:30 MSK

Они сливают на задачах чувствительных к ПСП и латентности памяти.

Кстати список компаний, которые такими задачами как раз занимаются приведён по ссылке ;) На плотной арифметики и несильносвязанных задачах зеоны совсем неплохи ;)

sS ★★★★★
(08.11.07 01:36:50 MSK)

Ответ на: комментарий от sS 08.11.07 01:36:50 MSK

>Они сливают на задачах чувствительных к ПСП и латентности памяти.

Да, FB-DIMM'ы - это что-то:)

>На плотной арифметики и несильносвязанных задачах зеоны совсем неплохи.

Ага, только писать код нужно с минимумом функций, или с принудительными inline'ами:)

Led ★★★☆☆
(08.11.07 01:40:42 MSK)

Ответ на: комментарий от sS 08.11.07 01:31:27 MSK

В Барсе вроде число HT-линков больше стало, значит 8-и сокетная система более связной (извините за некорректный термин, если что) получается.

anonymfus ★★★★
(08.11.07 01:46:09 MSK)

Ответ на: комментарий от Led 08.11.07 01:40:42 MSK

>только писать код нужно с минимумом функций, или с принудительными inline'ами:)

Оптероны тоже это любят ;)

Только речь немного о другом. "Плотный" имеется ввиду по данным а не по коду. То есть маленькие размеры данных с большим количеством вычислений на них. У меня как раз ровно обратный случай ;) Поэтому у меня стойка набита как раз оптеронами в плотной упаковке ;)

sS ★★★★★
(08.11.07 01:50:18 MSK)

Ссылка

>обеспечивающих производительность в 43 терафлопса

А Виста будет на нем тормозить

anonymous
(08.11.07 01:53:34 MSK)

Ссылка

Ответ на: комментарий от anonymfus 08.11.07 01:46:09 MSK

>В Барсе вроде число HT-линков больше стало, значит 8-и сокетная система более связной (извините за некорректный термин, если что) получается.

Я двушку пробовал. там 1 синхронный HT1 линк который затыкается довольно быстро

sS ★★★★★
(08.11.07 01:55:08 MSK)

Ответ на: комментарий от sS 08.11.07 01:55:08 MSK

Прочитал, как "Я ДЕВУШКУ пробовал. там 1 синхронный HT1 линк который затыкается довольно быстро". Задумался.

anonymous
(08.11.07 03:41:23 MSK)

Ответ на: комментарий от anonymous 08.11.07 03:41:23 MSK

я тоже ;)

anonymous
(08.11.07 03:44:58 MSK)

Ссылка

Ответ на: комментарий от GladAlex 08.11.07 00:43:26 MSK

> Небольшое добавление: Названный "Франклином" в честь первого всемирно признанного американского ученого..

Да однозначно в честь бакса названный

~~HEBECTb_KTO~~
(08.11.07 04:08:06 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.11.07 03:41:23 MSK

anonymous
(08.11.07 04:38:50 MSK)

Ссылка

Ответ на: комментарий от Led 08.11.07 01:29:30 MSK

> Оно и понятно: распиаренные интеловские ксеоны выигрывают у оптеронов только в рекламных кампаниях интела. А на деле - раза в два сливают даже по тактам на тривиальном CALL.

О Боже, опять!

Я тебе тогда почти поверил -- никогда до этого с FB дела не имел... Дискуссия с тобой стОила мне нескольких лишних тестов.

Извини, но ты не прав ни разу. Почитай хоть, что такое FB.

Die-Hard ★★★★★
(08.11.07 05:11:50 MSK)

Ответ на: комментарий от sS 08.11.07 01:55:08 MSK

>>В Барсе вроде число HT-линков больше стало, значит 8-и сокетная система более связной (извините за некорректный термин, если что) получается.

> Я двушку пробовал. там 1 синхронный HT1 линк который затыкается довольно быстро

:-)

С сентября я уже несколько "девушек" перепробовал.

Не знаю, что _будет_, но пока Барселона -- ОТСТОЙ! То, что сейчес можно пошшупать, вообще никуда не годится.

Die-Hard ★★★★★
(08.11.07 05:16:01 MSK)

Ссылка

Ответ на: комментарий от sS 08.11.07 01:36:50 MSK

> Они сливают на задачах чувствительных к ПСП и латентности памяти.

Ну не так это!

Латентность начинает проявляться тогда, когда памяти уже напихано столько, что FB альтернативы просто нет.

> На плотной арифметики и несильносвязанных задачах зеоны совсем неплохи ;)

Даже на СИЛЬНО связанных задачах и даже на исключительно ЦЕЛОЧИСЛЕННОМ счете Ксеоны оказываются раза в 2 дешевле Оптеронов (при той же производительности). Исключение -- масштабируемость за пределы 8 корок: тут Ксеоны потихоньку начинают сливать, и к 32 коркам перфоманс/прайс на относительно хорошо масштабируемых задачах (когда амдалевская константа порядка процента) примерно сравнивается (я сейчас про кластеры говорю).

Die-Hard ★★★★★
(08.11.07 05:28:29 MSK)

Ответ на: комментарий от Die-Hard 08.11.07 05:28:29 MSK

>Латентность начинает проявляться тогда, когда памяти уже напихано столько, что FB альтернативы просто нет.

Как это? Латентность памяти начинает проявляться всегда, когда обрабатываемые данные не помещаются в кэш. То есть, должно быть, всегда.

Объясните, в чём моё недопонимание?

anonymfus ★★★★
(08.11.07 05:39:04 MSK)

Ответ на: комментарий от sS 08.11.07 01:36:50 MSK

Новые оптероны на вычислениях с плавающей точкой просто звери. Плюс на поточной или случайной обработке, когда кэш не важен очень сильно опережают интелы из-за низколатентного контроллера памяти.

anonymous
(08.11.07 05:48:46 MSK)

Ссылка

Ответ на: комментарий от Die-Hard 08.11.07 05:28:29 MSK

>Латентность начинает проявляться тогда, когда памяти уже напихано столько, что FB альтернативы просто нет.

Бред какой-то... Как связано количество памяти с латентностью? Никак.

>исключительно ЦЕЛОЧИСЛЕННОМ счете Ксеоны

Сказано и перемолото уже тысячу раз, новые оптероны на вычислениях с плавающей точкой намного быстрее ксеонов, поэтому их и будут пихать в вычислительные кластеры.

Также интересны задачи типа web серверов, на них даже старые оптероны быстрее новых.

anonymous
(08.11.07 05:59:09 MSK)

Ответ на: комментарий от anonymous 08.11.07 05:59:09 MSK

>на них даже старые оптероны быстрее новых.

Имелось ввиду, быстрее новых ксеонов.

anonymous
(08.11.07 06:03:53 MSK)

Ссылка

Гентушники могут пересобирать мир не за 6+1 дней, а за 6 часов? =))

schakal ★
(08.11.07 07:24:27 MSK)

Ответ на: комментарий от sS 08.11.07 01:55:08 MSK

> Я двушку пробовал. там 1 синхронный HT1 линк который затыкается довольно быстро

Прочитал как "А я девушку пробовал". Думаю - уже сравнивают секс с кластером с сексом с девушкой :)))

Arceny ★★
(08.11.07 08:50:23 MSK)

Ответ на: комментарий от Arceny 08.11.07 08:50:23 MSK

> Я двушку пробовал. там 1 синхронный HT1 линк который затыкается довольно быстро

+1 так же прочитал как "девушку" :)))

cyclon ★★★★★
(08.11.07 09:11:57 MSK)

Ответ на: комментарий от cyclon 08.11.07 09:11:57 MSK

Пробовали мы недавно кластер на ксеонах по 2 2-х головых ксеона в узле... MPI тестировали... В общем, два процесса на узле ещё более-менее шевелятся, а 4 просто тормозят не меряно. Вот и всё, так что кластерок в итоге получается не на 1024 проца, а только на 512. А стоит как большой...

yz ★
(08.11.07 09:27:05 MSK)

Ссылка

У кого-нибудь есть под рукой двухсокетная Барселона? У меня как раз свободный ML370 G5 с 2xXeon 5320 есть, давайте потестим.

agabekov ★
(08.11.07 09:57:46 MSK)

Вот что то вспомнилось: "Если к ж№пе присобачить Сопроцессов фирмы Cray Можно гадить в 2 сартира В 40 тысяч раз быстрей"

[:|||:] конечно, но смешно :-)

anonymous
(08.11.07 10:12:30 MSK)

Ответ на: комментарий от anonymous 08.11.07 10:12:30 MSK

не смешно

sv75 ★★★★★
(08.11.07 10:47:06 MSK)

Ссылка

Ответ на: комментарий от schakal 08.11.07 07:24:27 MSK

> Гентушники могут пересобирать мир не за 6+1 дней, а за 6 часов? =))

Старайтесь, юноша, старайтесь. Вдруг станете знаменитым метеористом. Средненький мир пересобирается на корке за 3 часа.

balodja ★★★
(08.11.07 11:02:30 MSK)

Ответ на: комментарий от balodja 08.11.07 11:02:30 MSK

О, сразу видно опытного красноглазого гентушника ;)

anonymous
(08.11.07 11:22:23 MSK)

Ответ на: комментарий от anonymous 08.11.07 11:22:23 MSK

> О, сразу видно опытного красноглазого гентушника ;)

В отличие от неопытного белоглазого виндусятника..

HappySquirrel ★
(08.11.07 11:41:04 MSK)

Ссылка

Ответ на: комментарий от sS 08.11.07 01:31:27 MSK

>Чёт я в с окетах запутался. Там таки 8 сокетов в одном лезвии или 2 ? Или 8 это число блейдов в шасси ?

Each dual-socket node supports up to ...

anonymous
(08.11.07 12:32:49 MSK)

Ответ на: комментарий от anonymfus 08.11.07 05:39:04 MSK

> Латентность памяти начинает проявляться всегда, когда обрабатываемые данные не помещаются в кэш.

FB-DIMM память имеет последовательную природу, поэтому ее латентность пропорциональна количеству установленных модулей.

Принято считать, что Advanced Memory Buffer вносит дополнительные задержки (собственно на буферизацию и на т.н. "сериализацию", т.е. приведение к последовательному виду) при передаче команд и данных между микросхемами памяти и контроллером. Может, когда-то это так и было, но сейчас тесты показывают, что задержки по сравнению с обычной DDR2 становяться ощутимыми, если напихать ОЧЕНЬ много модулей (я цифр навскидку не помню).

Die-Hard ★★★★★
(08.11.07 12:49:55 MSK)

Ответ на: комментарий от Die-Hard 08.11.07 05:11:50 MSK

>О Боже, опять!

>Я тебе тогда почти поверил -- никогда до этого с FB дела не имел... Дискуссия с тобой стОила мне нескольких лишних тестов.

>Извини, но ты не прав ни разу. Почитай хоть, что такое FB.

Я ж говорю: ксеоны очень распиарены - вот даже на ЛОРе ты их пиариш. Но мы люди простые - пиару не верим на-слово - проверяем и тестируем сами:)

Led ★★★☆☆
(08.11.07 12:52:31 MSK)

Ответ на: комментарий от Die-Hard 08.11.07 12:49:55 MSK

Я же привёл тебе пример, можешь сам повторить простой опыт: CALL на опреронах - ок. 150-160 тактов, на ксеонах >300. Удачи в написании в "мало-CALL'овых" или "без-CALL'овых" кластерных программ:)

Led ★★★☆☆
(08.11.07 12:55:17 MSK)

Ссылка

Ответ на: комментарий от anonymous 08.11.07 05:59:09 MSK

> Как связано количество памяти с латентностью?

FB диммы вяжутся цепочкой.

> Сказано и перемолото уже тысячу раз, новые оптероны на вычислениях с плавающей точкой намного быстрее ксеонов, ...

Это маркетинговая служба АМД так говорит и мелет. На реальных тестах они примерно одинаковы (если частоту привести).

Die-Hard ★★★★★
(08.11.07 13:00:12 MSK)

Ссылка

>В шести стойках при этом могут быть размещены до 1112 чипов Opteron...

185.33... Не помещаются:(

anonymous
(08.11.07 13:09:29 MSK)

Ссылка

Ответ на: комментарий от Led 08.11.07 12:52:31 MSK

> Но мы люди простые - пиару не верим на-слово

Я уже устал тебе повторять.

Я терпеть не могу Ксеоны, они гораздо хуже Оптеронов "идеологически", несколько лет назад они очень плохо масштабировались. Но теперь Ксеоны гораздо дешевле и шустрее Оптеронов.

Последние несколько месяцев я занимаюсь тем, что гоняю бенчмарки на кластерах из многоголовых Оптеронов (включая Барселону) и Ксеонов. Десятки различных систем шести независимых фирм сравнивали! На этой неделе надо окончательно решать, как потратить червертьлимона евр.

Да, на 8-корковом SMP ноде Ксеон масштабируется гораздо хуже Оптерона. Но все равно остается быстрее и в 2(!) раза дешевле. А на разнесенных нодах масштабируемость у Ксеон-базированных решений оказывается даже и не хуже, чем у Оптеронов. Это то, что я ЛИЧНО наблюдаю каждый день последние несколько месяцев, и не на синтетических тестах, а на реальных задачах.

Die-Hard ★★★★★
(08.11.07 13:15:07 MSK)

Ссылка

Ответ на: комментарий от Die-Hard 08.11.07 05:28:29 MSK

>Даже на СИЛЬНО связанных задачах и даже на исключительно ЦЕЛОЧИСЛЕННОМ счете Ксеоны оказываются раза в 2 дешевле Оптеронов (при той же производительности). Исключение -- масштабируемость за пределы 8 корок: тут Ксеоны потихоньку начинают сливать, и к 32 коркам перфоманс/прайс на относительно хорошо масштабируемых задачах (когда амдалевская константа порядка процента) примерно сравнивается (я сейчас про кластеры говорю).

Сколько задач столько и мнений ;)

Я тестировал Барселону на маштабируемость (8 корок 4x2) Картина получилась интересная. Если отнести к частоте то она порвала и старые оптероны и дуалкоровые зеоны (про старые интеловские квадкоры вообще умолчим, новые не пробовал - говорят они получьше) в клочья на 4-х ядрах. Как только переезжаем на 2 сокета с 6-го ядра идёт завал. Не хватает пропускной способности HT1. На моих задачах 2224 по любому рвёт 5160 это уже проверено многократно. То что на других задачах может быть по другому никто не спорит. Ниша оптеронов никуда не делась и список клиентов крея из этой самой ниши по ссылке :)

sS ★★★★★
(08.11.07 14:31:12 MSK)

Ответ на: комментарий от anonymous 08.11.07 12:32:49 MSK

>>Чёт я в с окетах запутался. Там таки 8 сокетов в одном лезвии или 2 ? Или 8 это число блейдов в шасси ? >Each dual-socket node supports up to ...

А это что значит ?

> new eight-socket Cray XT5 compute blade

blade - это же одно лезвие (нода) или они так всё шасси обозвали ?

Если так то это фигня. У меня таких шассей в стойке 2 и не по 8 а по 10 лезвий каждое ...

sS ★★★★★
(08.11.07 14:39:48 MSK)

Ссылка

Ответ на: комментарий от agabekov 08.11.07 09:57:46 MSK

>У кого-нибудь есть под рукой двухсокетная Барселона? У меня как раз свободный ML370 G5 с 2xXeon 5320 есть, давайте потестим.

Конкретно этот зеон полный отстой ;)

sS ★★★★★
(08.11.07 14:46:23 MSK)

Ответ на: комментарий от sS 08.11.07 14:46:23 MSK

>Даже на СИЛЬНО связанных задачах и даже на исключительно ЦЕЛОЧИСЛЕННОМ счете Ксеоны оказываются раза в 2 дешевле Оптеронов (при той же производительности).

конфигурации в студию

anonymous
(08.11.07 15:53:22 MSK)

Ссылка

Ответ на: комментарий от schakal 08.11.07 07:24:27 MSK

> Гентушники могут пересобирать мир не за 6+1 дней, а за 6 часов? =))

Ну так сильно сочинять то не надо:

Мои мир (без монстров типа кде/гном, оупенофис) на Athlonxp 2600+ собирался где-то часов 6-8.

defmacro
(08.11.07 16:11:18 MSK)

Ссылка

Ответ на: комментарий от sS 08.11.07 14:31:12 MSK

> Я тестировал Барселону на маштабируемость (8 корок 4x2)

FP или целые?

Насколько локальные обращения к памяти?

Например, если заниматься обращением небольших матриц, то я вполне могу поверит, что Барселона всех порвет за счет L3 кыша. Но если строки в кыш не влезут, то ???

Кстати, кто знает, насколько слабая модель памяти у К10 (в смысле, насколько оно умеет обращения к памяти переупорядочивать)?

> Как только переезжаем на 2 сокета с 6-го ядра идёт завал.

Я тоже это заметил -- на моих тестах они ведут себя (в смысле масштабируемости) почти как 800 серия...

> На моих задачах 2224 по любому рвёт 5160 это уже проверено многократно.

Ну, она и пошустрее чуть по гыгыгерцам... Но, вообше, странно -- на всех моих тестах Intel 5355 существенно шустрее, чем AMD 2218.

> Если отнести к частоте...

Ну, если отнести к частоте, то Итаник их всех порвет, а Альфа еще круче будет -- только где они все?

> Ниша оптеронов никуда не делась ...

Сантехники потихоньку на Ксеоны переползают, и остается верным АМД только Крей. Финансовые дела у АМД довольно аховые, и если они в ближайшее время Барселону до ума не доведут, то тяжко им придется...

Die-Hard ★★★★★
(09.11.07 01:20:17 MSK)

Ответ на: комментарий от anonymous 08.11.07 05:59:09 MSK

Специалисты по процам, расскажите лучше убогому, на каких процессорах собирать бюджетный сервер для Linux 2.6.x с NATом, если NAT с форвардом - единственная задача сервера.

anonymous
(09.11.07 01:23:32 MSK)

Ответ на: комментарий от anonymous 09.11.07 01:23:32 MSK

бюджетный == в пределах пяти штук баксов.

anonymous
(09.11.07 01:25:37 MSK)

Ссылка

Ответ на: комментарий от anonymous 09.11.07 01:23:32 MSK

Под такую задачу - на любом

Eugeny_Balakhonov ★★
(09.11.07 02:08:51 MSK)

Ответ на: комментарий от Eugeny_Balakhonov 09.11.07 02:08:51 MSK

Два двухъядерных Intel(R) Xeon(R) CPU 5160 @ 3.00GHz , рулящие двумя bond'ами (EtherChannel'ами, PortChannel'ами, кому как больше нравится) из четырёх сетевух e1000 (по две в каждом), заткнулись на NAT'е 450 000 одновременных соединений при 90 000 пакетов в секунду и 600+ Мбит/с в обе стороны на 2.6.20.

Два двухъядерных Intel(R) Xeon(TM) CPU 3.73GHz на том же месте умерли при нагрузке меньшей где-то на четверть.

Поэтому, вопрос не праздный..

anonymous
(09.11.07 02:40:26 MSK)

Ответ на: комментарий от Die-Hard 09.11.07 01:20:17 MSK

>FP или целые?

Разумеется FP

> Насколько локальные обращения к памяти?

Весьма ;) Размер расчётной области 1Gb на ядро. Кеш практически не при делах. Хотя код заточен под максимальную локальность насколько это в данной ситуации вообще возможно.

>Например, если заниматься обращением небольших матриц, то я вполне могу поверит, что Барселона всех порвет за счет L3 кыша.

Ну L3 у барсы ничем не выдающийся. Если сравнить с K8 получается что у последнего оторвали половину L2 и эту оторванную половину засунули в L3 Что как бы увеличило суммарный размер кеша для однопоточных задач но для задач в которых все ядра нагружены равномерно и независимо общий размер кеша на ядро остался прежним при возросшей длине цепочки для случаев когда данные лежат в L3

>Ну, она и пошустрее чуть по гыгыгерцам... Но, вообше, странно -- на всех моих тестах Intel 5355 существенно шустрее, чем AMD 2218.

Всё дело в задаче ;)

>Сантехники потихоньку на Ксеоны переползают

Сантехники никогда не занимались железом для ниши, в которой тусуются Адапко и Ансис ;) В отличае от того же крея

sS ★★★★★
(09.11.07 07:39:48 MSK)