Выбор серверов для числодробилки

Есть задача - собрать наиболее производительный кластер для квантово-химических рассчетов. Бюджет ~1000000 рублей. Пока смотрю в сторону 12 ядерных AMD (хотя, может к тому времени как будем покупать повятся и 16 ядерные примерно в ту же цену). Очень бы хотелось infiniband и от 8 процессоров

Копался в интернете, но так и не смог подобрать железо. Это вообще реально уложиться в бюджет?

С одной стороны получается, что если брать 4-х процессорные сервера, то не надо свич для infiniband, который стоит примерно 5-6000$ (потому что всего 2 компа и можно их соединять на прямую), но сами эти сервера дороже. В общем запутался я. Помогите, если можете.

Ссылка

← Сколько стоит комп такой конфигурации

Sierra MC8790 и AAO D250 →

← 1 2 →

Что за кластер планируется? Мне несколько лет назад для «квантово-химических расчетов» вполне хватало одного athlonXP. Правда считалось долго...

PS: если кластер будет на gentoo (у этого дистрибутива штатно есть такая возможность), то я бы посоветовал 4х ядерники: AMD Phenom2 x4 965. И не забыть купить побольше оперативки, она будет узким звеном, при сеточных методах. А зачем такой дорогой свитч?

soomrack ★★★★★
(15.04.11 11:37:20 MSK)

Еще можно внимательно посмотреть на задачу и, может быть для нее подойдет CUDA? Тогда одна карточка решит много проблем. И возни с настройкой будет на порядок меньше.

soomrack ★★★★★
(15.04.11 11:39:07 MSK)

Ссылка

Не забудьте 2-3 «крутых» видеокарточки от nVidia, для ускорения расчетов.

~~Eddy_Em~~ ☆☆☆☆☆
(15.04.11 11:39:11 MSK)

Ответ на: комментарий от Eddy_Em 15.04.11 11:39:11 MSK

Не забудьте 2-3 «крутых» видеокарточки от nVidia, для ускорения расчетов.

Может, тогда уж сразу пару таких взять? Бюджета на 8 TFLOP хватит.

Ximen ★★★★
(15.04.11 12:09:34 MSK)

Ответ на: комментарий от Ximen 15.04.11 12:09:34 MSK

Запросто, если они будут полноценно работать.

~~Eddy_Em~~ ☆☆☆☆☆
(15.04.11 12:11:22 MSK)

А какой это Infiniband умеет напрямую без свича?

roof ★★
(15.04.11 12:11:31 MSK)

Ссылка

Ответ на: комментарий от Eddy_Em 15.04.11 12:11:22 MSK

Запросто, если они будут полноценно работать.

Если расчёты для CUDA хорошо подходят - это, наверное, лучший выбор. Если плохо, то «2-3 „крутых“ видеокарточки от nVidia» - пустая трата денег. По-моему так.

Ximen ★★★★
(15.04.11 12:15:48 MSK)

Ответ на: комментарий от Ximen 15.04.11 12:15:48 MSK

Если плохо

То лучше переписать :)

~~Eddy_Em~~ ☆☆☆☆☆
(15.04.11 12:19:16 MSK)

Ответ на: комментарий от Ximen 15.04.11 12:15:48 MSK

> Если расчёты для CUDA хорошо подходят - это, наверное, лучший выбор. Если плохо, то «2-3 „крутых“ видеокарточки от nVidia» - пустая трата денег. По-моему так.

Именно. Поэтому если предполагается «широкое использование» кластера, то лучше стандартное оборудование. Вариант с обычными десктопами, объединенными в кластер позволяют работать на них, как на обычных компьютерах, когда кластер не нужен.

soomrack ★★★★★
(15.04.11 12:22:25 MSK)

Ответ на: комментарий от Eddy_Em 15.04.11 12:19:16 MSK

То лучше переписать :)

Логично :) Но, думается мне, это не всегда возможно/оправдано.

Ximen ★★★★
(15.04.11 12:23:57 MSK)

Ссылка

Ответ на: комментарий от soomrack 15.04.11 12:22:25 MSK

Поэтому если предполагается «широкое использование» кластера, то лучше стандартное оборудование.

Ну мне не кажется, что квантово-химические рассчеты - это «широкое использование». А вот профит с дикой производительности теслы можно поиметь реальный.

Ximen ★★★★
(15.04.11 12:25:40 MSK)

Ответ на: комментарий от Ximen 15.04.11 12:25:40 MSK

> Ну мне не кажется, что квантово-химические рассчеты - это «широкое использование». А вот профит с дикой производительности теслы можно поиметь реальный.

Мой опыт говорит об обратном. Специализированное оборудование быстро устаревает. Пройдет 2-3 года и что с этим железом делать? А вот десктопы смогут верно прослужить 10 лет. Но если CUDA подойдет, то лучше, конечно брать теслу.

soomrack ★★★★★
(15.04.11 12:41:48 MSK)

Ссылка

Зависит от софта. Интересно, чем это можно два спаренных гигабитных eth нагрузить квантовой химией до предела пропускной способности.

Нет, разумеется, лишние скорости не повредят, но обычно все упирается в нехватку оперативной памяти.

mclaudt ☆
(15.04.11 12:50:15 MSK)

Ссылка

Да. Самое главное — продумай систему охлаждения. Это гораздо сложнее, чем кажется на первый взгляд.

soomrack ★★★★★
(15.04.11 13:14:45 MSK)

Ссылка

Ответ на: комментарий от Ximen 15.04.11 12:25:40 MSK

Дикая производительность там только для слабосвязанных задач и для чисел одинарной точности. Если подразумевается частый обмен данными между нодами или использование double - туши свет

eagleivg ★★★★★
(15.04.11 13:21:39 MSK)

Ответ на: комментарий от eagleivg 15.04.11 13:21:39 MSK

У теслы — двойная точность.

soomrack ★★★★★
(15.04.11 13:27:41 MSK)

Реально, есть готовые решения на терафлоп и на 3 терафлопа. На прошлогоднем связьэкспокоме рядом с нами был стенд компании, они предлагали бигтауэры с 3-мя материнками в корпусе, на каждой материнке по 4-е 12-ти ядерников. Материнки соединялись infiniband по хитрой схеме, фирма поставляла к сервачку патченный MPI для него. К сожалению, не могу найти название, они были рядом со стендом 3Д Лиги, может кто вспомнит?

eagleivg ★★★★★
(15.04.11 13:37:20 MSK)

Ответ на: комментарий от Ximen 15.04.11 12:25:40 MSK

>>Ну мне не кажется, что квантово-химические рассчеты - это «широкое использование».

Ну и зря. Там зоопарк программ со своими требованиями к архитектуре. Никаких CUDA.

А вот профит с дикой производительности теслы можно поиметь реальный.

Молекулярная динамика с парным потенциалом для глянцевых буклетов? Двумерный Навье-Стокс в реалтайме поиграться? А кому оно надо-то?

Средняя такая матрица расчета MCSCF скушает всю память и не моргнет. Научатся лапакоподобные диагонализации на больших матрицах проврачивать на видеокарте - будет другой разговор.

mclaudt ☆
(15.04.11 13:37:57 MSK)

Ссылка

Ответ на: комментарий от soomrack 15.04.11 13:27:41 MSK

ЕМНИП, она программно эмулируется ==> дикий слив производительности

eagleivg ★★★★★
(15.04.11 13:39:42 MSK)

Ответ на: комментарий от eagleivg 15.04.11 13:39:42 MSK

> она программно эмулируется ==> дикий слив производительности

Даже у Tesla C2050 ?

soomrack ★★★★★
(15.04.11 13:41:23 MSK)

Ответ на: комментарий от soomrack 15.04.11 13:41:23 MSK

В 2 раза меньше, если верить википедии - http://ru.wikipedia.org/wiki/NVIDIA_Tesla

eagleivg ★★★★★
(15.04.11 13:45:24 MSK)

Ответ на: комментарий от eagleivg 15.04.11 13:45:24 MSK

Забавно. Спасибо, раньше не обращал на это внимание.

soomrack ★★★★★
(15.04.11 13:47:23 MSK)

Ссылка

Ответ на: комментарий от soomrack 15.04.11 11:37:20 MSK

А зачем такой дорогой свитч?

затем, что гигабита для таких задач обычно не хватает

PS: если кластер будет на gentoo (у этого дистрибутива штатно есть такая возможность)

Только идиот будет собирать кластер на генту. Для кластеров есть ALT HPC edition и другие специализированные дистрибутивы.

Reset ★★★★★
(15.04.11 13:50:26 MSK)

Не пытайся заниматься самосбором.
Определись нужны или нет расчёты на GPU. Они сильно снижают круг решаемых задач.
Обратись в Т-Платформы или IBM. Первые, точно, спокойно помогут с подбором характеристик (мне помогали). Связывался по телефону на их сайте. С IBM напрямую не общался, но тоже не думаю что сложно связаться.
Проанализируй соотношение потребляемая электроэнергия/производительность. Всё таки жерут они не мало.

З.Ы.: IBM и Т-Платформы - основные поставщики кластеров в России, так что смело связывайся с ними. А там решай сам.

AlexVR ★★★★★
(15.04.11 13:51:49 MSK)

Ответ на: комментарий от AlexVR 15.04.11 13:51:49 MSK

В т-платформах, я думаю, с таким бюджетом далеко пошлют))

eagleivg ★★★★★
(15.04.11 13:54:02 MSK)

Забыл

Копался в интернете, но так и не смог подобрать железо

Цены на такие системы чаще всего не публикуются, и это связано не с желанием скрыть их реальную стоимость, а с тем, что в каждом случае получается индивидуальная система.

AlexVR ★★★★★
(15.04.11 13:55:07 MSK)

Ссылка

Ответ на: комментарий от eagleivg 15.04.11 13:54:02 MSK

В т-платформах, я думаю, с таким бюджетом далеко пошлют))

И ошибся, они предлагают и совсем маленькие решения http://www.t-platforms.ru/ru/clusters/smp.html, http://www.t-platforms.ru/ru/clusters/psupercomputer/t-edge-mini.html

AlexVR ★★★★★
(15.04.11 13:57:37 MSK)

Ссылка

Ответ на: комментарий от eagleivg 15.04.11 13:21:39 MSK

> обмен данными между нодами

В архитектуре Fermi и стеке CUDA 4.0 поддерживается GPUDirect — обмен данными между GPU напрямую через Infiniband.

использование double - туши свет

double поддерживается аппаратно, просто double precision unit'ов в мультипроцессоре меньше, чем скалярных процессоров, поэтому пользоваться ими нужно с умом.

anonymous
(15.04.11 13:59:48 MSK)

Ответ на: комментарий от Reset 15.04.11 13:50:26 MSK

> Только идиот будет собирать кластер на генту. Для кластеров есть ALT HPC edition и другие специализированные дистрибутивы.

Для создания кластеров используются в т.ч. и не специальные дистрибутивы. Некоторые кластеры, собранные на неспециальных дистрибутивах, входят даже в топ500: http://www.top500.org/stats/list/36/os

С бюджетом в 1.000.000 руб. не очень разгуляешься с брендовыми поставщиками. Тут есть два варианта:

1. Покупать самый простой брендовый кластер с прикидкой обучить команду работе на нем, и впоследствии купить хорошее брендовое решение. Но тут нужно, чтобы ответственное лицо было хорошо знакомо с тематикой, а этого не наблюдается.

2. Решить текущие задачи, а кластерные вычисления это не профильная деятельность. Это подразумевает временное решение, которое во многом будет уступать брендовому, но будет более дешевое и сохранится возможность использовать оборудование не как кластер. Для этого openMosix (gentoo), имхо, логичней всего.

PS: знаете кто обычно громче всех орет «только идиоты» ?

soomrack ★★★★★
(15.04.11 14:07:39 MSK)

Ответ на: комментарий от soomrack 15.04.11 14:07:39 MSK

Для этого openMosix (gentoo), имхо, логичней всего.

какой нахуй мозикс и тем более с гентой? это вообще не про то

Reset ★★★★★
(15.04.11 14:10:49 MSK)

Ответ на: комментарий от Reset 15.04.11 13:50:26 MSK

> ALT HPC

ALT

facepalm.tiff

anonymous
(15.04.11 14:25:22 MSK)

Ответ на: комментарий от anonymous 15.04.11 14:25:22 MSK

а мужики то не знали

$ hostname
t60-2.parallel.ru
$ cat /etc/redhat-release 
ALT Linux 4.1 HPC (Milfoil)

Reset ★★★★★
(15.04.11 14:29:51 MSK)

Ответ на: комментарий от anonymous 15.04.11 13:59:48 MSK

GPUDirect — обмен данными между GPU напрямую через Infiniband

Насколько я понял, не напрямую, а GPU=>PCI-E=>ОЗУ=>Infiniband=>ОЗУ=>PCI-E=>Other GPU

Подозреваю, подобная схема сильно повысит латентность.

пользоваться ими нужно с умом.

Если для задачи это критично, лучше не пользоваться вовсе, ибо по производительности такое решение уступит CPU

eagleivg ★★★★★
(15.04.11 14:31:20 MSK)

Ссылка

Ответ на: комментарий от Reset 15.04.11 14:29:51 MSK

> parallel.ru

éÎÆÏÒÍÁÃÉÏÎÎÏ-ÁÎÁÌÉÔÉÞÅÓËÉÊ ÃÅÎÔÒ ÐÏ ÐÁÒÁÌÌÅÌØÎÙÍ ×ÙÞÉÓÌÅÎÉÑÍ и т.д :3

anonymous
(15.04.11 14:32:50 MSK)

Ответ на: комментарий от anonymous 15.04.11 14:32:50 MSK

поставь нормальный браузер

Reset ★★★★★
(15.04.11 14:41:50 MSK)

Ответ на: комментарий от Reset 15.04.11 14:29:51 MSK

И чем тут гордиться? Засохшим г-ном мамонта 2009го года?

anonymous
(15.04.11 14:42:07 MSK)

Ответ на: комментарий от Reset 15.04.11 14:41:50 MSK

chromium 11, firefox 4 - картина абсолютно идентичная :3

...увы ie не держим

anonymous
(15.04.11 14:43:48 MSK)

Ссылка

Ответ на: комментарий от anonymous 15.04.11 14:42:07 MSK

Это «говно мамонта» прекрасно выполняет свои задачи. Кстати, есть более новый «Ломоносов» на котором, кстати, тоже альт стоит, а не сраная гента.

Reset ★★★★★
(15.04.11 14:45:01 MSK)

Ответ на: комментарий от Reset 15.04.11 14:10:49 MSK

Я немного знаком с типами расчетов, которые возникают в задачах физической химии где используются квантовомеханические модели. И с вероятностью 0.99 они будут относится к распределенным вычислениям, НЕ к параллельным. Поэтому очень быстрые свичи не нужны. Если делать кластер под распределенные вычисления своими руками, то я бы предпочел openMosix на gentoo, т.к. и документации много, и на специализированных форумах часто обсуждается, и оптимизация под железо будет, и многое другое.

PS: было бы конструктивней, если бы вы аргументировали свои ответы чем-то кроме мата.

soomrack ★★★★★
(15.04.11 14:52:42 MSK)

Ответ на: комментарий от Reset 15.04.11 14:45:01 MSK

> Это «говно мамонта» прекрасно выполняет свои задачи. Кстати, есть более новый «Ломоносов» на котором, кстати, тоже альт стоит, а не сраная гента.

То, что суперкомпьютер Ломоносов «прекрасно выполняет свои задачи» вызывает сомнения. Вызывает сомнения что он вообще работает:

http://www.cnews.ru/news/line/index.shtml?2011/03/01/430123

+ если вы посмотрите жж сотрудников МГУ, связанных с Ломоносовым, вы, наверно, удивитесь еще больше.

soomrack ★★★★★
(15.04.11 14:58:25 MSK)

Ответ на: комментарий от soomrack 15.04.11 14:58:25 MSK

чушь какая

Reset ★★★★★
(15.04.11 15:03:45 MSK)

Ответ на: комментарий от soomrack 15.04.11 14:58:25 MSK

Браво

...хотелось бы видеть пруфы использования и пруфы от использования

//кун

anonymous
(15.04.11 15:04:52 MSK)

Ссылка

Ответ на: комментарий от Reset 15.04.11 15:03:45 MSK

> чушь какая

Конструктивно. Примеры задач, которые были решены на Ломоносове за последний год можете привести? Со ссылками на публикации в прессе, а не только на сайтах МГУ.

soomrack ★★★★★
(15.04.11 15:05:04 MSK)

Ответ на: комментарий от soomrack 15.04.11 14:52:42 MSK

И с вероятностью 0.99 они будут относится к распределенным вычислениям, НЕ к параллельным. Поэтому очень быстрые свичи не нужны. Если делать кластер под распределенные вычисления своими руками, то я бы предпочел openMosix на gentoo, т.к. и документации много, и на специализированных форумах часто обсуждается, и оптимизация под железо будет, и многое другое.

Если уж распределённые для непрофи, то лучше Condor на Debian со всеми плюшками. А оптимизация под железо для распределённых не так уж и важна, важней количество узлов.

AlexVR ★★★★★
(15.04.11 15:06:36 MSK)

Ответ на: комментарий от AlexVR 15.04.11 15:06:36 MSK

> Если уж распределённые для непрофи, то лучше Condor на Debian со всеми плюшками. А оптимизация под железо для распределённых не так уж и важна, важней количество узлов.

Тут вариантов на самом деле много. Можно вообще не париться и поставить на всех компьютерах института (на которых разрешено регламентом) что-то типа BOINC. Тут ориентироваться надо на то, с чем лучше знаком + перспектива обучения на вырост.

soomrack ★★★★★
(15.04.11 15:08:46 MSK)

Ссылка

Ответ на: комментарий от soomrack 15.04.11 14:52:42 MSK

мозикс тебе процессы будет раскидывать и перекидывать как бог на душу положит, это вообще не для вычислений технология, а для отказоусточивости и распределения нагрузки

Reset ★★★★★
(15.04.11 15:13:47 MSK)

Ссылка

Ответ на: комментарий от eagleivg 15.04.11 13:37:20 MSK

>>Реально, есть готовые решения на терафлоп и на 3 терафлопа. На прошлогоднем связьэкспокоме рядом с нами был стенд компании, они предлагали бигтауэры с 3-мя материнками в корпусе, на каждой материнке по 4-е 12-ти ядерников. Материнки соединялись infiniband по хитрой схеме, фирма поставляла к сервачку патченный MPI для него. К сожалению, не могу найти название, они были рядом со стендом 3Д Лиги, может кто вспомнит?

Вот это интересно.

Cuda нельзя. Софта нет. Athlon XP не канает для зонных расчетов из сотни атомов, к сожалению, годы ждать никто не будет! В Европе это делается на компах типа BlueGene.

Только идиот будет собирать кластер на генту. Для кластеров есть ALT HPC edition и другие специализированные дистрибутивы.

Мне кажется, это не очень важно, потому что всё равно собирать все библиотеки и софт самому, что бы выжать максимум. А уж загрузку по сети можно сделать на любом дистре. Как-то я не доверяю отечественной разработке, даже с учетом Ломоносова.

А какой это Infiniband умеет напрямую без свича?

Вот, кстати, я про это не подумал. Про Infiniband вообще не удалось много информации найти.

Но тут нужно, чтобы ответственное лицо было хорошо знакомо с тематикой, а этого не наблюдается.

Ответственное лицо и правда пока не особо разбирается в серверном железе, но, оно знакомо с расчётами и линуксом. Тема железа активно осваивается.

И с вероятностью 0.99 они будут относится к распределенным вычислениям, НЕ к параллельным.

Но таки разработчики софта рекомендуют Infiniband (это справедливо для нескольких программ, не для одной). Хотя это и правда скорее распределённые вычисления.

vitruss ★★★★★
(15.04.11 15:16:10 MSK) автор топика

Ответ на: комментарий от vitruss 15.04.11 15:16:10 MSK

>>Только идиот будет собирать кластер на генту. Для кластеров есть ALT HPC edition и другие специализированные дистрибутивы.
Мне кажется, это не очень важно, потому что всё равно собирать все библиотеки и софт самому, что бы выжать максимум. А уж загрузку по сети можно сделать на любом дистре. Как-то я не доверяю отечественной разработке, даже с учетом Ломоносова.

Замучишься выжимать максимум, упираться будешь не производительность процессоров. И нашем производителям зря не доверяешь. Как говорил выше, лучше позвони тем же Т-платформсам и проконсультируйся.

З.Ы.: еще одно скажу, тех кто будет сам писать проги для кластера, вообще лучше не допускать к их администрированию. Им начинают мешать всякого рода «условности» безопасности и открывают всё что не лень.

AlexVR ★★★★★
(15.04.11 15:27:00 MSK)

Ответ на: комментарий от soomrack 15.04.11 15:05:04 MSK

Я больше доверяю сайтам мгу чем какому-то необоснованному желтому бреду, на который ты дал ссылку. Задачи можно поискать в журнале «Вычислительные методы и программирование». Я на Ломоносове ничего не считал, хотя в начале года мне предлагали логин. Я отказался, так как Чебышева с головой хватает.

Reset ★★★★★
(15.04.11 15:28:27 MSK)

Ответ на: комментарий от vitruss 15.04.11 15:16:10 MSK

А уж загрузку по сети можно сделать на любом дистре. Как-то я не доверяю отечественной разработке, даже с учетом Ломоносова.

а ядро? а планировщик заданий?

Reset ★★★★★
(15.04.11 15:29:46 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← Сколько стоит комп такой конфигурации

Linux-hardware

Sierra MC8790 и AAO D250 →

Похожие темы