LINUX.ORG.RU

Суперкомпьютер из видеокарт

 , fastra, , ,


0

0

В университете города Антверпен собрали суперкомпьютер из 7 видеокарт nVidia GTX 275 и GTX 295. Управляющая ОС - CentOS 5.3. Применение - электронная томография. Итоговая стоимость около €6000.

>>> Подробности



Проверено: Dimez ()
Последнее исправление: Deleted (всего исправлений: 3)

Надо бы добавить, что ребята за 6 килоевро получили 12 терафлоп. При том, что МГУшный делает 48терафлоп. Только вот денег на него откачено несколько мегадолларов.

Откат-телеком в действии.

ignik
()
Ответ на: комментарий от ignik

> за 6 килоевро получили 12 терафлоп.

Они конечно молодцы, но далеко не всем хватает однократной точности (или не все умеют решать свои задачи использую однократную точность). А на двукратной точности такой огромной разницы в flops/$ по сравнению с интеловкими процессорами уже нет. Во-вторых карточки nvidia это сборка нескольких SIMD. Если код сильно зависит от данных (например, куча ветвлений), то распараллелить на SIMD может не получиться.

При том, что МГУшный делает 48терафлоп. Только вот денег на него откачено несколько мегадолларов.

А не 420 Tflops? Но энергопотребление конечно впечатляет: 1.5 МВт - это знатный обогреватель.

У товарищей метод решения задачи правильный: под конкретную задачу (томография или что там у них) собрали вычислитель с оптимальными характеристиками. А не как у нас обычно: сначала купят дорогущий вычислитель, а потом долго думают а что же на нём можно подсчитать, кроме курсовых студентов.

HexGhost
()
Ответ на: Приветствую от psi

>А на 1к ядер ?)

Цена и модность прогера прямо пропорциональна числу ядер сборки а их (прогеров) распространённость прямо пропорциональна распространённости таких сборок :))

sS ★★★★★
()
Ответ на: комментарий от HexGhost

>Они конечно молодцы, но далеко не всем хватает однократной точности (или не все умеют решать свои задачи использую однократную точность). А на двукратной точности такой огромной разницы в flops/$ по сравнению с интеловкими процессорами уже нет. Во-вторых карточки nvidia это сборка нескольких SIMD. Если код сильно зависит от данных (например, куча ветвлений), то распараллелить на SIMD может не получиться.

Основная болезнь сборок на GPU на данный момент это не столько точность (эту проблему частично решили в последних) сколько ограниченность внутренней памяти GPU и что самое важное - слишком большие затраты на загрузку/выгрузку данных в оную из/в основной/ую памяти узла.

А не 420 Tflops?

http://top500.org/system/performance/10189

sS ★★★★★
()
Ответ на: комментарий от sS

> ограниченность внутренней памяти GPU

Вы про размер или про мега весёлую иерархию памяти CUDA? Если про первое - то на consumer карточках до 2ГБ на карту (т.е. для вышеупомянутой сборки из 6+1 карты можно получить 12 ГБ памяти). На tesla карточках до 6 Гб (т.е. 6*6 = 36 ГБ памяти). Этого сильно мало?

слишком большие затраты на загрузку/выгрузку данных в оную из/в основной/ую памяти узла.

А есть потребность постоянно дергать задачу туда-сюда? Если задача вычислительная - то закинул на карточку и вынимать только через несколько суток. А вот если вы sql сервер на видеокарте хотите написать - то да, это проблема ;-)

HexGhost
()
Ответ на: комментарий от HexGhost

>А есть потребность постоянно дергать задачу туда-сюда? Если задача вычислительная - то закинул на карточку и вынимать только через несколько суток.

Ога, например сильносвязанные (например CFD) задачи это как раз перегон данных туда-сюда-обратно :)

А вот если вы sql сервер на видеокарте хотите написать

«sql сервер» это что ? :)

sS ★★★★★
()
Ответ на: комментарий от sS

> например сильносвязанные (например CFD) задачи это как раз перегон данных туда-сюда-обратно

А как на обычном кластере это решается? Т.е. чем кластерный ethernet/infiniband лучше связи (основная память)-видеокарта по pci-e x16?

«sql сервер» это что ? :)

Некоторые горячие головы предлагают ускорить СУБД переносом их на GPU.

HexGhost
()
Ответ на: комментарий от HexGhost

>А как на обычном кластере это решается? Т.е. чем кластерный ethernet/infiniband лучше связи (основная память)-видеокарта по pci-e x16?

Решается оптимальным разбиением задачи и минимизацией числа обменов.

Ну и потом в GPU одной выгрузкой/загрузкой не обойтись как при том же halo exchange в классическом кластере... бывают вообще критические случаи на некоторых сериално эффективных алгоритмах когда количество обменов «все со всеми» зашкаливает. На таких задачах GPU просто будет простаивать большую часть времени.

sS ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.