LINUX.ORG.RU

NVIDIA объявила начало продаж персонального суперкомпьютера Tesla

 , ,


0

0

Совместно со своими партнерами, компания NVIDIA разработала Персональный Суперкомпьютер Tesla, оснащенный графическими процессорами на основе архитектуры Cuda. Как было заявлено, компьютеры, использующие Tesla C1060 GPU, работают в 250 раз быстрее среднестатистического десктопа, что позволит выполнять ресурсоемкие вычисления и моделирования без доступа к обычным суперкомпьютерам. Пиковая производительность системы оценивается в 4 TFLops.

Цена одной карты Tesla C1060 $1,699. Полноценный рабочий суперкомпьютер будет стоить порядка $10,000.

Основные характеристики архитектуры:

  • 240 ядер в одном графическом процессоре,
  • операции с целыми числами и числами с плавающей точкой одинарной и двойной точности (IEEE 754),
  • производительность каждого графического процессора при работе с числами с плавающей точкой одинарной точности - 933 GFlops, двойной точности - 78 GFlops,
  • пиковая пропускная способность памяти - 102 GB/s.

Средства для разработки, входящие в комплект поставки, включают в себя компилятор языка С, отладчик и профайлер. А также некоторые численные библиотеки (FFT, BLAS) и библиотеку CuDPP (CUDA Data Parallel Primitives).

Технические характеристики суперкомпьютера:

  • 3 или 4 вычислительных процессора Tesla C1060 с 4 Гб (dedicated) ОЗУ для каждого процессора,
  • 2.33 ГГц 4-ядерный AMD Phenom или Opteron, или же 4-ядерный Intel Core 2 или Xeon,
  • БП 1200-1350 Watt, подключается к обычной розетке,
  • уровень шума < 45dbA.

Среди поддерживаемых операционных систем заявлены дистрибутивы GNU/Linux Red Hat Enterprise Linux 4/5 и SUSE 10.1, 10.2, 10.3 (как 32-битные, так и 64-битные).

Более детельно ознакомиться с описанием системы можно на соответствующем сайте NVIDIA Tesla Personal Supercomputer.

Компании, которые будут продавать Tesla Personal Supercomputers: Dell, Lenovo, Asus, Western Scientific и некоторые другие.

>>> Подробности

Ответ на: комментарий от Aceler

> А виндузятники вообще в шоке!

Не говорите, они, наверное, сначала подумали, что это для Windows 7 + MS Ofezz железо сделали ))

FieryVortex
()
Ответ на: комментарий от Laz

> Плохо представляю, кому может понадобиться это чудо для персонального использования (заявлено-то оно как "Персональный Суперкомпьютер").

Моделистам физики, которым хватает двойной точности.

sv75 ★★★★★
()
Ответ на: комментарий от lord_pnevmoslon

> Сколько ФПС в ждалкере? Ты бы ещё спросил, а сколько кадров показывает glx_gears :)))

Vest
()
Ответ на: комментарий от anonymous

>Крупный логотип Висты в инет-магазине российского поставщика

(со слезами радости) Теперь я знаю, на какой машине не тормозит Виста!

anonymous
()

Жаль только, что на double-ах производительность на порядок меньше чем на 32-битных числах.

anonymous
()
Ответ на: комментарий от kto_tama

> довольно узкая ниша у этого изделия

Безусловно. Более того, падение производительности на порядок (!!!) пр переходе с single на double -- не очень-то вдохновляет.

Но вот у меня в комнате как раз сидит господин с задачами под эту теслу. А тут как раз её NVidia начинает предлагать ее для вузов, возможно мы договоримся, если в подарок. Смущает, правда, пропиетарный nvcc :(

sv75 ★★★★★
()
Ответ на: комментарий от anonymous

> то есть вообще ничего не сделано кроме увеличения памяти. зато цену они подняли в несколько раз. типичный маркетоидный выхлоп.

Потому что рынок Уже на несколько порядков.

sv75 ★★★★★
()

Обычный лохотрон и искусственное деления продуктов по нишам.

madcore ★★★★★
()
Ответ на: комментарий от anonymous

>Крупный логотип Висты в инет-магазине российского поставщика развеял все сомнения :)

>http://www.meijin.ru/portal/page/portal/ptl/shoppcdscr?goodsid=62675&prm=...

Вооот, нормальные люди будут моделированием заниматься, а вендузятники как всегда fps'ами в висте меряться!? =)))

Freiheits-Sender ★★
()
Ответ на: комментарий от anonymous

> На двойной точности тесла сасёд

А кстати интересно, это падение на порядок даёт в *лучшем* случае насколько убыстрение решения на этом ящике по сравнению с типовым четырёхядерником? Где смотреть график?

sv75 ★★★★★
()
Ответ на: комментарий от Ultracpp

> IO-block и context switching вам о чем-то говорит?

См. в сторону open CL

namezys ★★★★
()
Ответ на: комментарий от anonymous

> вот и с куда так. пока опенсл не будет работать на карточках нвидии, ати и интел использовать такие вещи особенного смысла нет

open CL точно поддерживает компиляцию в x86_64 (для корок) и видео чипы AMD; про nvidia не знаю. но тоже 100% к релизу

namezys ★★★★
()
Ответ на: комментарий от sv75

> А кстати интересно, это падение на порядок даёт в *лучшем* случае

У меня есть мнение (которое я давно говорю любителям орать про использование CUDE в расчетах) что пока рано. Не так точность, не те возможности. Спектр задачь очень мал

Но для домашней обработки очень даже хорошо: * накладывать эфекты видео, обработка аудио, синтез * всякие помощи при работе с графикой, может даже конечный рендеринг (вроде тот же фотошоп работает с 48 битным цветом всего, а для плавующей точки и 32 бита хватит)

В общем пока применение - это рабочие станции (и некоторые, очень специфичные задачи)

ЗЫ: А помните время, когда память на карточках разгонялась и работала не стабильно. Давала ощутимую ошибку, но в играх вылет одного пикселя на 10 кадров не кого не волновало

namezys ★★★★
()
Ответ на: комментарий от sv75

> А кстати интересно, это падение на порядок даёт в *лучшем* случае насколько убыстрение решения на этом ящике по сравнению с типовым четырёхядерником? Где смотреть график?

As of 2008, the fastest PC processors (quad-core) perform over 51 GFLOPS(QX9775)

anonymous
()
Ответ на: комментарий от namezys

> У меня есть мнение (которое я давно говорю любителям орать про использование CUDE в расчетах) что пока рано.

Ну если за своим покупать и завтра считать, возможно. А для нас, академиев, было бы как раз -- когда бы не всё было бы закрытым и пропиетарным, включая nvcc :(

> (вроде тот же фотошоп работает с 48 битным цветом всего, а для плавующей точки и 32 бита хватит)

Не с 48, а с 16 (x3 канала), и ещё с вещественным (single точно хватит)

sv75 ★★★★★
()
Ответ на: комментарий от anonymous

> As of 2008, the fastest PC processors (quad-core) perform over 51 GFLOPS(QX9775)

Против 80GF в double precision от одной теслы (итого 320 от четырёх) -- мда, фигня-с какая-то выходит.

sv75 ★★★★★
()
Ответ на: комментарий от sv75

> Против 80GF в double precision от одной теслы (итого 320 от четырёх) -- мда, фигня-с какая-то выходит

Ну если нужно гоняться за флопсами, то посмотрите на Ati 4870 X2: 2.4 TFlops single-precision, 480 GFlops double-precision. Ну и конечно никто не запрещает поставить несколько таких карт. Сколько понадобиться коре квадов для сответствия четырём таким картам?

anonymous
()
Ответ на: комментарий от anonymous

> Ну если нужно гоняться за флопсами,

нет, мне не нужно, но нужно понять смысл.

> то посмотрите на Ati 4870 X2

А какой у них API для физиков? Через год там будет Open CL при бинарном закрытом драйвере?

sv75 ★★★★★
()
Ответ на: комментарий от gln0fate

> да, 2 в 1 :D

Судя по прочитанному, иное применение у этого ящика ещё поискать...

sv75 ★★★★★
()
Ответ на: комментарий от anonymous

> As of 2008, the fastest PC processors (quad-core) perform over 51 GFLOPS(QX9775)

Причём это опять же single. На double будет в лучшем случае пополам.

const86 ★★★★★
()
Ответ на: комментарий от anonymous

> именно для физиков - незнаю, теперь C-подобный (Brook+ compiler).

Хмм, а почему ATI не пытается пропихнуть его в академию с той же яростью, что и NVDidia пихает свою Cuda?

В целом я понял -- лучше всего расслабиться до поддержки Ati OpenCL. Cuda тормозит в DP и полностью закрытая, внедрение её в курсы может быть расценено как вредительство :)

sv75 ★★★★★
()
Ответ на: комментарий от sv75

>> As of 2008, the fastest PC processors (quad-core) perform over 51 GFLOPS(QX9775)

>Против 80GF в double precision от одной теслы (итого 320 от четырёх) -- мда, фигня-с какая-то выходит.

Да нет, не фигня. На этом quad-core обычная Fortran программа пойдёт, только скомпилировал и в путь. А на Nvidia?

Вот самая большая проблема всех этих Cuda, Cell, и иже с ними. Никто не будет переписывать накопленный багаж программ под очередные fancy платформы. Банально, дорого. Ну, конечно, за исключением случаев, когда ресурсы - не вопрос. Таких случаев мало.

VIT
()

Мда... Обещают разные суперкомпы на столах юзеров уже давно. Что там с прогнозируемыми суперперсоналками на Cell ?

А наделавшая много шума в определённых кругах в 2005 г. платка для матрасчётов Сlearspeed? Её вообще можно в обычную материнку вставить, и не одну. Даёт 96 Гфлопс при двойной точности (так говорят производители). http://www.clearspeed.com/products/csx700/. В 2005 стоила около $5000.

Но что-то этих навороченных рабочих станций пока нигде не видно :)

Stalin ★★★★★
()
Ответ на: комментарий от VIT

> Да нет, не фигня. На этом quad-core обычная Fortran программа пойдёт, только скомпилировал и в путь. А на Nvidia?

ну OpenCL на основе LLVM, так что компиляторы под любое железо -- только вопрос времени. Что-то может и сейчас заведется через F2C+(clang+LLVM=OpenCL), что-то может допишут для фортрана, как сейчас clang

>Вот самая большая проблема всех этих Cuda, Cell, и иже с ними. Никто не будет переписывать накопленный багаж программ под очередные fancy платформы. Банально, дорого. Ну, конечно, за исключением случаев, когда ресурсы - не вопрос. Таких случаев мало.

можно тупо посчитать. 1 раз переписать + пользоваться на n узлах в кластере или просто добавить железа в кластер и ничего не переписывать. При каких n отрыв в гигафлопсах будет настолько большой, чтобы оправдать разработку.

Переписывать надо, ибо. Архитектура в плане кеширования другая.

anonymous
()
Ответ на: комментарий от sv75

Ну закрытый драйвер для Open CL нам не избежать. Дрова то на видио закрытые

Хотя здесь у того же АМД есть замечательная возможность делать все окрытым, что не обрасти потом проблемами с открытием дров.

Для CPU я думаю скорее всего это будет открыто

А вот как поведет себя NVIDIA один бог знает (но точно сделают, или их яблоко пошлет)

namezys ★★★★
()
Ответ на: комментарий от anonymous

> ну OpenCL на основе LLVM, так что компиляторы под любое железо

Пока Open CL очень низкоуровневое решение. Так же как и GL

На его же основе очень хорошо бы написать что-то достаточно высокоуровневое, я думаю это не так и сложно

> можно тупо посчитать. 1 раз переписать + пользоваться на n узлах в кластере или просто добавить железа в кластер и ничего не переписывать

Главное при этом, что эта архитектура не прявязана к железу. Один раз переписал, а потом при смене железа все будет работать. Как в Жабе.

Разумно сделано. Я думаю, что если даже щас не хватает чего-то в GPU, то все равно это может иметь смысл писать на OpenCL, пока будет работать на CPU, а через год и на GPU будет собираться

namezys ★★★★
()
Ответ на: комментарий от anonymous

>>>>производительность каждого графического процессора при работе с числами с плавающей точкой одинарной точности - 933 GFlops, двойной точности - 78 GFlops,
>>> кстати смешно что у них увеличение точности вызвало падение производительности почти в 10 раз

>В GTX280 для 32-х битных и 64-х битных вычислений используются разные потоковые процессоры. 32-х битных - 240. 64-х битных - 30. Отсюда и разница в скорости


что-то не сходится по пропорции. 933/78=11.96, 240/30=8. 933/240*30=116.625, не доложили 38,625 гигафлопса.

anonymous
()
Ответ на: комментарий от Orlusha

> расчёт которой с увеличенной точностью ЧРЕЗВЫЧАЙНО трудоёмок. О замедлении в 3 раза на мат. функциях речь идти не может; на порядок -- дай-то Бог. Именно хорошо и БЫСТРО рассчитываемые мат. функции с четырехкратной точностью делают спарку незаменимой: на реализации этих функций написана не одна докторская диссертация

ну если есть аналитическое решение, можно считать с любой точностью на каком-нибудь хаскелле или лиспе. Вот если решение есть только численное, и какой-нибудь сеточный метод, и модель при single неустойчивая, только при double -- тогда да.

anonymous
()
Ответ на: комментарий от anonymous

> Глядишь, лет через 5 и до голографических дисплеев дело дойдёт. Правда маленьких, дюйма так на 3.

в очки поместятся.

anonymous
()
Ответ на: комментарий от VIT

> На этом quad-core обычная Fortran программа пойдёт, только скомпилировал и в путь. А на Nvidia?

Ну лично мне на это как раз плевать. Специфика деятельности.

sv75 ★★★★★
()

в 90-ых SGI не осилили рынок простых юзеров. посмотрим че у этих получится...

Isus
()
Ответ на: комментарий от anonymous

> можно тупо посчитать. 1 раз переписать + пользоваться на n узлах в кластере или просто добавить железа в кластер и ничего не переписывать. При каких n отрыв в гигафлопсах будет настолько большой, чтобы оправдать разработку.

> Переписывать надо, ибо. Архитектура в плане кеширования другая.

Посчитать то можно. Но переписывать что-либо, да даже просто "улучшать", всё равно никто не будет. Слишком строчка кода дорога.

VIT
()
Ответ на: комментарий от sv75

>> На этом quad-core обычная Fortran программа пойдёт, только скомпилировал и в путь. А на Nvidia?

>Ну лично мне на это как раз плевать. Специфика деятельности.

Так не о Вас лично речь...

VIT
()
Ответ на: комментарий от VIT

>Посчитать то можно. Но переписывать что-либо, да даже просто "улучшать", всё равно никто не будет. Слишком строчка кода дорога.

Переписывают. Даже не смотря на то, что "Слишком строчка кода дорога". В частности с x86 на Cell

Led ★★★☆☆
()
Ответ на: комментарий от Led

>>Посчитать то можно. Но переписывать что-либо, да даже просто "улучшать", всё равно никто не будет. Слишком строчка кода дорога.

>Переписывают. Даже не смотря на то, что "Слишком строчка кода дорога". В частности с x86 на Cell

Примеры знаете?

VIT
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.