NVIDIA объявила начало продаж персонального суперкомпьютера Tesla

0

0

Совместно со своими партнерами, компания NVIDIA разработала Персональный Суперкомпьютер Tesla, оснащенный графическими процессорами на основе архитектуры Cuda. Как было заявлено, компьютеры, использующие Tesla C1060 GPU, работают в 250 раз быстрее среднестатистического десктопа, что позволит выполнять ресурсоемкие вычисления и моделирования без доступа к обычным суперкомпьютерам. Пиковая производительность системы оценивается в 4 TFLops.

Цена одной карты Tesla C1060 $1,699. Полноценный рабочий суперкомпьютер будет стоить порядка $10,000.

Основные характеристики архитектуры:

240 ядер в одном графическом процессоре,
операции с целыми числами и числами с плавающей точкой одинарной и двойной точности (IEEE 754),
производительность каждого графического процессора при работе с числами с плавающей точкой одинарной точности - 933 GFlops, двойной точности - 78 GFlops,
пиковая пропускная способность памяти - 102 GB/s.

Средства для разработки, входящие в комплект поставки, включают в себя компилятор языка С, отладчик и профайлер. А также некоторые численные библиотеки (FFT, BLAS) и библиотеку CuDPP (CUDA Data Parallel Primitives).

Технические характеристики суперкомпьютера:

3 или 4 вычислительных процессора Tesla C1060 с 4 Гб (dedicated) ОЗУ для каждого процессора,
2.33 ГГц 4-ядерный AMD Phenom или Opteron, или же 4-ядерный Intel Core 2 или Xeon,
БП 1200-1350 Watt, подключается к обычной розетке,
уровень шума < 45dbA.

Среди поддерживаемых операционных систем заявлены дистрибутивы GNU/Linux Red Hat Enterprise Linux 4/5 и SUSE 10.1, 10.2, 10.3 (как 32-битные, так и 64-битные).

Более детельно ознакомиться с описанием системы можно на соответствующем сайте NVIDIA Tesla Personal Supercomputer.

Компании, которые будут продавать Tesla Personal Supercomputers: Dell, Lenovo, Asus, Western Scientific и некоторые другие.

>>> Подробности

Ссылка

←	Встреча пользователей Moscow MySQL User Group

Как быть хорошим (и ленивым) сисадмином

→

← 1 2 3 →

Ответ на: комментарий от isden 24.11.08 21:49:43 MSK

>гентушнеги негодуют.

ты не нужен

plab ★
(25.11.08 11:17:57 MSK)

Ссылка

Ответ на: комментарий от isden 24.11.08 21:49:43 MSK

> гентушнеги негодуют.

А виндузятники вообще в шоке!

Aceler ★★★★★
(25.11.08 11:24:06 MSK)

Ответ на: комментарий от Aceler 25.11.08 11:24:06 MSK

> А виндузятники вообще в шоке!

Не говорите, они, наверное, сначала подумали, что это для Windows 7 + MS Ofezz железо сделали ))

FieryVortex
(25.11.08 11:36:56 MSK)

Ссылка

Ответ на: комментарий от Laz 25.11.08 08:52:27 MSK

> Плохо представляю, кому может понадобиться это чудо для персонального использования (заявлено-то оно как "Персональный Суперкомпьютер").

Моделистам физики, которым хватает двойной точности.

sv75 ★★★★★
(25.11.08 11:39:40 MSK)

Ссылка

Ответ на: комментарий от Aceler 25.11.08 11:24:06 MSK

> А виндузятники вообще в шоке!

Винда, как я понимаю, поддерживается.

sv75 ★★★★★
(25.11.08 11:40:16 MSK)

Крупный логотип Висты в инет-магазине российского поставщика развеял все сомнения :)

http://www.meijin.ru/portal/page/portal/ptl/shoppcdscr?goodsid=62675&prm=...

anonymous
(25.11.08 12:34:34 MSK)

Ответ на: комментарий от lord_pnevmoslon 24.11.08 22:54:02 MSK

> Сколько ФПС в ждалкере? Ты бы ещё спросил, а сколько кадров показывает glx_gears :)))

Vest
(25.11.08 12:43:53 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.11.08 12:34:34 MSK

>Крупный логотип Висты в инет-магазине российского поставщика

(со слезами радости) Теперь я знаю, на какой машине не тормозит Виста!

anonymous
(25.11.08 12:55:31 MSK)

Ссылка

Ответ на: комментарий от Gharik 25.11.08 09:27:46 MSK

>А также некоторые численные библиотеки (FFT, BLAS)

кстати, интересная новость была 
http://www.geeks3d.com/?p=2275
Математика тоже осваивает эту технологию.

Valeriy_Onuchin ★★
(25.11.08 12:57:39 MSK)

Ссылка

Ответ на: комментарий от sv75 25.11.08 11:40:16 MSK

довольно узкая ниша у этого изделия

kto_tama ★★★★★
(25.11.08 13:23:58 MSK)

Жаль только, что на double-ах производительность на порядок меньше чем на 32-битных числах.

anonymous
(25.11.08 13:40:15 MSK)

Ссылка

Ответ на: комментарий от kto_tama 25.11.08 13:23:58 MSK

> довольно узкая ниша у этого изделия

Безусловно. Более того, падение производительности на порядок (!!!) пр переходе с single на double -- не очень-то вдохновляет.

Но вот у меня в комнате как раз сидит господин с задачами под эту теслу. А тут как раз её NVidia начинает предлагать ее для вузов, возможно мы договоримся, если в подарок. Смущает, правда, пропиетарный nvcc :(

sv75 ★★★★★
(25.11.08 13:42:02 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.11.08 07:58:16 MSK

> то есть вообще ничего не сделано кроме увеличения памяти. зато цену они подняли в несколько раз. типичный маркетоидный выхлоп.

Потому что рынок Уже на несколько порядков.

sv75 ★★★★★
(25.11.08 13:43:58 MSK)

Ссылка

Обычный лохотрон и искусственное деления продуктов по нишам.

madcore ★★★★★
(25.11.08 13:50:19 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.11.08 12:34:34 MSK

>Крупный логотип Висты в инет-магазине российского поставщика развеял все сомнения :)

>http://www.meijin.ru/portal/page/portal/ptl/shoppcdscr?goodsid=62675&prm=...

Вооот, нормальные люди будут моделированием заниматься, а вендузятники как всегда fps'ами в висте меряться!? =)))

Freiheits-Sender ★★
(25.11.08 14:01:48 MSK)

Ссылка

Ответ на: комментарий от sv75 25.11.08 04:46:57 MSK

На двойной точности тесла сасёд

anonymous
(25.11.08 14:05:32 MSK)

Ответ на: комментарий от anonymous 25.11.08 14:05:32 MSK

> На двойной точности тесла сасёд

А кстати интересно, это падение на порядок даёт в *лучшем* случае насколько убыстрение решения на этом ящике по сравнению с типовым четырёхядерником? Где смотреть график?

sv75 ★★★★★
(25.11.08 15:01:13 MSK)

Ответ на: комментарий от Ultracpp 25.11.08 04:04:29 MSK

> IO-block и context switching вам о чем-то говорит?

См. в сторону open CL

namezys ★★★★
(25.11.08 15:01:25 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.11.08 08:51:29 MSK

> вот и с куда так. пока опенсл не будет работать на карточках нвидии, ати и интел использовать такие вещи особенного смысла нет

open CL точно поддерживает компиляцию в x86_64 (для корок) и видео чипы AMD; про nvidia не знаю. но тоже 100% к релизу

namezys ★★★★
(25.11.08 15:03:09 MSK)

Ссылка

Ответ на: комментарий от sv75 25.11.08 15:01:13 MSK

> А кстати интересно, это падение на порядок даёт в *лучшем* случае

У меня есть мнение (которое я давно говорю любителям орать про использование CUDE в расчетах) что пока рано. Не так точность, не те возможности. Спектр задачь очень мал

Но для домашней обработки очень даже хорошо: * накладывать эфекты видео, обработка аудио, синтез * всякие помощи при работе с графикой, может даже конечный рендеринг (вроде тот же фотошоп работает с 48 битным цветом всего, а для плавующей точки и 32 бита хватит)

В общем пока применение - это рабочие станции (и некоторые, очень специфичные задачи)

ЗЫ: А помните время, когда память на карточках разгонялась и работала не стабильно. Давала ощутимую ошибку, но в играх вылет одного пикселя на 10 кадров не кого не волновало

namezys ★★★★
(25.11.08 15:07:45 MSK)

Ответ на: комментарий от sv75 25.11.08 15:01:13 MSK

> А кстати интересно, это падение на порядок даёт в *лучшем* случае насколько убыстрение решения на этом ящике по сравнению с типовым четырёхядерником? Где смотреть график?

As of 2008, the fastest PC processors (quad-core) perform over 51 GFLOPS(QX9775)

anonymous
(25.11.08 15:31:29 MSK)

Ответ на: комментарий от namezys 25.11.08 15:07:45 MSK

> У меня есть мнение (которое я давно говорю любителям орать про использование CUDE в расчетах) что пока рано.

Ну если за своим покупать и завтра считать, возможно. А для нас, академиев, было бы как раз -- когда бы не всё было бы закрытым и пропиетарным, включая nvcc :(

> (вроде тот же фотошоп работает с 48 битным цветом всего, а для плавующей точки и 32 бита хватит)

Не с 48, а с 16 (x3 канала), и ещё с вещественным (single точно хватит)

sv75 ★★★★★
(25.11.08 15:34:57 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.11.08 15:31:29 MSK

> As of 2008, the fastest PC processors (quad-core) perform over 51 GFLOPS(QX9775)

Против 80GF в double precision от одной теслы (итого 320 от четырёх) -- мда, фигня-с какая-то выходит.

sv75 ★★★★★
(25.11.08 15:37:10 MSK)

моим бы детям такой....

~~gln0fate~~ ★★
(25.11.08 15:38:11 MSK)

Ответ на: комментарий от gln0fate 25.11.08 15:38:11 MSK

> моим бы детям такой....

Греться?

sv75 ★★★★★
(25.11.08 15:41:19 MSK)

Ответ на: комментарий от sv75 25.11.08 15:37:10 MSK

> Против 80GF в double precision от одной теслы (итого 320 от четырёх) -- мда, фигня-с какая-то выходит

Ну если нужно гоняться за флопсами, то посмотрите на Ati 4870 X2: 2.4 TFlops single-precision, 480 GFlops double-precision. Ну и конечно никто не запрещает поставить несколько таких карт. Сколько понадобиться коре квадов для сответствия четырём таким картам?

anonymous
(25.11.08 15:51:57 MSK)

Ответ на: комментарий от anonymous 25.11.08 15:51:57 MSK

> Ну если нужно гоняться за флопсами,

нет, мне не нужно, но нужно понять смысл.

> то посмотрите на Ati 4870 X2

А какой у них API для физиков? Через год там будет Open CL при бинарном закрытом драйвере?

sv75 ★★★★★
(25.11.08 16:03:10 MSK)

Ответ на: комментарий от sv75 25.11.08 15:41:19 MSK

> Греться?

да, 2 в 1 :D

~~gln0fate~~ ★★
(25.11.08 16:09:33 MSK)

Ответ на: комментарий от gln0fate 25.11.08 16:09:33 MSK

> да, 2 в 1 :D

Судя по прочитанному, иное применение у этого ящика ещё поискать...

sv75 ★★★★★
(25.11.08 16:11:57 MSK)

Ссылка

Ответ на: комментарий от sv75 25.11.08 16:03:10 MSK

> А какой у них API для физиков?

именно для физиков - незнаю, теперь C-подобный (Brook+ compiler). Раньше вроде предлагали писать на ASM-подобном.

http://ati.amd.com/technology/streamcomputing/sdkdwnld.html

anonymous
(25.11.08 16:14:22 MSK)

Ответ на: комментарий от anonymous 25.11.08 15:31:29 MSK

> As of 2008, the fastest PC processors (quad-core) perform over 51 GFLOPS(QX9775)

Причём это опять же single. На double будет в лучшем случае пополам.

const86 ★★★★★
(25.11.08 16:26:44 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.11.08 16:14:22 MSK

> именно для физиков - незнаю, теперь C-подобный (Brook+ compiler).

Хмм, а почему ATI не пытается пропихнуть его в академию с той же яростью, что и NVDidia пихает свою Cuda?

В целом я понял -- лучше всего расслабиться до поддержки Ati OpenCL. Cuda тормозит в DP и полностью закрытая, внедрение её в курсы может быть расценено как вредительство :)

sv75 ★★★★★
(25.11.08 16:28:30 MSK)

Ссылка

Ответ на: комментарий от sv75 25.11.08 15:37:10 MSK

>> As of 2008, the fastest PC processors (quad-core) perform over 51 GFLOPS(QX9775)

>Против 80GF в double precision от одной теслы (итого 320 от четырёх) -- мда, фигня-с какая-то выходит.

Да нет, не фигня. На этом quad-core обычная Fortran программа пойдёт, только скомпилировал и в путь. А на Nvidia?

Вот самая большая проблема всех этих Cuda, Cell, и иже с ними. Никто не будет переписывать накопленный багаж программ под очередные fancy платформы. Банально, дорого. Ну, конечно, за исключением случаев, когда ресурсы - не вопрос. Таких случаев мало.

VIT ★
(25.11.08 16:50:24 MSK)

Мда... Обещают разные суперкомпы на столах юзеров уже давно. Что там с прогнозируемыми суперперсоналками на Cell ?

А наделавшая много шума в определённых кругах в 2005 г. платка для матрасчётов Сlearspeed? Её вообще можно в обычную материнку вставить, и не одну. Даёт 96 Гфлопс при двойной точности (так говорят производители). http://www.clearspeed.com/products/csx700/. В 2005 стоила около $5000.

Но что-то этих навороченных рабочих станций пока нигде не видно :)

Stalin ★★★★★
(25.11.08 17:55:36 MSK)

Ответ на: комментарий от VIT 25.11.08 16:50:24 MSK

> Да нет, не фигня. На этом quad-core обычная Fortran программа пойдёт, только скомпилировал и в путь. А на Nvidia?

ну OpenCL на основе LLVM, так что компиляторы под любое железо -- только вопрос времени. Что-то может и сейчас заведется через F2C+(clang+LLVM=OpenCL), что-то может допишут для фортрана, как сейчас clang

>Вот самая большая проблема всех этих Cuda, Cell, и иже с ними. Никто не будет переписывать накопленный багаж программ под очередные fancy платформы. Банально, дорого. Ну, конечно, за исключением случаев, когда ресурсы - не вопрос. Таких случаев мало.

можно тупо посчитать. 1 раз переписать + пользоваться на n узлах в кластере или просто добавить железа в кластер и ничего не переписывать. При каких n отрыв в гигафлопсах будет настолько большой, чтобы оправдать разработку.

Переписывать надо, ибо. Архитектура в плане кеширования другая.

anonymous
(25.11.08 18:33:05 MSK)

Ответ на: комментарий от sv75 25.11.08 16:03:10 MSK

Ну закрытый драйвер для Open CL нам не избежать. Дрова то на видио закрытые

Хотя здесь у того же АМД есть замечательная возможность делать все окрытым, что не обрасти потом проблемами с открытием дров.

Для CPU я думаю скорее всего это будет открыто

А вот как поведет себя NVIDIA один бог знает (но точно сделают, или их яблоко пошлет)

namezys ★★★★
(25.11.08 18:35:12 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.11.08 18:33:05 MSK

> ну OpenCL на основе LLVM, так что компиляторы под любое железо

Пока Open CL очень низкоуровневое решение. Так же как и GL

На его же основе очень хорошо бы написать что-то достаточно высокоуровневое, я думаю это не так и сложно

> можно тупо посчитать. 1 раз переписать + пользоваться на n узлах в кластере или просто добавить железа в кластер и ничего не переписывать

Главное при этом, что эта архитектура не прявязана к железу. Один раз переписал, а потом при смене железа все будет работать. Как в Жабе.

Разумно сделано. Я думаю, что если даже щас не хватает чего-то в GPU, то все равно это может иметь смысл писать на OpenCL, пока будет работать на CPU, а через год и на GPU будет собираться

namezys ★★★★
(25.11.08 18:39:27 MSK)

Ссылка

Ответ на: комментарий от anonymous 24.11.08 23:21:17 MSK

>>>>производительность каждого графического процессора при работе с числами с плавающей точкой одинарной точности - 933 GFlops, двойной точности - 78 GFlops,
>>> кстати смешно что у них увеличение точности вызвало падение производительности почти в 10 раз
>В GTX280 для 32-х битных и 64-х битных вычислений используются разные потоковые процессоры. 32-х битных - 240. 64-х битных - 30. Отсюда и разница в скорости

что-то не сходится по пропорции. 933/78=11.96, 240/30=8. 933/240*30=116.625, не доложили 38,625 гигафлопса.

anonymous
(25.11.08 18:41:38 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.11.08 00:29:42 MSK

>Чего-то я не понял... Именно ЯДЕР ?

именно. См. про SIMT "Разница между CPU и GPU в параллельных расчётах" http://www.ixbt.com/video3/cuda-1.shtml

anonymous
(25.11.08 18:53:19 MSK)

Ссылка

Ответ на: комментарий от Orlusha 25.11.08 02:17:54 MSK

> расчёт которой с увеличенной точностью ЧРЕЗВЫЧАЙНО трудоёмок. О замедлении в 3 раза на мат. функциях речь идти не может; на порядок -- дай-то Бог. Именно хорошо и БЫСТРО рассчитываемые мат. функции с четырехкратной точностью делают спарку незаменимой: на реализации этих функций написана не одна докторская диссертация

ну если есть аналитическое решение, можно считать с любой точностью на каком-нибудь хаскелле или лиспе. Вот если решение есть только численное, и какой-нибудь сеточный метод, и модель при single неустойчивая, только при double -- тогда да.

anonymous
(25.11.08 19:06:25 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.11.08 03:03:47 MSK

> Глядишь, лет через 5 и до голографических дисплеев дело дойдёт. Правда маленьких, дюйма так на 3.

в очки поместятся.

anonymous
(25.11.08 19:07:55 MSK)

Ссылка

Ответ на: комментарий от VIT 25.11.08 16:50:24 MSK

> На этом quad-core обычная Fortran программа пойдёт, только скомпилировал и в путь. А на Nvidia?

Ну лично мне на это как раз плевать. Специфика деятельности.

sv75 ★★★★★
(25.11.08 20:31:23 MSK)

в 90-ых SGI не осилили рынок простых юзеров. посмотрим че у этих получится...

Isus
(25.11.08 21:37:49 MSK)

Ссылка

Ответ на: комментарий от anonymous 25.11.08 18:33:05 MSK

> можно тупо посчитать. 1 раз переписать + пользоваться на n узлах в кластере или просто добавить железа в кластер и ничего не переписывать. При каких n отрыв в гигафлопсах будет настолько большой, чтобы оправдать разработку.

> Переписывать надо, ибо. Архитектура в плане кеширования другая.

Посчитать то можно. Но переписывать что-либо, да даже просто "улучшать", всё равно никто не будет. Слишком строчка кода дорога.

VIT ★
(25.11.08 21:48:10 MSK)

Ответ на: комментарий от sv75 25.11.08 20:31:23 MSK

>> На этом quad-core обычная Fortran программа пойдёт, только скомпилировал и в путь. А на Nvidia?

>Ну лично мне на это как раз плевать. Специфика деятельности.

Так не о Вас лично речь...

VIT ★
(25.11.08 21:49:08 MSK)

Ссылка

Ответ на: комментарий от VIT 25.11.08 21:48:10 MSK

>Посчитать то можно. Но переписывать что-либо, да даже просто "улучшать", всё равно никто не будет. Слишком строчка кода дорога.

Переписывают. Даже не смотря на то, что "Слишком строчка кода дорога". В частности с x86 на Cell

Led ★★★☆☆
(25.11.08 22:25:37 MSK)

Ответ на: комментарий от Led 25.11.08 22:25:37 MSK

>>Посчитать то можно. Но переписывать что-либо, да даже просто "улучшать", всё равно никто не будет. Слишком строчка кода дорога.

>Переписывают. Даже не смотря на то, что "Слишком строчка кода дорога". В частности с x86 на Cell

Примеры знаете?

VIT ★
(25.11.08 22:31:29 MSK)

Ответ на: комментарий от VIT 25.11.08 22:31:29 MSK

>Примеры знаете?

Да

Led ★★★☆☆
(25.11.08 22:46:05 MSK)

Ответ на: комментарий от Led 25.11.08 22:46:05 MSK

>>Примеры знаете?

>Да

Спасибо за полный и обстоятельный ответ. Вопросов больше не имею.

Я не знаю.

VIT ★
(25.11.08 22:49:56 MSK)

Ответ на: комментарий от VIT 25.11.08 22:49:56 MSK

>Я не знаю.

Значит - повезло:)

Led ★★★☆☆
(25.11.08 23:38:33 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 →

←	Встреча пользователей Moscow MySQL User Group

Кластеры

Как быть хорошим (и ленивым) сисадмином

→

Похожие темы