Поддержка InfiniBand в ядре Linux

0

0

По утверждению роланда Драера (Roland Dreier), старшего программного инженера компании "Topspin Communications", уже в ближайшее время ядро Linux получит полную поддержку высокоскоростной сетевой технологии InfiniBand, которая используется в кластерах. По его словам, работа над поддержкой протокола сохранения и API кластеризации InfiniBand в Linux практически завершена.
В последнем стабильном ядре Linux - 2.6.11 - присутствует лишь частичная поддержка InfiniBand.

>>> Подробности

Ссылка

←	Новая версия GLiv

KIO_Burn 0.7

→

Дык кому надо - тем и ядро нежалко пропатчить для получения поддержки, так что об отсутствии поддержки как таковой говорить несовсем верно.

green ★★★★★
(26.03.05 14:11:22 MSK)

Ответ на: комментарий от green 26.03.05 14:11:22 MSK

Так никто и не говорит, что нет поддержки как таковой. Поддержка есть, но частичная, а обещают полную.

Sirko ★
(26.03.05 14:23:13 MSK) автор топика

Об этом сообщалось уже в конце января:
http://www.linux.org.ru/jump-message.jsp?msgid=775078

parser ★★
(26.03.05 17:08:31 MSK)

Ссылка

Расскажите в кратце что это такое? И какие преимущества, у меня пока кластер (Lam-mpi) на NFS крутится обычном, какие фичи я получу когда перееду на сабж?

LX ★★
(26.03.05 18:46:09 MSK)

Ответ на: комментарий от LX 26.03.05 18:46:09 MSK

2LX:

> ...у меня пока кластер (Lam-mpi) на NFS крутится

Строго говоря, NFS -- софт, а тут речь идет о железе.

И железо, надо сказать, ОЧЕНЬ вкусное! Например, там можно на аппаратном уровне открыть окно к памяти на другом хосте; не скажу за ЛАМ просто не знаю), а MPICH эту штуку уже несклько лет поддерживает.

При этом все довольно стабильно, хотя и несколько гемморойно в настройках, но по субъективным оценкам гораздо стабильнее того же Долфина.

Хотя до NUMAlink, конечно, далеко.

Одно замечание, возможно, для России не справедливое: в Германии цены на сие чудо различаются в разы, в зависимости от продавца. Дешевле всего мы купили непосредственно у InfiniCon (http://www.infiniconsys.com), реселлеры просили почти в 5(!) раз дороже.

Die-Hard ★★★★★
(26.03.05 21:11:07 MSK)

Ответ на: комментарий от Die-Hard 26.03.05 21:11:07 MSK

А что вы брали?

Я что то не особо фтыкаю, что нужно взять, чтобы объединить в одну сетку несколько узлов через Infiniband вместо езернета.

Достаточно для этого воткнуть в каждый узел по InfiniServ 7000 или 9000 и соединить через свич InfinIO 3000 или 9024?

anonymous
(26.03.05 23:39:23 MSK)

Ответ на: комментарий от anonymous 26.03.05 23:39:23 MSK

2anonymous (*) (26.03.2005 23:39:23):

> Достаточно для этого воткнуть в каждый узел по InfiniServ 7000 или 9000 и соединить через свич InfinIO 3000 или 9024?

Вроде, да... Но -- не в курсе.

Я эту штуку не ставил -- только участвовал в переговорах про цену (вместе с челом, который все ставить должен был) и говорил, как девелопер -- "да" или "нет". Чел давно слинял, а система -- жива!

Die-Hard ★★★★★
(27.03.05 00:08:48 MSK)

Ответ на: комментарий от Die-Hard 27.03.05 00:08:48 MSK

Подозрительно все это как то.

На этом http://www.infiniconsys.com даже цен нет!

И предложений по tca тоже нет. Только hca да ioswitch.

В москве видел только платки hca по ~250 долларей.

Короче, позорное предложение по этой технике...

anonymous
(27.03.05 00:49:08 MSK)

Ответ на: комментарий от anonymous 27.03.05 00:49:08 MSK

Мы говорили непосредственно с неким директором InfiniCon; он случайно оказался проездом в Германии и заехал к нам. Вот сейчас передо мной лежит его визитка, Kevin J. Holohan, Director. Business Development

Про цены плохо помню -- типа, платки были порядка $1000, а свитч вообще не помню. Реселлеры нам платки по $5000 предлагали.

Это же не йезернет!!!

Die-Hard ★★★★★
(27.03.05 01:20:28 MSK)

Ответ на: комментарий от Die-Hard 27.03.05 01:20:28 MSK

ну так йезернет и стоит по 20 дооларей за платку + 300 за свич.

А тут, похоже, железа и нет совсем к продаже. Одни слюни по поводу "мы туда и сюда и там и тут у нас все круто"...

подожжем, посмотрим, что там дале буде...

anonymous
(27.03.05 03:05:37 MSD)

Ответ на: комментарий от anonymous 27.03.05 03:05:37 MSD

Хотя вот двухканальные платки по ~1000 и в Москве есть.

http://pcpart.price.ru/bin/price/prodlist?pnam=+Infiniband&fair=1&pla...

anonymous
(27.03.05 03:17:33 MSD)

Ссылка

Ответ на: комментарий от anonymous 27.03.05 03:05:37 MSD

2anonymous (*) (27.03.2005 3:05:37):

> А тут, похоже, железа и нет совсем к продаже. Одни слюни ...

Ты немного не въезжаешь ;)

ЕСТЬ железо. Просто оно ТЕБЕ не нужно:

Это никак не замена йезернету. Это -- для совершенно другого, типа, HPC кластеры клепать, у кого денег на Алтиксы нет.

Или Алтиксы -- тоже "одни слюни"?

Die-Hard ★★★★★
(27.03.05 03:37:55 MSD)

Ответ на: комментарий от Die-Hard 27.03.05 03:37:55 MSD

Какой ты, однако, нешуточный специалист, уважаю, но, человек не может знать столь много, понимаешь, о чём я,..

MiracleMan ★★★★★
(27.03.05 05:46:13 MSD)

Ссылка

Ответ на: комментарий от Sirko 26.03.05 14:23:13 MSK

Да ну, обещают вообще странное, какие-то IP over infiniband (ну нафига?!) и тп.
MPI это конечно да, но с правильными патчами MPI и сейчас у нас работает, например (и давно, и на 2.4 в том числе)

Только у этого infiniband помнится есть затык с количеством нод которые можно соединить, вроде 32? Поэтому сейчас от них отказываются кое какие конторы, предпочитают гигабитные эзернеты насколько это только возможно.
Но вообще DMA с хоста на хост, это конечно удобно, спору нет.

green ★★★★★
(27.03.05 16:01:45 MSD)

Ответ на: комментарий от green 27.03.05 16:01:45 MSD

>Только у этого infiniband помнится есть затык с количеством нод которые можно соединить, вроде 32? Поэтому сейчас от них отказываются кое какие конторы, предпочитают гигабитные эзернеты насколько это только возможно.

Гигабитом InfiniBand не заменишь, конечно можно поменять, но тогда кластер более десятка узлов можешь выкинуть ибо производительность в бльшинстве задач упадет раза в 2, а то и больше и будешь запускать задачу на каждом узле отдельно. InfiniBand, myrinet, sci и прочее просто нельзя сравнивать с ethernet по цене, потому где вполне устраивает ethernet другое не поставят Главная разница между ними даже не пропускная способность (хотя и тут гигабит проигрывает в среднем раза в 4), а латентность, которая отличается на порядок-два

Dubrovsky ★
(28.03.05 08:07:25 MSD)

Ответ на: комментарий от Dubrovsky 28.03.05 08:07:25 MSD

Про latency конечно никто не спорит и это действительно очень важно, однако легкость добавления новой ноды с эзернетом vs новой ноды с ib/myrinet/sci/elan совсем более другая (и не только из-за цены). Поэтому некоторые большие инсталляции тяготеют к отказам (не полным, разумеется) от этих (ну которые не ethernet) технологий.

green ★★★★★
(28.03.05 09:56:39 MSD)

Ссылка

Ответ на: комментарий от Dubrovsky 28.03.05 08:07:25 MSD

> Главная разница между ними даже не пропускная способность (хотя и тут гигабит проигрывает в среднем раза в 4), а латентность, которая отличается на порядок-два

скоро 10Gb ethernet станет массовым, а там и 100Gb подоспеет...

anonymous
(28.03.05 14:51:17 MSD)

Ответ на: комментарий от anonymous 28.03.05 14:51:17 MSD

Массовость понятие относитеьлное. Знаешь, пока что на просторах экс СССР можно говорить о массовости лишь 100 мегабит.
Особенно, если учесть что кроме Москвы есть еще и другие города и даже страны.

sergom ★
(28.03.05 16:35:16 MSD)

Ответ на: комментарий от anonymous 28.03.05 14:51:17 MSD

Решив проблему с bandwidth используя 10gige, проблема с latency остается, а это намного важнее.

green ★★★★★
(28.03.05 19:44:51 MSD)

Ответ на: комментарий от sergom 28.03.05 16:35:16 MSD

> Массовость понятие относитеьлное. Знаешь, пока что на просторах экс СССР можно говорить о массовости лишь 100 мегабит. Особенно, если учесть что кроме Москвы есть еще и другие города и даже страны.

богатенький западный потребитель оплатит разработку и внедрение технологий, ну и поимеет HDTV в реал-тайм по сети на заказ, а все кому нужны кластера соответственно дешёвые скорострельные LAN, а вот про Россию в контексте "массовости" лучше не вспоминать вообще - основной массе россиян лучше дать дешёвую качественную водку, жрачку и тряпки, новые технологии им нах не нужны.

anonymous
(28.03.05 19:54:32 MSD)

Ссылка

Ответ на: комментарий от green 28.03.05 19:44:51 MSD

> Решив проблему с bandwidth используя 10gige, проблема с latency остается, а это намного важнее.

ну я надеюсь, что она (latency) линейно уменьшается с ростом bandwidth. Если рост bandwidth происходит за счёт разгона клоков, то и latency за счёт роста клоков падает также (???), вроде бы преобразование оптика-лепездричество и обратно настолько шустро, что big iron даже во внутренних шинах уже давно заимело оптику

anonymous
(28.03.05 20:04:02 MSD)

Ответ на: комментарий от anonymous 28.03.05 20:04:02 MSD

Там все не так просто, если в ib я могу закинуть прямо в память нужного мне хоста нужные данные и потом его пнуть что вот мол они - пошел работать, то в ethernet мне нуна сформировать настоящий ip пакет, потом его заслать (arp-discovery в том числе, если неповезло), ... та сторона его должна принять, потом проверить пакет, скопировать (zero copy tcp receive у нас нету, тока send), потом только обработать...

green ★★★★★
(29.03.05 08:56:10 MSD)

Ответ на: комментарий от green 29.03.05 08:56:10 MSD

а чего у вас зерокопи нет?
про арп-дискавери смеялся )).

anonymous
(29.03.05 13:41:33 MSD)

Ссылка

Ответ на: комментарий от green 29.03.05 08:56:10 MSD

> Там все не так просто, если в ib я могу закинуть прямо в память нужного мне хоста нужные данные и потом его пнуть что вот мол они - пошел работать, то в ethernet мне нуна сформировать настоящий ip пакет, потом его заслать (arp-discovery в том числе, если неповезло), ... та сторона его должна принять, потом проверить пакет, скопировать (zero copy tcp receive у нас нету, тока send), потом только обработать...

тааа, фигня, нехай энтим (проверить пакет, обработать) чип на интерфейсе занимается, и tcp/ip стек тоже он разруливает, в эпоху чипов с миллиардами вентилей на борту это - семечки

anonymous
(29.03.05 14:12:31 MSD)

Ответ на: комментарий от anonymous 29.03.05 14:12:31 MSD

> тааа, фигня, нехай энтим (проверить пакет, обработать) чип на интерфейсе занимается, и tcp/ip стек тоже он разруливает, в эпоху чипов с миллиардами вентилей на борту это - семечки

Только это будет стоить почти столько же, сколько и специализированные решения (IB, Myrinet и т.п.).

P.S. Подскажите, пожалуйста, где лучше почитать сравнение решений IB/Myri/etc?

lumag ★★
(29.03.05 14:23:16 MSD)

Ответ на: комментарий от lumag 29.03.05 14:23:16 MSD

Коротко но по делу...

http://www.t-platforms.ru/clusters/communications.html

sS ★★★★★
(29.03.05 16:02:34 MSD)

Ответ на: комментарий от green 29.03.05 08:56:10 MSD

да дело не в пакете надо переключать привилегии - ситемный вызов а системный вызов в линуксе это уже нескольо мс, в то время как если писать напрямую впамять( или что то же в шину пси) то это измеряется мкс или даже наносек.

anonymous
(29.03.05 16:02:57 MSD)

Ответ на: комментарий от sS 29.03.05 16:02:34 MSD

> Коротко но по делу...

Спасибо.

anonymous
(29.03.05 18:26:53 MSD)

Ссылка

Ответ на: комментарий от anonymous 29.03.05 16:02:57 MSD

хех, а в инфинибенд данные из сети в память процесса силой мысли попадают что-ли? драйверок к интерфейсу по-любому нужен, а где драйвер, там и сискол. К тому если ума палата, то в случае с ethernet можно tcp/ip стек послать подальше и пакеты разруливать самому.

anonymous
(30.03.05 13:04:46 MSD)

Ответ на: комментарий от anonymous 30.03.05 13:04:46 MSD

anonymous (*) (30.03.2005 13:04:46):

> хех, а в инфинибенд данные из сети в память процесса силой мысли попадают что-ли? драйверок к интерфейсу по-любому нужен, а где драйвер, там и сискол. К тому если ума палата, то в случае с ethernet можно tcp/ip стек послать подальше и пакеты разруливать самому.

Дык -- не в пакетах дело!

Факт: в процессе моих экспериментов над кластером из 16 двухголовых писюков (ок, не совсем писюков -- двухголовые ксеоны в стойке по 16 штук) выяснилось, что оптимизированный под infiniBand mpich дает лучшее масштабирование, если я запускаю 8 нитей на РАЗНЫХ хостах, по сравнению с 4x2. Мне так и объяснили: с точки зрения организации всего процесса, предоставляемое InfiniBand окошко оказывается эффективнее shared memory.

Скорее всего, глупость (в смысле принципиального предела) -- но факт: _сейчас_ это -- _так_.

Die-Hard ★★★★★
(31.03.05 04:39:17 MSD)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Новая версия GLiv

Ядро Linux

KIO_Burn 0.7

→

Похожие темы