LINUX.ORG.RU
ФорумAdmin

IB: opensm не переводит сеть в «SUBNET UP»

 ,


0

1

При запуске opensm в лог пишется следующее:

OpenSM: Got signal 15 - exiting...
Exiting SM

Sep 29 14:57:11 118835 [3B68D700] 0x80 -> Exiting SM
Sep 29 14:57:15 653286 [610C7700] 0x03 -> OpenSM 3.3.17
OpenSM 3.3.17

Sep 29 14:57:15 653364 [610C7700] 0x80 -> OpenSM 3.3.17
Sep 29 14:57:15 680874 [610C7700] 0x01 -> subn_validate_neighbor: ERR 7518: neighbor does not point back at us (guid: 0x003048ffffa10132, port 1)
Sep 29 14:57:15 680904 [610C7700] 0x01 -> subn_validate_neighbor: ERR 7518: neighbor does not point back at us (guid: 0x003048ffffa10029, port 17)
Using default GUID 0x3048ffffa10416
Entering DISCOVERING state

Sep 29 14:57:15 681048 [610C7700] 0x02 -> osm_vendor_init: 1000 pending umads specified
Sep 29 14:57:15 696033 [610C7700] 0x80 -> Entering DISCOVERING state
Entering STANDBY state

Sep 29 14:57:15 696212 [610C7700] 0x02 -> osm_vendor_bind: Mgmt class 0x81 binding to port GUID 0x3048ffffa10416
Sep 29 14:57:15 720252 [610C7700] 0x02 -> osm_vendor_bind: Mgmt class 0x03 binding to port GUID 0x3048ffffa10416
Sep 29 14:57:15 720360 [610C7700] 0x02 -> osm_vendor_bind: Mgmt class 0x04 binding to port GUID 0x3048ffffa10416
Sep 29 14:57:15 720475 [610C7700] 0x02 -> osm_vendor_bind: Mgmt class 0x21 binding to port GUID 0x3048ffffa10416
Sep 29 14:57:15 720566 [610C7700] 0x02 -> osm_opensm_bind: Setting IS_SM on port 0x003048ffffa10416
Sep 29 14:57:15 723948 [598CE700] 0x80 -> Entering STANDBY state
Где копать?


Ну а всякие ibstat и прочее что говорят?

Посмотрите тут еще про настройку и диагностику проблем: http://pkg-ofed.alioth.debian.org/howto/infiniband-howto-4.html

Вообще судя по сырцам, такое сообщение оно пишет, когда GUID или порты не соответствуют назначенным. В конфиге вообще что?

nstorm ()
Ответ на: комментарий от nstorm

ibstat на node1:

CA 'mthca0'
	CA type: MT25208
	Number of ports: 2
	Firmware version: 5.3.0
	Hardware version: 20
	Node GUID: 0x003048ffffa10425
	System image GUID: 0x003048ffffa10428
	Port 1:
		State: Active
		Physical state: LinkUp
		Rate: 20
		Base lid: 3
		LMC: 0
		SM lid: 4
		Capability mask: 0x02510a6a
		Port GUID: 0x003048ffffa10426
		Link layer: InfiniBand
	Port 2:
		State: Down
		Physical state: Polling
		Rate: 10
		Base lid: 0
		LMC: 0
		SM lid: 0
		Capability mask: 0x02510a68
		Port GUID: 0x003048ffffa10427
		Link layer: InfiniBand

На node2:

CA 'mthca0'
	CA type: MT25208
	Number of ports: 2
	Firmware version: 5.3.0
	Hardware version: 20
	Node GUID: 0x003048ffffa10415
	System image GUID: 0x003048ffffa10418
	Port 1:
		State: Active
		Physical state: LinkUp
		Rate: 20
		Base lid: 1
		LMC: 0
		SM lid: 4
		Capability mask: 0x02510a6a
		Port GUID: 0x003048ffffa10416
		Link layer: InfiniBand
	Port 2:
		State: Down
		Physical state: Polling
		Rate: 10
		Base lid: 0
		LMC: 0
		SM lid: 0
		Capability mask: 0x02510a68
		Port GUID: 0x003048ffffa10417
		Link layer: InfiniBand

В /etc/default/opensm порты не задавались. Если это обязательно, то о каких GUID идёт речь?

Второй конфиг /etc/rdma/opensm.conf.

NOPA ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.