LINUX.ORG.RU
ФорумAdmin

Беда с Infiniband

 ,


0

1

На кластере с CentOS 6.6 установлена и настроена сеть через Infiniband. После обновления до 6.6 она отвалилась. В dmesg ошибок нет, адаптеры, вроде бы, активны, но утилита ibqueryerrors в конце сообщает: ## Summary: 4 nodes checked, 4 bad nodes found

## 27 ports checked, 6 ports have errors beyond threshold

При том, что:

cat /sys/class/infiniband/mthca0/ports/1/state 4: ACTIVE

Адаптер: InfiniBand: Mellanox Technologies MT25208 [InfiniHost III Ex] (rev 20)

Встроенный свитч: Switch : 0x003048ffffa10029 ports 24 «MT47396 Infiniscale-III Mellanox Technologies» base port 0 lid 2 lmc 0

Куда копать?


Для начала, попробуй перезагрузиться с предыдущим ядром и потестить снова. Станет понятно - в ядре проблема или нет.

Deleted ()

поясните это ваше «отвалилась»

состояние subnet manager'а?

dGhost ★★★ ()
Последнее исправление: dGhost (всего исправлений: 1)

opensm запущен, с ключом -B.

ibstat:

node1:


CA 'mthca0'
	CA type: MT25208
	Number of ports: 2
	Firmware version: 5.3.0
	Hardware version: 20
	Node GUID: 0x003048ffffa10415
	System image GUID: 0x003048ffffa10418
	Port 1:
		State: Active
		Physical state: LinkUp
		Rate: 20
		Base lid: 1
		LMC: 0
		SM lid: 4
		Capability mask: 0x02510a6a
		Port GUID: 0x003048ffffa10416
		Link layer: InfiniBand
	Port 2:
		State: Down
		Physical state: Polling
		Rate: 10
		Base lid: 0
		LMC: 0
		SM lid: 0
		Capability mask: 0x02510a68
		Port GUID: 0x003048ffffa10417
		Link layer: InfiniBand
node2:
CA 'mthca0'
	CA type: MT25208
	Number of ports: 2
	Firmware version: 5.3.0
	Hardware version: 20
	Node GUID: 0x003048ffffa10425
	System image GUID: 0x003048ffffa10428
	Port 1:
		State: Active
		Physical state: LinkUp
		Rate: 20
		Base lid: 3
		LMC: 0
		SM lid: 4
		Capability mask: 0x02510a6a
		Port GUID: 0x003048ffffa10426
		Link layer: InfiniBand
	Port 2:
		State: Down
		Physical state: Polling
		Rate: 10
		Base lid: 0
		LMC: 0
		SM lid: 0
		Capability mask: 0x02510a68
		Port GUID: 0x003048ffffa10427
		Link layer: InfiniBand

NOPA ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.