LINUX.ORG.RU

HP BL460cG6, 100%iowait и нереальный LA


0

1

всем доброго дня.

Столкнулся со странной вещью, которую не могу отловить уже много времени.
Есть корзина с блейдами BL460cG6 на блейдах заинсталлен rhel5.3. Несколько раз в месяц происходит следующая ситуация:
сервер перестает отвечать по ssh, но при этом пингуется.
Путем некоторых плясок выяснил что в этот момент LA на сервере растет в сторону бесконечности(когда я смотрел la был в районе 200-300 и рос дальше) , при этом iowait в 100% и непонятно кто всё сожрал - дисковых обращений нет вообще и сетевой активности тоже нет, rhel абсолютно чистый, без каких-либо крутящихся сервисов. Статистика sar'а затыкается в какой-то момент и понять динамику нереально.

Может быть кто сталкивался с подобным поведением, и что это вообще за баг такой?

Железки:
[root@mbpPctv01 ~]# lspci
00:00.0 Host bridge: Intel Corporation X58 I/O Hub to ESI Port (rev 13)
00:01.0 PCI bridge: Intel Corporation X58 I/O Hub PCI Express Root Port 1 (rev 13)
00:02.0 PCI bridge: Intel Corporation X58 I/O Hub PCI Express Root Port 2 (rev 13)
00:03.0 PCI bridge: Intel Corporation X58 I/O Hub PCI Express Root Port 3 (rev 13)
00:07.0 PCI bridge: Intel Corporation X58 I/O Hub PCI Express Root Port 7 (rev 13)
00:08.0 PCI bridge: Intel Corporation X58 I/O Hub PCI Express Root Port 8 (rev 13)
00:09.0 PCI bridge: Intel Corporation X58 I/O Hub PCI Express Root Port 9 (rev 13)
00:0a.0 PCI bridge: Intel Corporation X58 I/O Hub PCI Express Root Port 10 (rev 13)
00:0d.0 Host bridge: Intel Corporation Unknown device 343a (rev 13)
00:0d.1 Host bridge: Intel Corporation Unknown device 343b (rev 13)
00:0d.2 Host bridge: Intel Corporation Unknown device 343c (rev 13)
00:0d.3 Host bridge: Intel Corporation Unknown device 343d (rev 13)
00:0d.4 Host bridge: Intel Corporation X58 Physical Layer Port 0 (rev 13)
00:0d.5 Host bridge: Intel Corporation Quickpath Interconnect Physical Layer Port 1 (rev 13)
00:0d.6 Host bridge: Intel Corporation Unknown device 341a (rev 13)
00:0e.0 Host bridge: Intel Corporation Unknown device 341c (rev 13)
00:0e.1 Host bridge: Intel Corporation Unknown device 341d (rev 13)
00:0e.2 Host bridge: Intel Corporation Unknown device 341e (rev 13)
00:0e.3 Host bridge: Intel Corporation Unknown device 341f (rev 13)
00:0e.4 Host bridge: Intel Corporation Unknown device 3439 (rev 13)
00:14.0 PIC: Intel Corporation X58 I/O Hub System Management Registers (rev 13)
00:14.1 PIC: Intel Corporation X58 I/O Hub GPIO and Scratch Pad Registers (rev 13)
00:14.2 PIC: Intel Corporation X58 I/O Hub Control Status and RAS Registers (rev 13)
00:1c.0 PCI bridge: Intel Corporation 82801JI (ICH10 Family) PCI Express Port 1
00:1d.0 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #1
00:1d.1 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #2
00:1d.2 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #3
00:1d.3 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #6
00:1d.7 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB2 EHCI Controller #1
00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev 90)
00:1f.0 ISA bridge: Intel Corporation 82801JIB (ICH10) LPC Interface Controller
01:03.0 VGA compatible controller: ATI Technologies Inc ES1000 (rev 02)
01:04.0 System peripheral: Compaq Computer Corporation Integrated Lights Out Controller (rev 03)
01:04.2 System peripheral: Compaq Computer Corporation Integrated Lights Out Processor (rev 03)
01:04.4 USB Controller: Hewlett-Packard Company Proliant iLO2 virtual USB controller
01:04.6 IPMI SMIC interface: Hewlett-Packard Company Proliant iLO2 virtual UART
02:00.0 Ethernet controller: Broadcom Corporation NetXtreme II BCM57711E 10Gigabit PCIe
02:00.1 Ethernet controller: Broadcom Corporation NetXtreme II BCM57711E 10Gigabit PCIe
06:00.0 Fibre Channel: QLogic Corp. ISP2432-based 4Gb Fibre Channel to PCI Express HBA (rev 03)
06:00.1 Fibre Channel: QLogic Corp. ISP2432-based 4Gb Fibre Channel to PCI Express HBA (rev 03)
09:00.0 PCI bridge: Broadcom EPB PCI-Express to PCI-X Bridge (rev b5)
0a:04.0 Ethernet controller: Broadcom Corporation NetXtreme BCM5715S Gigabit Ethernet (rev a3)
0a:04.1 Ethernet controller: Broadcom Corporation NetXtreme BCM5715S Gigabit Ethernet (rev a3)
0c:00.0 RAID bus controller: Hewlett-Packard Company Smart Array G6 controllers (rev 01)

Server Blade #1 Information:
   Type: Server Blade
   Manufacturer: HP
   Product Name: ProLiant BL460c G6
   ROM Version: I24 06/20/2009
   CPU 1: Quad-Core Intel Xeon 2667 MHz
   CPU 2: Quad-Core Intel Xeon 2667 MHz
   Memory: 12288 MB
   Flex-10 Embedded Ethernet
    NIC 1 MAC Address: 00:25:B3:A5:15:A0
    NIC 2 MAC Address: 00:25:B3:A5:15:A4
   iSCSI 1 MAC Address: 00:25:B3:A5:15:A1
   iSCSI 2 MAC Address: 00:25:B3:A5:15:A5

   QLogic QMH2462 4Gb FC HBA for HP c-Class BladeSystem
    Port 1: 50:01:43:80:05:68:67:30
    Port 2: 50:01:43:80:05:68:67:32

   NC326m Dual Port 1Gb NIC for c-Class BladeSystem
    Port 1: 00:24:81:af:cc:46
    Port 2: 00:24:81:af:cc:47


[root@mbpPctv01 ~]# uname -a Linux mbpPctv01 2.6.18-128.el5PAE #1 SMP Wed Dec 17 12:02:33 EST 2008 i686 i686 i386 GNU/Linux



Последнее исправление: Scream (всего исправлений: 1)

Скорее всего, либо аппаратная проблема, либо кривые дрова на исказю/фибру/сеть.
В любом случае лучше обратиться в саппорт RH, они должны проинструктировать по поводу точной диагностики.

nnz ★★★★
()
Ответ на: комментарий от nnz

Что характерно, проявляется не только на rh, с debian'ом та же песня, но debian ещё и продолжает при этом при всем работать - файлики только не может писать. Фибра на серверах не используется - была воткнута уже после проявления бага.

Мне просто интересно, есть ли у кого-нибудь ещё такие же проблемы или это у нас такое счастье.

Scream
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.