LINUX.ORG.RU
решено ФорумAdmin

«не поднимается» винт


0

1

debian 6, выпал винт из софтового raid10, вытащил сносил проверил - бэдов нет, в системе определяется
вставил обратно вижу логах

# cat syslog | grep ata2

Jul 16 12:13:17 proxy kernel: [220581.996260] ata2: exception Emask 0x10 SAct 0x0 SErr 0x4040000 action 0xe frozen
Jul 16 12:13:17 proxy kernel: [220581.996441] ata2: irq_stat 0x00000040, connection status changed
Jul 16 12:13:17 proxy kernel: [220581.996576] ata2: SError: { CommWake DevExch }
Jul 16 12:13:17 proxy kernel: [220581.996709] ata2: hard resetting link
Jul 16 12:13:23 proxy kernel: [220587.758806] ata2: link is slow to respond, please be patient (ready=0)
Jul 16 12:13:24 proxy kernel: [220588.374668] ata2: SATA link down (SStatus 0 SControl 300)
Jul 16 12:13:24 proxy kernel: [220588.374674] ata2.00: link offline, clearing class 1 to NONE
Jul 16 12:13:24 proxy kernel: [220588.374676] ata2: EH complete

вдруг важно

# lspci -vv

00:1f.2 SATA controller: Intel Corporation Cougar Point 6 port SATA AHCI Controller (rev 05) (prog-if 01 [AHCI 1.0])
        Subsystem: Intel Corporation Device 7270
        Control: I/O+ Mem+ BusMaster+ SpecCycle- MemWINV- VGASnoop- ParErr+ Stepping- SERR- FastB2B- DisINTx+
        Status: Cap+ 66MHz+ UDF- FastB2B+ ParErr- DEVSEL=medium >TAbort- <TAbort- <MAbort- >SERR- <PERR- INTx-
        Latency: 0
        Interrupt: pin B routed to IRQ 32
        Region 0: I/O ports at 3090 [size=8]
        Region 1: I/O ports at 3080 [size=4]
        Region 2: I/O ports at 3070 [size=8]
        Region 3: I/O ports at 3060 [size=4]
        Region 4: I/O ports at 3020 [size=32]
        Region 5: Memory at c1a40000 (32-bit, non-prefetchable) [size=2K]
        Capabilities: [80] MSI: Enable+ Count=1/1 Maskable- 64bit-
                Address: fee00418  Data: 0000
        Capabilities: [70] Power Management version 3
                Flags: PMEClk- DSI- D1- D2- AuxCurrent=0mA PME(D0-,D1-,D2-,D3hot+,D3cold-)
                Status: D0 NoSoftRst+ PME-Enable- DSel=0 DScale=0 PME-
        Capabilities: [a8] SATA HBA v1.0 BAR4 Offset=00000004
        Capabilities: [b0] PCI Advanced Features
                AFCap: TP+ FLR+
                AFCtrl: FLR-
                AFStatus: TP-
        Kernel driver in use: ahci

wolverin ()

Не по теме конечно... что то так часто падают софт рейды, неужели так сложно хардварный рейд сделать?

Martin256 ★★ ()

Кабель, контроллер на материнке. Если есть свободный SATA-порт - попробуй воткнуть в другой.

Deleted ()
Ответ на: комментарий от Martin256

Не по теме конечно... что то так часто падают софт рейды, неужели так сложно хардварный рейд сделать?

Аппаратный RIAD точно так же не застрахован от аппаратных проблем. Да и от программных в общем то тоже 8).

Deleted ()
Ответ на: комментарий от Martin256

Martin256

имею 11 серверов на софтовых раидах и больше всего намучался с выпадением именно хардового раида, потому как контроллер не переваривает винты не RE модификации.

wolverin ()
Ответ на: комментарий от Deleted

mironov_ivan
Если есть свободный SATA-порт - попробуй воткнуть в другой.

нету (

Кабель, контроллер на материнке.

не хотелось разбирать, похоже придется (

wolverin ()
Ответ на: комментарий от Deleted

Значит все таки это проблема популярности софтового райда, а то часто на лоре «отвалился софт рейд, что делать»

Martin256 ★★ ()
Ответ на: комментарий от Martin256

Значит все таки это проблема популярности софтового райда, а то часто на лоре «отвалился софт рейд, что делать»

С аппаратным тут пару раз всплывали проблемы типа «сдох контроллер, не можем вытащить данные, что делать?!» =).

Deleted ()
Ответ на: комментарий от wolverin

вот как все дословно было
выдернул шнур клавы в другой сервак надо было

Jul 13 12:33:20 proxy kernel: [10854949.690971] usb 2-1.2: USB disconnect, address 5
Jul 13 12:48:53 proxy kernel: [10855882.425199] ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
Jul 13 12:48:53 proxy kernel: [10855882.425378] ata2: irq_stat 0x00400040, connection status changed
Jul 13 12:48:53 proxy kernel: [10855882.425513] ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
Jul 13 12:48:53 proxy kernel: [10855882.425650] ata2: hard resetting link
Jul 13 12:48:54 proxy kernel: [10855883.147044] ata2: SATA link down (SStatus 0 SControl 310)
Jul 13 12:48:59 proxy kernel: [10855888.145725] ata2: hard resetting link
Jul 13 12:48:59 proxy kernel: [10855888.465651] ata2: SATA link down (SStatus 0 SControl 310)
Jul 13 12:49:04 proxy kernel: [10855893.468310] ata2: hard resetting link
Jul 13 12:49:04 proxy kernel: [10855893.788235] ata2: SATA link down (SStatus 0 SControl 310)
Jul 13 12:49:04 proxy kernel: [10855893.788245] ata2.00: disabled
Jul 13 12:49:04 proxy kernel: [10855893.788255] ata2: EH complete
Jul 13 12:49:04 proxy kernel: [10855893.788262] sd 1:0:0:0: rejecting I/O to offline device
Jul 13 12:49:04 proxy kernel: [10855893.788291] ata2.00: detaching (SCSI 1:0:0:0)
Jul 13 12:49:04 proxy kernel: [10855893.788403] sd 1:0:0:0: [sdb] killing request
Jul 13 12:49:04 proxy kernel: [10855893.788414] end_request: I/O error, dev sdb, sector 39065608
Jul 13 12:49:04 proxy kernel: [10855893.788550] md: super_written gets error=-5, uptodate=0
Jul 13 12:49:04 proxy kernel: [10855893.788552] raid10: Disk failure on sdb5, disabling device.
Jul 13 12:49:04 proxy kernel: [10855893.788553] raid10: Operation continuing on 3 devices.
Jul 13 12:49:04 proxy kernel: [10855893.808330] sd 1:0:0:0: [sdb] Synchronizing SCSI cache
Jul 13 12:49:04 proxy kernel: [10855893.808398] sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Jul 13 12:49:04 proxy kernel: [10855893.808401] sd 1:0:0:0: [sdb] Stopping disk
Jul 13 12:49:04 proxy kernel: [10855893.808436] sd 1:0:0:0: [sdb] START_STOP FAILED
Jul 13 12:49:04 proxy kernel: [10855893.808438] sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Jul 13 12:49:04 proxy kernel: [10855893.811340] RAID10 conf printout:
Jul 13 12:49:04 proxy kernel: [10855893.811343]  --- wd:3 rd:4
Jul 13 12:49:04 proxy kernel: [10855893.811346]  disk 0, wo:0, o:1, dev:sda5
Jul 13 12:49:04 proxy kernel: [10855893.811348]  disk 1, wo:1, o:0, dev:sdb5
Jul 13 12:49:04 proxy kernel: [10855893.811351]  disk 2, wo:0, o:1, dev:sdc5
Jul 13 12:49:04 proxy kernel: [10855893.811353]  disk 3, wo:0, o:1, dev:sdd5
Jul 13 12:49:04 proxy kernel: [10855893.824220] RAID10 conf printout:
Jul 13 12:49:04 proxy kernel: [10855893.824224]  --- wd:3 rd:4
Jul 13 12:49:04 proxy kernel: [10855893.824227]  disk 0, wo:0, o:1, dev:sda5
Jul 13 12:49:04 proxy kernel: [10855893.824230]  disk 2, wo:0, o:1, dev:sdc5
Jul 13 12:49:04 proxy kernel: [10855893.824232]  disk 3, wo:0, o:1, dev:sdd5
Jul 13 12:49:07 proxy kernel: [10855896.759558] md: super_written gets error=-5, uptodate=0
Jul 13 12:49:07 proxy kernel: [10855896.759562] raid10: Disk failure on sdb1, disabling device.
Jul 13 12:49:07 proxy kernel: [10855896.759563] raid10: Operation continuing on 3 devices.
Jul 13 12:49:07 proxy kernel: [10855896.790165] RAID10 conf printout:
Jul 13 12:49:07 proxy kernel: [10855896.790175]  --- wd:3 rd:4
Jul 13 12:49:07 proxy kernel: [10855896.790177]  disk 0, wo:0, o:1, dev:sda1
Jul 13 12:49:07 proxy kernel: [10855896.790178]  disk 1, wo:1, o:0, dev:sdb1
Jul 13 12:49:07 proxy kernel: [10855896.790180]  disk 2, wo:0, o:1, dev:sdc1
Jul 13 12:49:07 proxy kernel: [10855896.790181]  disk 3, wo:0, o:1, dev:sdd1
Jul 13 12:49:07 proxy kernel: [10855896.803456] RAID10 conf printout:
Jul 13 12:49:07 proxy kernel: [10855896.803459]  --- wd:3 rd:4
Jul 13 12:49:07 proxy kernel: [10855896.803463]  disk 0, wo:0, o:1, dev:sda1
Jul 13 12:49:07 proxy kernel: [10855896.803465]  disk 2, wo:0, o:1, dev:sdc1
Jul 13 12:49:07 proxy kernel: [10855896.803468]  disk 3, wo:0, o:1, dev:sdd1
могут быть как то связаны события?

wolverin ()
Ответ на: комментарий от wolverin

Если клавиатура была usb и это её «usb 2-1.2: USB disconnect, address 5», то как могут быть связаны события, между которыми прошло 15 минут?

mky ★★★★★ ()
Ответ на: комментарий от Deleted

С аппаратным тут пару раз всплывали проблемы типа «сдох контроллер, не можем вытащить данные, что делать?!» =).

Запасной контроллер на место сгоревшего ставить пробовали? :)

af5 ★★★★★ ()
Ответ на: комментарий от af5

Запасной контроллер на место сгоревшего ставить пробовали? :)

Не знаю. Но раз появлялись такие темы - значит не было запасного 8).

Deleted ()
Ответ на: комментарий от af5

af5
Запасной контроллер на место сгоревшего ставить пробовали? :)

а запасной контроллер нормально поймет какие винты в какой раид поднять и будет потом с него загрузка?

mky

не знаю связаны или нет, но еще грешу на пятницу, тк в пятницу после обеда работать нельзя - придется либо задерживаться, либо работать в выходные.

wolverin ()
Ответ на: комментарий от wolverin

а запасной контроллер нормально поймет какие винты в какой раид поднять и будет потом с него загрузка?

Разумеется.

af5 ★★★★★ ()
Ответ на: комментарий от af5

Разумеется.

странно, а когда я собрал R1 из тех же винтов на контроллере, то дебиан сказал что «винт» девственно чист.

wolverin ()
Ответ на: комментарий от wolverin

странно, а когда я собрал R1 из тех же винтов на контроллере

Собирать ни чего не нужно было, нужно было просто заменить контроллер. Админка контроллера должна была показать все массивы какие у вас были и раньше. Но, конечно, если вы разобрали массив и заново его собрали - то может и пропало всё. Или же до сбоя контроллера у вас массив развалился. Что у вас за аппаратный контроллер то был?

af5 ★★★★★ ()
Ответ на: комментарий от af5

если вы разобрали массив и заново его собрали - то может и пропало всё.

выдернул винты, вставил заново и собрал из них р1 - пусто в софтовом раиде начинает грузиться ось.

Что у вас за аппаратный контроллер то был?

не, у меня ничего не горело тьфу тьфу тьфу

wolverin ()
Ответ на: комментарий от wolverin

выдернул винты, вставил заново и собрал из них р1 - пусто в софтовом раиде начинает грузиться ось.

Теперь вообще нифига не понимаю
Вы выдернули из живого аппаратного рейда по очереди все винты? Сервер включен или выключен был?

af5 ★★★★★ ()
Ответ на: комментарий от wolverin

То есть вы ты выдернул из работающего массива ВСЕ винты и удивляешься что он рассыпался??? Здесь поможет только замена админа...

af5 ★★★★★ ()
Ответ на: комментарий от af5

af5

)) а что такого ужасного то? производственный тест, софтовый раид такое переносит без проблем (по крайней мере тот что зеркальный).

wolverin ()
Ответ на: комментарий от wolverin

и удивляюсь я не тому что рассыпался, а тому что не поднялся.

wolverin ()
Ответ на: комментарий от wolverin

Массив гарантированно останется жить только при выпадение такого количества дисков, на которое он расчитан. Ваш тест идиотский и ни о чём не говорит.

af5 ★★★★★ ()
Ответ на: комментарий от af5

тест получился случайно, а написал это отступление по вопросу в теме - а можно ли восстановить данные!? так вот с того винта из 4х в R10 что у меня вывалился, я подключил к другой машине и появилось приглашение загрузки груб, загрузившись, я бы просто добавил остальные винты в раид и все бы думаю заработало бы )

wolverin ()
Ответ на: комментарий от wolverin

А если бы кое-кто их не выдёргивал из работающего сервера, то и хернёй маяться не пришлось бы вообще.

af5 ★★★★★ ()
Ответ на: комментарий от wolverin

так вот с того винта из 4х в R10 что у меня вывалился, я подключил к другой машине и появилось приглашение загрузки груб, загрузившись, я бы просто добавил остальные винты в раид и все бы думаю заработало бы )

Сильно сомневаюсь что после такого хамства массив бы собрался даже программный

af5 ★★★★★ ()
Ответ на: комментарий от af5

af5

хорошо, объясню причину сих действий - купили сервак 6 SAS дисков под базы + 4 SATA под помойку, так вот последние были не RE и они постоянно вываливались из хардварного массива - вот я и проводил эксперименты.
отсюда я сделал вывод - вся инфа о массивах хранится в «CMOS» контроллера.

wolverin ()
Ответ на: комментарий от wolverin

а где?

На дисках.

как поднять R1 если из него постепенно вывалятся оба винта?

Если речь о зеркале из двух винтов, то у меня для вас плохие новости: допустимо выпадение только одного винта.

af5 ★★★★★ ()
Ответ на: комментарий от af5

На дисках.

а после сборки аппаратного он значит просто переписывает старые данные, почему же он не хочет «понять» что диск из старого разрушеного раида, когда я ставлю его обратно?
а если я в другой контроллер воткну диск из раида он поймет что «он из него»? (для простоты говорим о наиболее мне близком R1)

допустимо выпадение только одного винта

это не критично - ремпап, затем клонирование и понеслось дальше.

wolverin ()
Ответ на: комментарий от wolverin

«он из него»

т.е. выдергиваю из Р1 один винт, ставлю в другой сервак с хард контроллеров и он вдруг понимает что это винт из раида?

wolverin ()
Ответ на: комментарий от wolverin

почему же он не хочет «понять» что диск из старого разрушеного раида, когда я ставлю его обратно?

Вырваный на ходу диск уже НЕЛЬЗЯ вставить обратно. Контроллер уже вычеркнул его из списка живых. Обратно он его примет только с полной переинициализацией как новый диск. Соответственно когда вы выдирали из работающего массива диски, на оставшиеся скидывалась инфа о том, что собрат погиб. Соответственно последняя актуальная инфа на последнем четвёртом диске который вы выдрали, была запись о том, что все остальные диски мертвы и более не являются частью массива.

это не критично - ремпап, затем клонирование и понеслось дальше.

Мне искренне жаль вашего работодателя. Как админ вы неадекватны.

af5 ★★★★★ ()
Ответ на: комментарий от af5

по теме - разобрал сервак, пошевелил сата шнур у винта и все заработало.
хз что было и почему такое случилось.

af5

)) вы меня не поняли - я достаю винт из одного сервака и ставлю в другой - тот поймет что это раид?
у меня не понял - пофег ему как то было что это ПОСЛЕДНИЙ диск из зеркала, сказал что первый раз видит винт в глаза.
зы. опыт - сын ошибок трудны (с)

wolverin ()
Ответ на: комментарий от wolverin

контроллер не помню какой точно, вот полный перечень

$ sudo lspci
00:00.0 Host bridge: Intel Corporation 5520 I/O Hub to ESI Port (rev 22)
00:01.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 1 (rev 22)
00:03.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 3 (rev 22)
00:05.0 PCI bridge: Intel Corporation 5520/X58 I/O Hub PCI Express Root Port 5 (rev 22)
00:07.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 7 (rev 22)
00:09.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 9 (rev 22)
00:0a.0 PCI bridge: Intel Corporation 5520/5500/X58 I/O Hub PCI Express Root Port 10 (rev 22)
00:10.0 PIC: Intel Corporation 5520/5500/X58 Physical and Link Layer Registers Port 0 (rev 22)
00:10.1 PIC: Intel Corporation 5520/5500/X58 Routing and Protocol Layer Registers Port 0 (rev 22)
00:11.0 PIC: Intel Corporation 5520/5500 Physical and Link Layer Registers Port 1 (rev 22)
00:11.1 PIC: Intel Corporation 5520/5500 Routing & Protocol Layer Register Port 1 (rev 22)
00:13.0 PIC: Intel Corporation 5520/5500/X58 I/O Hub I/OxAPIC Interrupt Controller (rev 22)
00:14.0 PIC: Intel Corporation 5520/5500/X58 I/O Hub System Management Registers (rev 22)
00:14.1 PIC: Intel Corporation 5520/5500/X58 I/O Hub GPIO and Scratch Pad Registers (rev 22)
00:14.2 PIC: Intel Corporation 5520/5500/X58 I/O Hub Control Status and RAS Registers (rev 22)
00:14.3 PIC: Intel Corporation 5520/5500/X58 I/O Hub Throttle Registers (rev 22)
00:15.0 PIC: Intel Corporation 5520/5500/X58 Trusted Execution Technology Registers (rev 22)
00:16.0 System peripheral: Intel Corporation 5520/5500/X58 Chipset QuickData Technology Device (rev 22)
00:16.1 System peripheral: Intel Corporation 5520/5500/X58 Chipset QuickData Technology Device (rev 22)
00:16.2 System peripheral: Intel Corporation 5520/5500/X58 Chipset QuickData Technology Device (rev 22)
00:16.3 System peripheral: Intel Corporation 5520/5500/X58 Chipset QuickData Technology Device (rev 22)
00:16.4 System peripheral: Intel Corporation 5520/5500/X58 Chipset QuickData Technology Device (rev 22)
00:16.5 System peripheral: Intel Corporation 5520/5500/X58 Chipset QuickData Technology Device (rev 22)
00:16.6 System peripheral: Intel Corporation 5520/5500/X58 Chipset QuickData Technology Device (rev 22)
00:16.7 System peripheral: Intel Corporation 5520/5500/X58 Chipset QuickData Technology Device (rev 22)
00:1a.0 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #4
00:1a.1 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #5
00:1a.2 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #6
00:1a.7 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB2 EHCI Controller #2
00:1c.0 PCI bridge: Intel Corporation 82801JI (ICH10 Family) PCI Express Root Port 1
00:1c.4 PCI bridge: Intel Corporation 82801JI (ICH10 Family) PCI Express Root Port 5
00:1c.5 PCI bridge: Intel Corporation 82801JI (ICH10 Family) PCI Express Root Port 6
00:1d.0 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #1
00:1d.1 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #2
00:1d.2 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB UHCI Controller #3
00:1d.7 USB Controller: Intel Corporation 82801JI (ICH10 Family) USB2 EHCI Controller #1
00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev 90)
00:1f.0 ISA bridge: Intel Corporation 82801JIR (ICH10R) LPC Interface Controller
00:1f.2 IDE interface: Intel Corporation 82801JI (ICH10 Family) 4 port SATA IDE Controller #1
00:1f.3 SMBus: Intel Corporation 82801JI (ICH10 Family) SMBus Controller
00:1f.5 IDE interface: Intel Corporation 82801JI (ICH10 Family) 2 port SATA IDE Controller #2
01:00.0 Ethernet controller: Intel Corporation 82575EB Gigabit Network Connection (rev 02)
01:00.1 Ethernet controller: Intel Corporation 82575EB Gigabit Network Connection (rev 02)
05:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 1078 (rev 04)
08:00.0 VGA compatible controller: Matrox Graphics, Inc. MGA G200e [Pilot] ServerEngines (SEP1) (rev 02)

wolverin ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.