LINUX.ORG.RU
ФорумAdmin

Raid 1 array endless syncing


0

0

Добрый день!

Помогите plz разобраться с mdadm raid1. В процессе замены битого диска sda из зеркала, оказалось что и второй диск (sdb) так же проблемный. Соответственно в процессе выполнения комманды mdadm --manage /dev/md2 --add /dev/sda3 получается бесконечный цикл. Как только sync доходит до 100% в /var/log/messages появляются такие вот сообщения:

Jun 23 14:46:57 serverb kernel: md: md2: sync done.
Jun 23 14:47:03 serverb kernel: ata2.00: exception Emask 0x0 SAct 0xc007f00 SErr 0x0 action 0x0
Jun 23 14:47:03 serverb kernel: ata2.00: irq_stat 0x40000008
Jun 23 14:47:03 serverb kernel: ata2.00: cmd 60/80:48:7c:a8:ee/00:00:22:00:00/40 tag 9 ncq 65536 in
Jun 23 14:47:03 serverb kernel: res 41/40:00:d8:a8:ee/ad:00:22:00:00/40 Emask 0x409 (media error) <F>
Jun 23 14:47:03 serverb kernel: ata2.00: status: { DRDY ERR }
Jun 23 14:47:03 serverb kernel: ata2.00: error: { UNC }
Jun 23 14:47:03 serverb kernel: ata2.00: configured for UDMA/133
Jun 23 14:47:03 serverb kernel: ata2: EH complete
Jun 23 14:47:09 serverb kernel: ata2.00: exception Emask 0x0 SAct 0x80 SErr 0x0 action 0x0
Jun 23 14:47:09 serverb kernel: ata2.00: irq_stat 0x40000008
Jun 23 14:47:09 serverb kernel: ata2.00: cmd 60/80:38:7c:a8:ee/00:00:22:00:00/40 tag 7 ncq 65536 in
Jun 23 14:47:09 serverb kernel: res 41/40:00:d8:a8:ee/00:00:22:00:00/40 Emask 0x409 (media error) <F>
Jun 23 14:48:11 serverb kernel: ata2.00: status: { DRDY ERR }
Jun 23 14:48:11 serverb kernel: ata2.00: error: { UNC }
Jun 23 14:48:11 serverb kernel: ata2.00: configured for UDMA/133
Jun 23 14:48:11 serverb kernel: ata2: EH complete
Jun 23 14:48:11 serverb kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Jun 23 14:48:11 serverb kernel: ata2.00: irq_stat 0x40000008
Jun 23 14:48:11 serverb kernel: ata2.00: cmd 60/80:00:7c:a8:ee/00:00:22:00:00/40 tag 0 ncq 65536 in


Jun 23 14:48:11 serverb kernel: res 41/40:00:d8:a8:ee/00:00:22:00:00/40 Emask 0x409 (media error) <F>
Jun 23 14:48:11 serverb kernel: ata2.00: status: { DRDY ERR }
Jun 23 14:48:11 serverb kernel: ata2.00: error: { UNC }
Jun 23 14:48:11 serverb kernel: ata2.00: configured for UDMA/133
Jun 23 14:48:11 serverb kernel: ata2: EH complete
Jun 23 14:48:11 serverb kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Jun 23 14:48:11 serverb kernel: ata2.00: irq_stat 0x40000008
Jun 23 14:48:11 serverb kernel: ata2.00: cmd 60/80:00:7c:a8:ee/00:00:22:00:00/40 tag 0 ncq 65536 in
Jun 23 14:48:11 serverb kernel: res 41/40:00:d8:a8:ee/00:00:22:00:00/40 Emask 0x409 (media error) <F>
Jun 23 14:48:11 serverb kernel: ata2.00: status: { DRDY ERR }
Jun 23 14:48:11 serverb kernel: ata2.00: error: { UNC }
Jun 23 14:48:11 serverb kernel: ata2.00: configured for UDMA/133
Jun 23 14:48:11 serverb kernel: ata2: EH complete
Jun 23 14:48:11 serverb kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Jun 23 14:48:11 serverb kernel: ata2.00: irq_stat 0x40000008
Jun 23 14:48:11 serverb kernel: ata2.00: cmd 60/80:00:7c:a8:ee/00:00:22:00:00/40 tag 0 ncq 65536 in
Jun 23 14:48:11 serverb kernel: res 41/40:00:d8:a8:ee/00:00:22:00:00/40 Emask 0x409 (media error) <F>
Jun 23 14:48:11 serverb kernel: ata2.00: status: { DRDY ERR }
Jun 23 14:48:11 serverb kernel: ata2.00: error: { UNC }
Jun 23 14:48:11 serverb kernel: ata2.00: configured for UDMA/133
Jun 23 14:48:11 serverb kernel: ata2: EH complete
Jun 23 14:48:11 serverb kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Jun 23 14:48:11 serverb kernel: ata2.00: irq_stat 0x40000008
Jun 23 14:48:11 serverb kernel: ata2.00: cmd 60/80:00:7c:a8:ee/00:00:22:00:00/40 tag 0 ncq 65536 in
Jun 23 14:48:11 serverb kernel: res 41/40:00:d8:a8:ee/00:00:22:00:00/40 Emask 0x409 (media error) <F>
Jun 23 14:48:11 serverb kernel: ata2.00: status: { DRDY ERR }
Jun 23 14:48:11 serverb kernel: ata2.00: error: { UNC }
Jun 23 14:48:11 serverb kernel: ata2.00: configured for UDMA/133
Jun 23 14:48:11 serverb kernel: sd 1:0:0:0: SCSI error: return code = 0x08000002
Jun 23 14:48:11 serverb kernel: sdb: Current [descriptor]: sense key: Medium Error
Jun 23 14:48:11 serverb kernel: Add. Sense: Unrecovered read error - auto reallocate failed
Jun 23 14:48:11 serverb kernel:
Jun 23 14:48:11 serverb kernel: Descriptor sense data with sense descriptors (in hex):
Jun 23 14:48:11 serverb kernel: 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
Jun 23 14:48:11 serverb kernel: 22 ee a8 d8
Jun 23 14:48:11 serverb kernel: end_request: I/O error, dev sdb, sector 586066136
Jun 23 14:48:11 serverb kernel: ata2: EH complete
Jun 23 14:48:11 serverb kernel: SCSI device sdb: 586072368 512-byte hdwr sectors (300069 MB)
Jun 23 14:48:11 serverb kernel: sdb: Write Protect is off
Jun 23 14:48:11 serverb kernel: SCSI device sdb: drive cache: write back
Jun 23 14:48:11 serverb kernel: SCSI device sdb: 586072368 512-byte hdwr sectors (300069 MB)
Jun 23 14:48:11 serverb kernel: sdb: Write Protect is off
Jun 23 14:48:11 serverb kernel: SCSI device sdb: drive cache: write back
Jun 23 14:48:11 serverb kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Jun 23 14:48:11 serverb kernel: ata2.00: irq_stat 0x40000008
Jun 23 14:48:11 serverb kernel: ata2.00: cmd 60/08:00:d4:a8:ee/00:00:22:00:00/40 tag 0 ncq 4096 in
Jun 23 14:48:11 serverb kernel: res 41/40:00:d8:a8:ee/00:00:22:00:00/40 Emask 0x409 (media error) <F>
Jun 23 14:48:11 serverb kernel: ata2.00: status: { DRDY ERR }
Jun 23 14:48:11 serverb kernel: ata2.00: error: { UNC }
Jun 23 14:48:11 serverb kernel: ata2.00: configured for UDMA/133
Jun 23 14:48:11 serverb kernel: ata2: EH complete
Jun 23 14:48:11 serverb kernel: SCSI device sdb: 586072368 512-byte hdwr sectors (300069 MB)
Jun 23 14:48:11 serverb kernel: sdb: Write Protect is off
Jun 23 14:48:11 serverb kernel: SCSI device sdb: drive cache: write back
Jun 23 14:48:11 serverb kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Jun 23 14:48:11 serverb kernel: ata2.00: irq_stat 0x40000008
Jun 23 14:48:11 serverb kernel: ata2.00: cmd 60/08:00:d4:a8:ee/00:00:22:00:00/40 tag 0 ncq 4096 in
Jun 23 14:48:11 serverb kernel: res 41/40:00:d8:a8:ee/00:00:22:00:00/40 Emask 0x409 (media error) <F>
Jun 23 14:48:11 serverb kernel: ata2.00: status: { DRDY ERR }
Jun 23 14:48:11 serverb kernel: ata2.00: error: { UNC }
Jun 23 14:48:11 serverb kernel: ata2.00: configured for UDMA/133
Jun 23 14:48:11 serverb kernel: ata2: EH complete
Jun 23 14:48:11 serverb kernel: SCSI device sdb: 586072368 512-byte hdwr sectors (300069 MB)
Jun 23 14:48:11 serverb kernel: sdb: Write Protect is off
Jun 23 14:48:11 serverb kernel: SCSI device sdb: drive cache: write back
Jun 23 14:48:11 serverb kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Jun 23 14:48:11 serverb kernel: ata2.00: irq_stat 0x40000008
Jun 23 14:48:11 serverb kernel: ata2.00: cmd 60/08:00:d4:a8:ee/00:00:22:00:00/40 tag 0 ncq 4096 in
Jun 23 14:48:11 serverb kernel: res 41/40:00:d8:a8:ee/00:00:22:00:00/40 Emask 0x409 (media error) <F>
Jun 23 14:48:11 serverb kernel: ata2.00: status: { DRDY ERR }
Jun 23 14:48:11 serverb kernel: ata2.00: error: { UNC }
Jun 23 14:48:11 serverb kernel: ata2.00: configured for UDMA/133
Jun 23 14:48:11 serverb kernel: ata2: EH complete
Jun 23 14:48:11 serverb kernel: SCSI device sdb: 586072368 512-byte hdwr sectors (300069 MB)
Jun 23 14:48:11 serverb kernel: sdb: Write Protect is off
Jun 23 14:48:11 serverb kernel: SCSI device sdb: drive cache: write back

epiq
() автор топика
Ответ на: комментарий от epiq

Jun 23 14:48:11 serverb kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Jun 23 14:48:11 serverb kernel: ata2.00: irq_stat 0x40000008
Jun 23 14:48:11 serverb kernel: ata2.00: cmd 60/08:00:d4:a8:ee/00:00:22:00:00/40 tag 0 ncq 4096 in
Jun 23 14:48:11 serverb kernel: res 41/40:00:d8:a8:ee/00:00:22:00:00/40 Emask 0x409 (media error) <F>
Jun 23 14:48:11 serverb kernel: ata2.00: status: { DRDY ERR }
Jun 23 14:48:11 serverb kernel: ata2.00: error: { UNC }
Jun 23 14:48:11 serverb kernel: ata2.00: configured for UDMA/133
Jun 23 14:48:11 serverb kernel: ata2: EH complete
Jun 23 14:48:11 serverb kernel: SCSI device sdb: 586072368 512-byte hdwr sectors (300069 MB)
Jun 23 14:48:11 serverb kernel: sdb: Write Protect is off
Jun 23 14:48:11 serverb kernel: SCSI device sdb: drive cache: write back
Jun 23 14:48:11 serverb kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Jun 23 14:48:11 serverb kernel: ata2.00: irq_stat 0x40000008
Jun 23 14:48:11 serverb kernel: ata2.00: cmd 60/08:00:d4:a8:ee/00:00:22:00:00/40 tag 0 ncq 4096 in
Jun 23 14:48:11 serverb kernel: res 41/40:00:d8:a8:ee/00:00:22:00:00/40 Emask 0x409 (media error) <F>
Jun 23 14:48:11 serverb kernel: ata2.00: status: { DRDY ERR }
Jun 23 14:48:11 serverb kernel: ata2.00: error: { UNC }
Jun 23 14:48:11 serverb kernel: ata2.00: configured for UDMA/133
Jun 23 14:48:11 serverb kernel: ata2: EH complete
Jun 23 14:48:11 serverb kernel: SCSI device sdb: 586072368 512-byte hdwr sectors (300069 MB)
Jun 23 14:48:11 serverb kernel: sdb: Write Protect is off
Jun 23 14:48:11 serverb kernel: SCSI device sdb: drive cache: write back
Jun 23 14:48:11 serverb kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Jun 23 14:48:11 serverb kernel: ata2.00: irq_stat 0x40000008
Jun 23 14:48:11 serverb kernel: ata2.00: cmd 60/08:00:d4:a8:ee/00:00:22:00:00/40 tag 0 ncq 4096 in
Jun 23 14:48:11 serverb kernel: res 41/40:00:d8:a8:ee/00:00:22:00:00/40 Emask 0x409 (media error) <F>
Jun 23 14:48:11 serverb kernel: ata2.00: status: { DRDY ERR }
Jun 23 14:48:11 serverb kernel: ata2.00: error: { UNC }
Jun 23 14:48:11 serverb kernel: ata2.00: configured for UDMA/133
Jun 23 14:48:11 serverb kernel: sd 1:0:0:0: SCSI error: return code = 0x08000002
Jun 23 14:48:11 serverb kernel: sdb: Current [descriptor]: sense key: Medium Error
Jun 23 14:48:11 serverb kernel: Add. Sense: Unrecovered read error - auto reallocate failed
Jun 23 14:48:11 serverb kernel:
Jun 23 14:48:11 serverb kernel: Descriptor sense data with sense descriptors (in hex):
Jun 23 14:48:11 serverb kernel: 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
Jun 23 14:48:11 serverb kernel: 22 ee a8 d8
Jun 23 14:48:11 serverb kernel: end_request: I/O error, dev sdb, sector 586066136
Jun 23 14:48:11 serverb kernel: ata2: EH complete
Jun 23 14:48:11 serverb kernel: raid1: sdb: unrecoverable I/O read error for block 557341824
Jun 23 14:48:11 serverb kernel: SCSI device sdb: 586072368 512-byte hdwr sectors (300069 MB)
Jun 23 14:48:11 serverb kernel: sdb: Write Protect is off
Jun 23 14:48:11 serverb kernel: SCSI device sdb: drive cache: write back
Jun 23 14:48:11 serverb kernel: RAID1 conf printout:
Jun 23 14:48:11 serverb kernel: --- wd:1 rd:2
Jun 23 14:48:11 serverb kernel: disk 0, wo:1, o:1, dev:sda3
Jun 23 14:48:11 serverb kernel: disk 1, wo:0, o:1, dev:sdb3
Jun 23 14:48:11 serverb kernel: RAID1 conf printout:
Jun 23 14:48:11 serverb kernel: --- wd:1 rd:2
Jun 23 14:48:11 serverb kernel: disk 1, wo:0, o:1, dev:sdb3
Jun 23 14:48:11 serverb kernel: RAID1 conf printout:
Jun 23 14:48:11 serverb kernel: --- wd:1 rd:2
Jun 23 14:48:11 serverb kernel: disk 0, wo:1, o:1, dev:sda3
Jun 23 14:48:11 serverb kernel: disk 1, wo:0, o:1, dev:sdb3
Jun 23 14:48:11 serverb kernel: md: syncing RAID array md2
Jun 23 14:48:11 serverb kernel: md: minimum _guaranteed_ reconstruction speed: 1000 KB/sec/disc.
Jun 23 14:48:12 serverb kernel: md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for reconstruction.
Jun 23 14:48:12 serverb kernel: md: using 128k window, over a total of 278671424 blocks.
Jun 23 14:49:42 serverb last message repeated 18 times

И процесс начинается сначала. Возможно ли как-то определить какие именно файлы находятся на битых секторах и удалить из, чтобы resync sdb->sda прошёл нормально, а потом уже заменить и битый sdb диск?

Заранее спасибо!

epiq
() автор топика
Ответ на: комментарий от epiq

Ресинк происходит на уровне блочного устройства и ни о каких файлах не знает, так что вряд ли удаление файлов как то поможет.

ventilator ★★★
()
Ответ на: комментарий от ventilator

Т.е никак нельзя сказать md, чтобы он пропускал нечитаемые болоки? Понимаю это это наверное глупо звучит, но очень уж неохота с нуля систему ставить, хотелось как нибудь получить живой снапшот существующей на новом диске а потом уже менять битый ...

epiq
() автор топика
Ответ на: комментарий от epiq

И что будет в этом «живом снапшоте»? Можно не менять винт, оставить старый - эффект такой же как и от такого снапшота.

ventilator ★★★
()
Ответ на: комментарий от ventilator

Возможно я не прав , но идея в следующем - если resync доходит до 99.9% и только потом говорит end_request: I/O error скорее всего в этих битых секторах не записано никакой полезной информации. Во всяком случае проблему мы заметили, только когда и логический раздел заполнялся почти целиком. при копировании стандартными средствами (cp) на другой диск в целях спасения данных, 80% содержимого никаких ошибок не появилось. Соответственно даже если этот условно «живой снапшот» на новом диске будет иметь какие-то проблемы, сам физический новый диск не должен их иметь ...
вобщем пока я это писал понял что надо загрузиться с acronis'a и попробовать скопировать весь диск целиком на новый носитель ...

epiq
() автор топика
Ответ на: комментарий от iZEN

mhdd конечно вариант, но битый диск всё равно нести в сервис, перед использованием mhdd нужно в любом случае делать копию, и наконец есть сомнения, что после ремапа md нормально заведётся - есть такой опыт?

epiq
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.