Восстановить linux raid

0

1

Добрый день. Установлена Centos5.11 на linux raid1. Всего 3 раздела:

cat /etc/fstab
/dev/md0                swap                    swap    defaults        0 0
/dev/md1                /                       ext3    defaults        1 1
/dev/md2                /boot                   ext3    defaults        1 2
.....

Развалился md1:

cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdb2[1] sda2[0]
      4144704 blocks [2/2] [UU]

md1 : active raid1 sdb3[1]
      1948845056 blocks [2/1] [_U]

md2 : active raid1 sdb1[1] sda1[0]
      521984 blocks [2/2] [UU]

Смарт обоих дисков в порядке, посыпалась именно ext3:

fsck.ext3 -n /dev/md1
e2fsck 1.39 (29-May-2006)
Warning!  /dev/md1 is mounted.
Warning: skipping journal recovery because doing a read-only filesystem check.
/dev/md1 contains a file system with errors, check forced.
Pass 1: Checking inodes, blocks, and sizes
Deleted inode 477528069 has zero dtime.  Fix? no

Inodes that were part of a corrupted orphan linked list found.  Fix? no

Inode 477528070 was part of the orphaned inode list.  IGNORED.
Inode 477528071 was part of the orphaned inode list.  IGNORED.
Inode 477528072 was part of the orphaned inode list.  IGNORED.
Inode 477528073 was part of the orphaned inode list.  IGNORED.
Pass 2: Checking directory structure
Pass 3: Checking directory connectivity
Pass 4: Checking reference counts
Pass 5: Checking group summary information
Free blocks count wrong for group #699 (30829, counted=30828).
Fix? no

Free blocks count wrong for group #1318 (30947, counted=30946).
Fix? no

Free blocks count wrong for group #14621 (1452, counted=1451).
Fix? no

Free blocks count wrong for group #14623 (370, counted=368).
Fix? no

Free blocks count wrong for group #14645 (3552, counted=3551).
Fix? no

Free blocks count wrong for group #14772 (22563, counted=22398).
Fix? no

Free blocks count wrong (463180676, counted=463170450).
Fix? no

Inode bitmap differences:  -(477528069--477528073)
Fix? no

Free inodes count wrong for group #14772 (32710, counted=32708).
Fix? no

Free inodes count wrong (487079548, counted=487079463).
Fix? no


/dev/md1: ********** WARNING: Filesystem still has errors **********

/dev/md1: 147844/487227392 files (2.1% non-contiguous), 24030588/487211264 blocks

Как по ssh восстановить корень? «shutdown -rF now» результата не принесло.

Ссылка

← Очередной посоветуйте-хостинг-тред

Ubuntu+IredMail + Thunderbird →

Я бы для начала предложил не смешивать битую ФС и развалившийся массив.

anonymous
(23.06.16 11:39:54 MSK)

Что за бред ты несёшь?

Рейд не развалился, из зеркала выпал один диск. Ищи в логах причину. Потом либо добавляй обратно, либо меняй на новый и его добавляй в рейд

Проверка ФС на смонтированной ФС гарантированно даст некорректный результат

router ★★★★★
(23.06.16 11:41:20 MSK)

Ответ на: комментарий от anonymous 23.06.16 11:39:54 MSK

Олсо, где ты видишь посыпавшуюся ext3? У тебя в выводе fsck нет ничего ненормального для смонтированной ФС.

anonymous
(23.06.16 11:41:52 MSK)

Ответ на: комментарий от router 23.06.16 11:41:20 MSK

mdadm -a /dev/md1 /dev/sda3

завершается без ошибок, но в результате sda3 все равно помечен как сбойный (F)

another_person
(23.06.16 11:46:26 MSK) автор топика

Ответ на: комментарий от anonymous 23.06.16 11:41:52 MSK

почему тогда:

fsck.ext3 -n /dev/md2
e2fsck 1.39 (29-May-2006)
Warning!  /dev/md2 is mounted.
Warning: skipping journal recovery because doing a read-only filesystem check.
/dev/md2: clean, 60/130560 files, 58446/521984 blocks

another_person
(23.06.16 11:47:25 MSK) автор топика

Ссылка

Ответ на: комментарий от router 23.06.16 11:41:20 MSK

«Проверка ФС на смонтированной ФС гарантированно даст некорректный результат» можно пруф?

another_person
(23.06.16 11:55:40 MSK) автор топика

Ссылка

Ответ на: комментарий от another_person 23.06.16 11:46:26 MSK

А так: Исключаем из массива #mdadm /dev/md1 --remove /dev/sda3 удаляем следы рейда #mdadm --zero-superblock /dev/sda3 добавляем в массив #mdadm -a /dev/md1 /dev/sda3

flex
(23.06.16 12:15:48 MSK)

Ответ на: комментарий от flex 23.06.16 12:15:48 MSK

mdadm /dev/md1 –f /dev/sda3
mdadm /dev/md1 -r /dev/sda3
mdadm /dev/md1 -a /dev/sda3

обычно этого хватает

Morin ★★★★★
(23.06.16 12:22:33 MSK)

Ответ на: комментарий от flex 23.06.16 12:15:48 MSK

Только следы рейда не удалял: помечал сбойным, удалял из массива, добавлял заново. Просто там раздел на 2Тб, добавление занимает 6 часов - неохота еще рабочий день терять. Как мне кажется, основная проблема в битой ФС. Восстановить ее и раздел обратно вернется.

another_person
(23.06.16 12:23:13 MSK) автор топика

Ссылка

Ответ на: комментарий от Morin 23.06.16 12:22:33 MSK

Делал так. На выходе sda3 - (F)

another_person
(23.06.16 12:25:26 MSK) автор топика

Ответ на: комментарий от another_person 23.06.16 12:25:26 MSK

меняй диск значит

~~erzenl~~
(23.06.16 12:27:51 MSK)

Ответ на: комментарий от erzenl 23.06.16 12:27:51 MSK

Это не диск, а раздел на диске. Смарт диска в порядке (лонг тест без ошибок). Сами разделы тоже в норме:

fdisk -l

Disk /dev/sda: 2000.3 GB, 2000398934016 bytes
255 heads, 63 sectors/track, 243201 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

   Device Boot      Start         End      Blocks   Id  System
/dev/sda1   *           1          65      522081   fd  Linux raid autodetect
/dev/sda2              66         581     4144770   fd  Linux raid autodetect
/dev/sda3             582      243201  1948845150   fd  Linux raid autodetect

Disk /dev/sdb: 2000.3 GB, 2000398934016 bytes
255 heads, 63 sectors/track, 243201 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1   *           1          65      522081   fd  Linux raid autodetect
/dev/sdb2              66         581     4144770   fd  Linux raid autodetect
/dev/sdb3             582      243201  1948845150   fd  Linux raid autodetect

Поменять можно, но оснований нет.

another_person
(23.06.16 12:31:01 MSK) автор топика

Ответ на: комментарий от another_person 23.06.16 11:46:26 MSK

завершается без ошибок, но в результате sda3 все равно помечен как сбойный (F)

Сначала помечаешь как сбойный ( -f ), потом удаляешь ( -r ) , потом добавляешь заново ( -a )

«Проверка ФС на смонтированной ФС гарантированно даст некорректный результат» можно пруф?

Опыт и здравый смысл. Специально для тебя искать лень, попробуй сам ;)

Просто там раздел на 2Тб

В корне? OMFG, ученик эрзента?

Как мне кажется, основная проблема в битой ФС. Восстановить ее и раздел обратно вернется.

Основная проблема в том, что ты не понимаешь как это работает. У тебя ФС расположена поверх рейда. Рейд расположен поверх партиций msdos. Проблемы на верхнем уровне никак не могут привести к проблемам на нижнем. И починить их тоже.

router ★★★★★
(23.06.16 13:20:18 MSK)

Ответ на: комментарий от router 23.06.16 13:20:18 MSK

Да, и я бы всё-таки посмотрел логи. Там обычно сказано хоть что-нибудь про причину, по которой диск вылетел из рейда

router ★★★★★
(23.06.16 13:23:09 MSK)

Ответ на: комментарий от router 23.06.16 13:20:18 MSK

Сначала помечаешь как сбойный ( -f ), потом удаляешь ( -r ) , потом добавляешь заново ( -a )

тред не читай, сразу отвечай Восстановить linux raid (комментарий)

Опыт и здравый смысл. Специально для тебя искать лень, попробуй сам ;)

тред не читай, сразу отвечай Восстановить linux raid (комментарий) что твои опыт и смысл скажут?

В корне? ...

что в этом плохого?

Основная проблема в том, что ты не понимаешь как это работает.

так объясни.

another_person
(23.06.16 13:28:20 MSK) автор топика

Ответ на: комментарий от router 23.06.16 13:23:09 MSK

cat /var/log/messages

Jun 23 09:55:23 tver kernel: md: Autodetecting RAID arrays.
Jun 23 09:55:23 tver kernel: md: autorun ...
Jun 23 09:55:23 tver kernel: md: considering sdb3 ...
Jun 23 09:55:23 tver kernel: md:  adding sdb3 ...
Jun 23 09:55:23 tver kernel: md: sdb2 has different UUID to sdb3
Jun 23 09:55:23 tver kernel: md: sdb1 has different UUID to sdb3
Jun 23 09:55:23 tver kernel: md:  adding sda3 ...
Jun 23 09:55:23 tver kernel: md: sda2 has different UUID to sdb3
Jun 23 09:55:23 tver kernel: md: sda1 has different UUID to sdb3
Jun 23 09:55:23 tver kernel: md: created md1
Jun 23 09:55:23 tver kernel: md: bind<sda3>
Jun 23 09:55:23 tver kernel: md: bind<sdb3>
Jun 23 09:55:23 tver kernel: md: running: <sdb3><sda3>
Jun 23 09:55:23 tver kernel: md: kicking non-fresh sda3 from array!
Jun 23 09:55:23 tver kernel: md: unbind<sda3>
Jun 23 09:55:23 tver kernel: md: export_rdev(sda3)
Jun 23 09:55:23 tver kernel: raid1: raid set md1 active with 1 out of 2 mirrors

another_person
(23.06.16 13:30:37 MSK) автор топика

Ссылка

Ответ на: комментарий от another_person 23.06.16 13:28:20 MSK

тред не читай, сразу отвечай

Взаимно

Jun 23 09:55:23 tver kernel: md: kicking non-fresh sda3 from array!

Это уже попытка сборки рейда. Скорее всего, после перезагрузки. Ищи в логах момент, когда диск первый раз вылетел

router ★★★★★
(23.06.16 13:33:07 MSK)

Ссылка

Ответ на: комментарий от another_person 23.06.16 12:31:01 MSK

эрзент конечно обычно чуш несет, но вот в данном случае возможно он и прав.

Это не диск, а раздел на диске.

Который занимает практически весь диск.

Смарт диска в порядке (лонг тест без ошибок).

Не показатель. Кстати а что за модель-то, не десктопная ли?
Если то что вам советовали выше включая zero-superblock не помогает, я бы поменял диск.
ЗЫ У меня был опыт подобный, причем харды были новые но десктопные, смарт идеален, собрали массивы, накатили систему, поработали немного, массив развалился (причем рандомным образом любой из md? мог развалиться). Серверов было два из одной партии лежали как запасные (какая падла в них такие харды заказала я хз) вобщем позже со вторым сервером ситуация полностью повторилась.

anc ★★★★★
(23.06.16 17:18:08 MSK)

Ответ на: комментарий от anc 23.06.16 17:18:08 MSK

Хм,а если перечитать стартовый опус, свап почти всегда пуст, бут ридонли, а вот корень содержит все остальное, куда мы стараемся писать, а не провода ли это?

Morin ★★★★★
(23.06.16 17:35:39 MSK)