LINUX.ORG.RU
ФорумAdmin

Развалился raid 6 на mdadm. Помогите разобраться.


1

3

Друзья, помогите советами

С линуксом дружу давно и столько же с рейдами софтовыми на mdadm. Проблем с ними никогда не знал.

А тут впервые столкнулся с тем что развалившегося рэйд развалился. Помогите советом. Благо бэкап самой важной инфы у меня есть, но тем не мнение на рейде есть данные, которые не критичны, но терять не хотелось бы.

Итак вводные:

ОС Debian Wheezy amd64 Был поднят рэйд 6 на 8ми дисках seagate по 2Тб. В какой-то момент один из дисков из рейда вылетел по причине каких-то ошибок (после чего диск упорно не хотел рас познаваться при загрузке, даже биос его не видел). Я подумал что диску кранты и купил новый. Заменил старый на новый, добавил его в рэйд, и пошла пересборка рейда с новым диском. Я успокоился, и уже было пошел пить чай, как вдруг в консоль полезли ошибки типо. Какие щас и не помню уже их было много разных. За 30 секунд ошибок вылетело 2 и более дисков, в итоге рейд отключился.

Теперь при старте системы я получаю сообщение: Can not start degraded raid array. Not enough disks to start raid. И ТД и тп.

Попытка поднять вручную не увенчалась успехом. #mdadm -v --assemble --force /dev/md0 /dev/sd[a-h]5

/dev/sda5 Device is busy. /dev/sdb5 Device is busy. ... /dev/sdh5 Device is busy.

Помогите советом. Что делать и как пытаться его поднять? Все что нужно готов выложить.

Device is busy

Поди raid уже собран, только ″inactive″. Стопните его. Проверьте железо, убедитесь, что все диски живые, и собирая не включайте в него этот новый диск, который не успел синхронизоваться. Если у вас из raid6 действительно вышло из строя 3 диска, дак не о чем говорить.

mky ★★★★★
()
Ответ на: комментарий от kerneliq

У меня система стоит на отдельном диске ssd'шнике. Поэтому я гружусь без проблем.

Но вот рэйд не поднимается.

Диски пару дней назад проверял на badblocks. Все чисто. Да и диски то новые все.

ITdreamer
() автор топика

А диски из одной партии? Все разом покупались? Если да, есть ненулевая вероятнось их физического вылета во время ребилда :(

ava1ar
()
Ответ на: комментарий от ITdreamer
/dev/sda5:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 95732325:39eedce7:c33d41d7:66c3a1dd
           Name : vfxserver01:0  (local to host vfxserver01)
  Creation Time : Tue Jan 28 21:45:42 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 3886454784 (1853.21 GiB 1989.86 GB)
     Array Size : 11659361280 (11119.23 GiB 11939.19 GB)
  Used Dev Size : 3886453760 (1853.21 GiB 1989.86 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : active
    Device UUID : 71b9867a:66db0af4:3efc8b53:f001de4e

    Update Time : Tue Feb 11 22:05:04 2014
       Checksum : 431d872 - correct
         Events : 1650

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 3
   Array State : AAAAAAAA ('A' == active, '.' == missing)
/dev/sdb5:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x2
     Array UUID : 95732325:39eedce7:c33d41d7:66c3a1dd
           Name : vfxserver01:0  (local to host vfxserver01)
  Creation Time : Tue Jan 28 21:45:42 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 3886454784 (1853.21 GiB 1989.86 GB)
     Array Size : 11659361280 (11119.23 GiB 11939.19 GB)
  Used Dev Size : 3886453760 (1853.21 GiB 1989.86 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
Recovery Offset : 0 sectors
          State : active
    Device UUID : 9f9d5302:4a2304a2:35346545:f9339c04

    Update Time : Tue Feb 11 22:05:04 2014
       Checksum : e18f6e89 - correct
         Events : 1650

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 2
   Array State : AAAAAAAA ('A' == active, '.' == missing)
/dev/sdc5:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 95732325:39eedce7:c33d41d7:66c3a1dd
           Name : vfxserver01:0  (local to host vfxserver01)
  Creation Time : Tue Jan 28 21:45:42 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 3886454784 (1853.21 GiB 1989.86 GB)
     Array Size : 11659361280 (11119.23 GiB 11939.19 GB)
  Used Dev Size : 3886453760 (1853.21 GiB 1989.86 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : active
    Device UUID : b1e0247b:16f8f6df:ab03039d:cb860d78

    Update Time : Tue Feb 11 22:05:04 2014
       Checksum : 6362a8a8 - correct
         Events : 1650

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 1
   Array State : AAAAAAAA ('A' == active, '.' == missing)
/dev/sdd5:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 95732325:39eedce7:c33d41d7:66c3a1dd
           Name : vfxserver01:0  (local to host vfxserver01)
  Creation Time : Tue Jan 28 21:45:42 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 3886454784 (1853.21 GiB 1989.86 GB)
     Array Size : 11659361280 (11119.23 GiB 11939.19 GB)
  Used Dev Size : 3886453760 (1853.21 GiB 1989.86 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : active
    Device UUID : c7294a91:207903cd:1fff20d2:1b692dce

    Update Time : Tue Feb 11 22:05:04 2014
       Checksum : f1d2508b - correct
         Events : 1650

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 0
   Array State : AAAAAAAA ('A' == active, '.' == missing)
/dev/sde5:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 95732325:39eedce7:c33d41d7:66c3a1dd
           Name : vfxserver01:0  (local to host vfxserver01)
  Creation Time : Tue Jan 28 21:45:42 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 3886454784 (1853.21 GiB 1989.86 GB)
     Array Size : 11659361280 (11119.23 GiB 11939.19 GB)
  Used Dev Size : 3886453760 (1853.21 GiB 1989.86 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : active
    Device UUID : 9f344adc:157edfba:6657f101:195f2dda

    Update Time : Tue Feb 11 22:05:04 2014
       Checksum : 667eaea4 - correct
         Events : 1650

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 7
   Array State : AAAAAAAA ('A' == active, '.' == missing)
/dev/sdf5:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 95732325:39eedce7:c33d41d7:66c3a1dd
           Name : vfxserver01:0  (local to host vfxserver01)
  Creation Time : Tue Jan 28 21:45:42 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 3886454784 (1853.21 GiB 1989.86 GB)
     Array Size : 11659361280 (11119.23 GiB 11939.19 GB)
  Used Dev Size : 3886453760 (1853.21 GiB 1989.86 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : active
    Device UUID : 519d8e97:a6f0512b:9dcbffad:0118b562

    Update Time : Tue Feb 11 22:05:04 2014
       Checksum : c6cbb704 - correct
         Events : 1650

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 6
   Array State : AAAAAAAA ('A' == active, '.' == missing)
/dev/sdg5:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 95732325:39eedce7:c33d41d7:66c3a1dd
           Name : vfxserver01:0  (local to host vfxserver01)
  Creation Time : Tue Jan 28 21:45:42 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 3886454784 (1853.21 GiB 1989.86 GB)
     Array Size : 11659361280 (11119.23 GiB 11939.19 GB)
  Used Dev Size : 3886453760 (1853.21 GiB 1989.86 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : active
    Device UUID : 3ec9c266:1e519984:e5bda26d:bec7a25e

    Update Time : Tue Feb 11 22:05:04 2014
       Checksum : aad7e56d - correct
         Events : 1650

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 5
   Array State : AAAAAAAA ('A' == active, '.' == missing)
/dev/sdh5:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 95732325:39eedce7:c33d41d7:66c3a1dd
           Name : vfxserver01:0  (local to host vfxserver01)
  Creation Time : Tue Jan 28 21:45:42 2014
     Raid Level : raid6
   Raid Devices : 8

 Avail Dev Size : 3886454784 (1853.21 GiB 1989.86 GB)
     Array Size : 11659361280 (11119.23 GiB 11939.19 GB)
  Used Dev Size : 3886453760 (1853.21 GiB 1989.86 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
          State : active
    Device UUID : a1944405:7d862563:157704c8:fb3eb3bb

    Update Time : Tue Feb 11 22:05:04 2014
       Checksum : df58178b - correct
         Events : 1650

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 4
   Array State : AAAAAAAA ('A' == active, '.' == missing)
ITdreamer
() автор топика
Ответ на: комментарий от ITdreamer

Ошибки которые посыпались перед тем как рэйд сдох были приблизительно такие:

68489.756311] ata3.00: status: { DRDY ERR }
[68489.756314] ata3.00: error: { UNC }
[68489.951583] ata3.00: configured for UDMA/133
[68489.951604] ata3: EH complete
[68492.671124] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[68492.671133] ata3.00: BMDMA stat 0x24
[68492.671140] ata3.00: cmd c8/00:08:55:e8:8d/00:00:00:00:00/e2 tag 0 dma 4096 in
[68492.671142]          res 51/40:00:56:e8:8d/00:00:00:00:00/02 Emask 0x9 (media error)
[68492.671145] ata3.00: status: { DRDY ERR }
[68492.671148] ata3.00: error: { UNC }
[68492.899657] ata3.00: configured for UDMA/133
[68492.899678] ata3: EH complete
[68495.610841] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[68495.610851] ata3.00: BMDMA stat 0x24
[68495.610857] ata3.00: cmd c8/00:08:55:e8:8d/00:00:00:00:00/e2 tag 0 dma 4096 in
[68495.610859]          res 51/40:00:56:e8:8d/00:00:00:00:00/02 Emask 0x9 (media error)
[68495.610863] ata3.00: status: { DRDY ERR }
[68495.610865] ata3.00: error: { UNC }
[68495.799599] ata3.00: configured for UDMA/133
[68495.799620] sd 2:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE,SUGGEST_OK
[68495.799626] sd 2:0:0:0: [sda] Sense Key : Medium Error [current] [descriptor]
[68495.799631] Descriptor sense data with sense descriptors (in hex):
[68495.799633]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
[68495.799643]         02 8d e8 56 
[68495.799647] sd 2:0:0:0: [sda] Add. Sense: Unrecovered read error - auto reallocate failed
[68495.799653] end_request: I/O error, dev sda, sector 42854486

причем меня было с разных дисков сообщения и ata3 и ata5 и др. Все сообщения вперемешку были.

ITdreamer
() автор топика
Ответ на: комментарий от ITdreamer

Вообще история эта началась еще раньше.

Наш сервак на raid 5 из 6ти дисков по 500 гб, работает уже 4й год без проблем. Но места на серваке уже мало. И мы решили собрать новый, с большим объемом.

После долгих лазаний инета и разных форумов, просмотр обзоров и т.д. я взял следующую конфигурацию.

Procase EB306L-B-0 SuperMicro X10SAE-O (Socket 1150) Intel Core i3 - 4330 BOX 2х8Gb DDR-III 1600MHz Kingston (KVR16N11/8) 8192 Мб, DDR-3, 12800 Мб/с, CL11 8x2Tb SATA-III Seagate Barracuda 7200.14 (ST2000DM001)

Поставил на нее debian 7, поднял рэйд.

ITdreamer
() автор топика
Ответ на: комментарий от ITdreamer

Помимо самого корпуса Procase EB306L-B-0 были также куплены 2 бокса с горячей заменой для этого корпуса. Вот такие A3-304-SATA3

Сразу с первой загрузкой, обратил внимание на то что периодически при начальной загрузке отдельные диски не проходят S.M.A.R.T. тест. Точнее как правило 1 или 2 из восьми. Причем как правило одни и те же.

Но делать было нечего, я нажимал F1 и загрузка продолжалась. Дальше все грузилось без проблем, рэйд поднимался.

Но периодически я обращал внимание, что иногда в консоль лезли ошибки типо

68489.756311] ata3.00: status: { DRDY ERR }
[68489.756314] ata3.00: error: { UNC }
[68489.951583] ata3.00: configured for UDMA/133
[68489.951604] ata3: EH complete
[68492.671124] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[68492.671133] ata3.00: BMDMA stat 0x24
[68492.671140] ata3.00: cmd c8/00:08:55:e8:8d/00:00:00:00:00/e2 tag 0 dma 4096 in
[68492.671142]          res 51/40:00:56:e8:8d/00:00:00:00:00/02 Emask 0x9 (media error)

Я подумал, может провода? Все проверил, провода нормальные. Может что с дисками? Проверил на badblocks, тоже все ок.

Даже купил парочку дисков и заменил те, что иногда не проходили smart тест.

Причем, что интересно, при загрузке диск мог не пройти смарт тест, а если уже после загрузки системы прогнать тест, то все ок.

В итоге, я подумал, ну может контроллер дурит? (причем на этой материнке 6 дисков идут на контроллере intel c226, а 2 на asmedia. И те что на asmedia работали без проблем точно, во всяком случае, они всегда проходили смарт и по ним ошибки не лезли.

В итоге, купил 2 sata контроллера сегодня ST-Lab А520 (по 4 порта sata 3). Включил их, подрубил к ним диски. Установил заново debian 7. (при этом я когда ставил систему у меня в рэйде 1 диск был новый и рэйд не был синхронизирован).

В итоге поставил систему, все настроил, будучи уже уверенный что проблема была в контроллерах, т.к. ошибок не вылезало по ходу работы.

Поставил синхронизироваться рэйд с новым диском, началось все хорошо. Но минут через 5-10 началось то о чем я писал выше.

В итоге рэйд вылетел, и причина по которой лезли ошибки снова не ясна.

ITdreamer
() автор топика
Ответ на: комментарий от ITdreamer

Скажите какие тесты запустить, для проверки и идентификации причин сбоя? Результаты буду выкладывать. Может это поможет коллективно решить проблему.

Завтра попробую купить другую материнку и пересобрать систему на новой, т.к. я уже не знаю на что грешить. Либо материнка, либо боксы для дисков, хрен знает.

ITdreamer
() автор топика
Ответ на: комментарий от ITdreamer

Причем, что интересно, при загрузке диск мог не пройти смарт тест, а если уже после загрузки системы прогнать тест, то все ок.

Какой тест вы прогоняли после загрузки?

иногда не проходили smart тест.

Длинный smart тест (запускаемый командой smartctl ...) идёт порядка часа, вы его прогоняли?

Что сейчас в /proc/mdstat? Какой блок питания, его нет в описании железа. Если боксы под подозрением, уберите их, на время тестов винты и на столе разложить можно, или разъёмов питания не хватит?

mky ★★★★★
()
Ответ на: комментарий от mky

Нет тесты смарт короткие через smartctrl. А как выглядит команда на длинный тест?

Да щас уберу боксы и буду тестировать без них.

ITdreamer
() автор топика
Ответ на: комментарий от ITdreamer

cat /proc/mdstat

Personalities : [raid6] [raid5] [raid4] 
md0 : inactive sdd5[0] sde5[7] sdf5[6] sdg5[5] sdh5[4] sda5[3] sdb5[8] sdc5[1]
      15545819136 blocks super 1.2
       
unused devices: <none>
ITdreamer
() автор топика
Ответ на: cat /proc/mdstat от ITdreamer

smartctl --scan

/dev/sda -d scsi # /dev/sda, SCSI device
/dev/sdb -d scsi # /dev/sdb, SCSI device
/dev/sdc -d scsi # /dev/sdc, SCSI device
/dev/sdd -d scsi # /dev/sdd, SCSI device
/dev/sde -d scsi # /dev/sde, SCSI device
/dev/sdf -d scsi # /dev/sdf, SCSI device
/dev/sdg -d scsi # /dev/sdg, SCSI device
/dev/sdh -d scsi # /dev/sdh, SCSI device
/dev/sdi -d scsi # /dev/sdi, SCSI device

/dev/sdg - SSDшник, на котором стоит ОС, остальные диски являются частью развалившегося рэйда.

ITdreamer
() автор топика
Ответ на: smartctl --scan от ITdreamer

smartctl -H /dev/sdX (a-i, кроме g)

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

У всех дисков тест PASSED.

ITdreamer
() автор топика
Ответ на: smartctl -H /dev/sdX (a-i, кроме g) от ITdreamer

smartctl -A /dev/sda

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   117   099   006    Pre-fail  Always       -       142627088
  3 Spin_Up_Time            0x0003   096   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       42
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       3820868
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       329
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       42
183 Runtime_Bad_Block       0x0032   096   096   000    Old_age   Always       -       4
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       1
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   063   050   045    Old_age   Always       -       37 (Min/Max 30/37)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       31
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       839
194 Temperature_Celsius     0x0022   037   050   000    Old_age   Always       -       37 (0 23 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       22
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       36292473651464
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2065548649
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       21562456506
ITdreamer
() автор топика
Ответ на: smartctl -A /dev/sda от ITdreamer

smartctl -A /dev/sdb

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   117   099   006    Pre-fail  Always       -       135731752
  3 Spin_Up_Time            0x0003   094   094   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       37
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   065   060   030    Pre-fail  Always       -       3190098
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       211
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       37
183 Runtime_Bad_Block       0x0032   092   092   000    Old_age   Always       -       8
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   058   000    Old_age   Always       -       81606541481
189 High_Fly_Writes         0x003a   098   098   000    Old_age   Always       -       2
190 Airflow_Temperature_Cel 0x0022   061   053   045    Old_age   Always       -       39 (Min/Max 31/39)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       29
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       214
194 Temperature_Celsius     0x0022   039   047   000    Old_age   Always       -       39 (0 23 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   199   000    Old_age   Always       -       46
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       244027156857027
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2199479206
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       12361021007
ITdreamer
() автор топика
Ответ на: smartctl -A /dev/sdb от ITdreamer

smartctl -A /dev/sdc

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   117   099   006    Pre-fail  Always       -       129443408
  3 Spin_Up_Time            0x0003   094   094   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       43
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   061   060   030    Pre-fail  Always       -       12889281441
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       329
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       43
183 Runtime_Bad_Block       0x0032   096   096   000    Old_age   Always       -       4
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   096   000    Old_age   Always       -       4295032849
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   060   053   045    Old_age   Always       -       40 (Min/Max 31/41)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       32
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       914
194 Temperature_Celsius     0x0022   040   047   000    Old_age   Always       -       40 (0 23 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       50
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       236639813107970
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2048390793
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       22043112345
ITdreamer
() автор топика
Ответ на: smartctl -A /dev/sdc от ITdreamer

smartctl -A /dev/sdd

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   112   099   006    Pre-fail  Always       -       42906680
  3 Spin_Up_Time            0x0003   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       43
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       3807131
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       328
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       43
183 Runtime_Bad_Block       0x0032   095   095   000    Old_age   Always       -       5
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       4
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   062   053   045    Old_age   Always       -       38 (Min/Max 31/39)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       32
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       817
194 Temperature_Celsius     0x0022   038   047   000    Old_age   Always       -       38 (0 23 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       44
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       42404212113664
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2022681673
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       22955736463
ITdreamer
() автор топика
Ответ на: smartctl -A /dev/sdd от ITdreamer

smartctl -A /dev/sde

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   104   099   006    Pre-fail  Always       -       7271568
  3 Spin_Up_Time            0x0003   092   092   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       50
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   072   060   030    Pre-fail  Always       -       20548783
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       412
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       50
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   059   050   045    Old_age   Always       -       41 (Min/Max 30/41)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       35
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       862
194 Temperature_Celsius     0x0022   041   050   000    Old_age   Always       -       41 (0 22 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       27380416512334
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       3225230284360
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       55833535992159
ITdreamer
() автор топика
Ответ на: smartctl -A /dev/sde от ITdreamer

smartctl -A /dev/sdf

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   113   100   006    Pre-fail  Always       -       54023352
  3 Spin_Up_Time            0x0003   096   096   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       35
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       3943737
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       328
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       35
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   058   054   045    Old_age   Always       -       42 (Min/Max 31/42)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       24
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       802
194 Temperature_Celsius     0x0022   042   046   000    Old_age   Always       -       42 (0 16 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       73289321939207
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2073654377
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       21555682273
ITdreamer
() автор топика
Ответ на: smartctl -A /dev/sdf от ITdreamer

smartctl -A /dev/sdh

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   119   100   006    Pre-fail  Always       -       223667744
  3 Spin_Up_Time            0x0003   092   092   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       69
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   072   060   030    Pre-fail  Always       -       17495086
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       449
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       69
183 Runtime_Bad_Block       0x0032   087   087   000    Old_age   Always       -       13
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       12885098499
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   058   052   045    Old_age   Always       -       42 (Min/Max 32/42)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       969
194 Temperature_Celsius     0x0022   042   048   000    Old_age   Always       -       42 (0 22 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   197   000    Old_age   Always       -       53
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       57917633986897
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       3792828646688
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       59882202604333
ITdreamer
() автор топика
Ответ на: smartctl -A /dev/sdh от ITdreamer

smartctl -A /dev/sdi

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   117   099   006    Pre-fail  Always       -       139158216
  3 Spin_Up_Time            0x0003   095   094   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       92
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   067   059   030    Pre-fail  Always       -       12902034383
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       485
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       89
183 Runtime_Bad_Block       0x0032   088   088   000    Old_age   Always       -       12
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   091   000    Old_age   Always       -       51540525175
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   058   051   045    Old_age   Always       -       42 (Min/Max 32/42)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       65
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       1236
194 Temperature_Celsius     0x0022   042   049   000    Old_age   Always       -       42 (0 21 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   194   000    Old_age   Always       -       56
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       92406221373789
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       10192181095401
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       90364329269095
ITdreamer
() автор топика
Ответ на: smartctl -A /dev/sdi от ITdreamer

Судя по результатам тестов с дисками все ОК.

На данный момент запустил длинный тест на всех дисках. Жду результатов.

Что интересно! Вынул все диски из боксов, подключил через новые провода напрямую к материнке. Пока, что сообщений об ошибках от дисков нет, но с другой стороны они и не примонтированы и на них не ведется никакая запись, поэтому возможно это не показатель.

Также перед тестами, попробовал загрузиться с acpi=off в GRUB (где-то в инете у народа это помогало, когда лезли ошибки типа)

68489.756311] ata3.00: status: { DRDY ERR }
[68489.756314] ata3.00: error: { UNC }
[68489.951583] ata3.00: configured for UDMA/133
[68489.951604] ata3: EH complete
[68492.671124] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[68492.671133] ata3.00: BMDMA stat 0x24
[68492.671140] ata3.00: cmd c8/00:08:55:e8:8d/00:00:00:00:00/e2 tag 0 dma 4096 in
[68492.671142]          res 51/40:00:56:e8:8d/00:00:00:00:00/02 Emask 0x9 (media error)
но система вообще не загрузилась.

Убрал acpi=off, загрузка прошла нормально. Но рейд конечно не подхватился.

На данный момент, жду результатов длинных тестов.

ITdreamer
() автор топика
Ответ на: комментарий от ITdreamer

smartctl -t long /dev/sda

От команды получаете сообщение через сколько примерно закончится тест, изредка выполняете команду ″smartctl -l selftest /dev/sda″. Пока тест выполняется, будет в выводе что-то типа:

Extended offline    Self-test routine in progress 80% 
А когда успешно звершится:
Extended offline    Completed without error       00%

По данным smart практически у всех винтов достаточно большие UDMA_CRC_Error_Count, обычно это проблема с передачей данных по шлейфу (либо сам кабель, либо контакты, либо корзина). Ещё настораживает Load_Cycle_Count, получается, у вас винты регулярно паркуют гловки? . Что значит параметр Runtime_Bad_Block я не знаю, но, по названию ничего хорошего его не нулевое значение не несёт.

P.S. Такой большой выхлоп smartctl лучше выкладывать на pastebin, там его удобнее читать.

mky ★★★★★
()
Ответ на: комментарий от ITdreamer

Но рейд конечно не подхватился.

Судя по /proc/mdstat raid у вас стартует, но преходит в состояние inactive. Попробуйте сначала
″mdadm --stop /dev/md0″
чтобы разделы дисков исчезли из /proc/mdstat, потом собрать raid, но без того диска, который новый :
″mdadm --assemble --force --level=raid6 --raid-devices=8 /dev/sda5 /dev/sdb5 и т.д. missing″ (7 разделов и один missing).

Если raid запустится и синхронизуется, тогда пробуйте добавить новый диск.

mky ★★★★★
()
Ответ на: комментарий от anonymous

Блок питания FSP Aurum S (Gold) 600 ватт. Новый.

ITdreamer
() автор топика
Ответ на: комментарий от mky

Сделал

mdadm --assemble --force /dev/md0 /dev/sda5 /dev/sdb5 /dev/sdc5 /dev/sdd5 /dev/sde5 /dev/sdf5 /dev/sdh5 /dev/sdi5

Вот что теперь выдает cat /proc/mdstat

Personalities : [raid6] [raid5] [raid4] 
md0 : active (auto-read-only) raid6 sdd5[0] sde5[7] sdf5[6] sdh5[5] sdi5[4] sda5[3] sdb5[8] sdc5[1]
      11659361280 blocks super 1.2 level 6, 512k chunk, algorithm 2 [8/7] [UU_UUUUU]
      
unused devices: <none>

А вот что выдает mdadm --detail /dev/md0

/dev/md0:
        Version : 1.2
  Creation Time : Tue Jan 28 21:45:42 2014
     Raid Level : raid6
     Array Size : 11659361280 (11119.23 GiB 11939.19 GB)
  Used Dev Size : 1943226880 (1853.21 GiB 1989.86 GB)
   Raid Devices : 8
  Total Devices : 8
    Persistence : Superblock is persistent

    Update Time : Tue Feb 11 22:05:04 2014
          State : clean, degraded 
 Active Devices : 7
Working Devices : 8
 Failed Devices : 0
  Spare Devices : 1

         Layout : left-symmetric
     Chunk Size : 512K

           Name : vfxserver01:0  (local to host vfxserver01)
           UUID : 95732325:39eedce7:c33d41d7:66c3a1dd
         Events : 1650

    Number   Major   Minor   RaidDevice State
       0       8       53        0      active sync   /dev/sdd5
       1       8       37        1      active sync   /dev/sdc5
       8       8       21        2      spare rebuilding   /dev/sdb5
       3       8        5        3      active sync   /dev/sda5
       4       8      133        4      active sync   /dev/sdi5
       5       8      117        5      active sync   /dev/sdh5
       6       8       85        6      active sync   /dev/sdf5
       7       8       69        7      active sync   /dev/sde5

ITdreamer
() автор топика
Ответ на: комментарий от ITdreamer

Ждемс! Пока все спокойно ))

Personalities : [raid6] [raid5] [raid4] 
md0 : active raid6 sdd5[0] sde5[7] sdf5[6] sdh5[5] sdi5[4] sda5[3] sdb5[8] sdc5[1]
      11659361280 blocks super 1.2 level 6, 512k chunk, algorithm 2 [8/7] [UU_UUUUU]
      [=>...................]  recovery =  8.4% (163377360/1943226880) finish=192.8min speed=153791K/sec
      
unused devices: <none>
ITdreamer
() автор топика
Ответ на: Ждемс! Пока все спокойно )) от ITdreamer

Не буду забегать вперед, но похоже проблема была в проводах или боксах для дисков. Синхронизация пока идет, и ошибок пока никаких нет.

Ребята, хотел еще кое-что спросить.

Данная ситуация многому меня научила, а также дала массу пищи для размышления. И первое что я хочу сделать, как только все восстановится, это провести краш тесты рейда, может даже всей системы, прежде чем мы полностью переключимся на данный рейд.

Подскажите, как можно провести тесты? И что для этого нужно.

ITdreamer
() автор топика
Ответ на: комментарий от ITdreamer

Ура!

Personalities : [raid6] [raid5] [raid4] 
md0 : active raid6 sdd5[0] sde5[7] sdf5[6] sdh5[5] sdi5[4] sda5[3] sdb5[8] sdc5[1]
      11659361280 blocks super 1.2 level 6, 512k chunk, algorithm 2 [8/8] [UUUUUUUU]
      
unused devices: <none>
/dev/md0:
        Version : 1.2
  Creation Time : Tue Jan 28 21:45:42 2014
     Raid Level : raid6
     Array Size : 11659361280 (11119.23 GiB 11939.19 GB)
  Used Dev Size : 1943226880 (1853.21 GiB 1989.86 GB)
   Raid Devices : 8
  Total Devices : 8
    Persistence : Superblock is persistent

    Update Time : Wed Feb 12 20:30:22 2014
          State : clean 
 Active Devices : 8
Working Devices : 8
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 512K

           Name : vfxserver01:0  (local to host vfxserver01)
           UUID : 95732325:39eedce7:c33d41d7:66c3a1dd
         Events : 1673

    Number   Major   Minor   RaidDevice State
       0       8       53        0      active sync   /dev/sdd5
       1       8       37        1      active sync   /dev/sdc5
       8       8       21        2      active sync   /dev/sdb5
       3       8        5        3      active sync   /dev/sda5
       4       8      133        4      active sync   /dev/sdi5
       5       8      117        5      active sync   /dev/sdh5
       6       8       85        6      active sync   /dev/sdf5
       7       8       69        7      active sync   /dev/sde5
ITdreamer
() автор топика
Ответ на: Ура! от ITdreamer

Итак, все заработало. Более того, в процессе синхронизации не было ни одной ошибки. Из чего, делаю вывод, что проблема была либо в проводах, либо в боксах. Скорее всего второе, т.к. ошибки сыпались от разных дисков, если бы были плохие провода, то скорее вряд ли все, а какой-то один или два.

Ребята, подскажите, какие краш тесты можно провести в системе? Я никогда этого не делал, но понимаю, что это полезная вещь. Как это делается?

ITdreamer
() автор топика
Ответ на: комментарий от ITdreamer

Проверка файловой системы на raid'е прошла успешно?

Не знаю насчёт краш тестов, в качестве обычных тестов можно погонять iozone. Он много чего умеет — чтение/запись в несколько потоков, может создать заметную нагрузку на файловую систему, а под нагрузкой обычно проблемы и всплывают. Тест гонять ощутимое время — сутки, двое суток.

А в целом «потеря данных неизбежна» :-) поэтому со всего ценного нужно снимать резервные копии. А так вы легко отделались, всего 8 дисков, да и то на тестовом сервере. Видели бы вы как все начинают бегать когда «уходит» дисковый массив с дополнительными полками общим числом на 48 дисков :-)

mky ★★★★★
()
Ответ на: комментарий от mky

Спасибо, огромное. Вы мне очень помогли.

Длинный тест на всех дисках пройден успешно. Ошибок не найдено.

Буду капать iozone )). Спасибо еще раз.

ITdreamer
() автор топика
28 апреля 2014 г.
9 июня 2014 г.
Ответ на: комментарий от andreynw

Привет

Извини, давно не заходил на форум.

Уже наверно разобрался со всем?

ITdreamer
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.