LINUX.ORG.RU
ФорумAdmin

Ubuntu 9.04 Не добавляется диск в RAID1


0

0

В комп установленны 2 вина WDC WD1601ABYS-01C0A0


root@wowubuntu:~# fdisk -l /dev/sda

Диск /dev/sda: 164.6 ГБ, 164696555520 байт
255 heads, 63 sectors/track, 20023 cylinders
Units = цилиндры of 16065 * 512 = 8225280 bytes
Disk identifier: 0xf15af15a

Устр-во Загр Начало Конец Блоки Id Система
/dev/sda1 * 1 18966 152344363+ fd Автоопределение Linux raid
/dev/sda2 18967 20023 8490352+ 5 Расширенный
/dev/sda5 18967 20023 8490321 fd Автоопределение Linux raid
root@wowubuntu:~# fdisk -l /dev/sdb

Диск /dev/sdb: 164.6 ГБ, 164696555520 байт
255 heads, 63 sectors/track, 20023 cylinders
Units = цилиндры of 16065 * 512 = 8225280 bytes
Disk identifier: 0x00004c96

Устр-во Загр Начало Конец Блоки Id Система
/dev/sdb1 * 1 18966 152344363+ fd Автоопределение Linux raid
/dev/sdb2 18967 20023 8490352+ 5 Расширенный
/dev/sdb5 18967 20023 8490321 fd Автоопределение Linux raid
root@wowubuntu:~#

Винты объеденены в RAID1

root@wowubuntu:~# cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md1 : active raid1 sdb5[1] sda5[0]
8490240 blocks [2/2] [UU]

md0 : active raid1 sdb1[2](F) sda1[0]
152344256 blocks [2/1] [U_]

unused devices: <none>

Как видно, в md0 не подключен sdb1.

Не знаюя почему он отвалился, молжет винт плохой? хотя все новое....

Востанавливаю райд, отключаю от райда sdb1:

root@wowubuntu:~# mdadm --manage /dev/md0 --remove /dev/sdb1
mdadm: hot removed /dev/sdb1

root@wowubuntu:~# cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md1 : active raid1 sdb5[1] sda5[0]
8490240 blocks [2/2] [UU]

md0 : active raid1 sda1[0]
152344256 blocks [2/1] [U_]

unused devices: <none>

Добавляю диск sdb1 к райду md0:
root@wowubuntu:~# mdadm --manage /dev/md0 --add /dev/sdb1
mdadm: re-added /dev/sdb1
root@wowubuntu:~# cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md1 : active raid1 sdb5[1] sda5[0]
8490240 blocks [2/2] [UU]

md0 : active raid1 sdb1[2] sda1[0]
152344256 blocks [2/1] [U_]
[>....................] recovery = 0.0% (7232/152344256) finish=1739.0min speed=1446K/sec

unused devices: <none>
root@wowubuntu:~#

И в итоге получаю это:

root@wowubuntu:~# cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md1 : active raid1 sdb5[1] sda5[0]
8490240 blocks [2/2] [UU]

md0 : active raid1 sdb1[2](F) sda1[0]
152344256 blocks [2/1] [U_]

unused devices: <none>


Народ, помогоите!

Что это? Винт бракованый или что???





syslog:


Файл: syslog Строка 471 Позиция 52840 байт 99%
Jun 1 12:38:55 wowubuntu kernel: [212500.283795] sd 2:0:1:0: [sdb] Mode Sense: 00 3a 00 00
Jun 1 12:38:55 wowubuntu kernel: [212500.283836] sd 2:0:1:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jun 1 12:38:55 wowubuntu mdadm[2758]: FailSpare event detected on md device /dev/md0, component device /dev/sdb1
Jun 1 12:38:55 wowubuntu mdadm[2758]: RebuildFinished event detected on md device /dev/md0
Jun 1 12:38:55 wowubuntu kernel: [212500.295936] RAID1 conf printout:
Jun 1 12:38:55 wowubuntu kernel: [212500.295938] --- wd:1 rd:2
Jun 1 12:38:55 wowubuntu kernel: [212500.295941] disk 0, wo:0, o:1, dev:sda1
Jun 1 12:38:55 wowubuntu kernel: [212500.295943] disk 1, wo:1, o:0, dev:sdb1
Jun 1 12:38:55 wowubuntu kernel: [212500.296365] RAID1 conf printout:
Jun 1 12:38:55 wowubuntu kernel: [212500.296366] --- wd:1 rd:2
Jun 1 12:38:55 wowubuntu kernel: [212500.296368] disk 0, wo:0, o:1, dev:sda1
Jun 1 12:39:01 wowubuntu /USR/SBIN/CRON[30575]: (root) CMD ( [ -x /usr/lib/php5/maxlifetime ] && [ -d /var/lib/php5 ] && find /var/lib/php5/ -type f -cmin +
$(/usr/lib/php5/maxlifetime) -print0 | xargs -n 200 -r -0 rm)
Jun 1 12:39:43 wowubuntu kernel: [212548.727125] md: unbind<sdb1>
Jun 1 12:39:43 wowubuntu kernel: [212548.731353] md: export_rdev(sdb1)
Jun 1 12:39:57 wowubuntu kernel: [212562.266435] md: cannot remove active disk sdb5 from md1 ...
Jun 1 12:40:01 wowubuntu /USR/SBIN/CRON[30616]: (root) CMD ([ -x /usr/sbin/update-motd ] && /usr/sbin/update-motd 2>/dev/null)
Jun 1 12:40:33 wowubuntu kernel: [212598.482446] md: bind<sdb1>
Jun 1 12:40:33 wowubuntu mdadm[2758]: RebuildStarted event detected on md device /dev/md0
Jun 1 12:40:33 wowubuntu kernel: [212598.498943] RAID1 conf printout:
Jun 1 12:40:33 wowubuntu kernel: [212598.498945] --- wd:1 rd:2
Jun 1 12:40:33 wowubuntu kernel: [212598.498947] disk 0, wo:0, o:1, dev:sda1
Jun 1 12:40:33 wowubuntu kernel: [212598.498949] disk 1, wo:1, o:1, dev:sdb1
Jun 1 12:40:33 wowubuntu kernel: [212598.499366] md: recovery of RAID array md0
Jun 1 12:40:33 wowubuntu kernel: [212598.499369] md: minimum _guaranteed_ speed: 1000 KB/sec/disk.
Jun 1 12:40:33 wowubuntu kernel: [212598.499371] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
Jun 1 12:40:33 wowubuntu kernel: [212598.499374] md: using 128k window, over a total of 152344256 blocks.
Jun 1 12:40:56 wowubuntu kernel: [212621.721448] ata3.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Jun 1 12:40:56 wowubuntu kernel: [212621.721452] ata3.01: BMDMA stat 0x65
Jun 1 12:40:56 wowubuntu kernel: [212621.721457] ata3.01: cmd 35/00:80:bf:ca:01/00:03:00:00:00/f0 tag 0 dma 458752 out
Jun 1 12:40:56 wowubuntu kernel: [212621.721458] res 51/10:40:f7:cc:01/10:01:00:00:00/f0 Emask 0x81 (invalid argument)
Jun 1 12:40:56 wowubuntu kernel: [212621.721461] ata3.01: status: { DRDY ERR }
Jun 1 12:40:56 wowubuntu kernel: [212621.721463] ata3.01: error: { IDNF }
Jun 1 12:40:57 wowubuntu kernel: [212621.790952] ata3.00: configured for UDMA/133
Jun 1 12:40:57 wowubuntu kernel: [212621.821627] ata3.01: configured for UDMA/133
Jun 1 12:40:57 wowubuntu kernel: [212621.821636] sd 2:0:1:0: [sdb] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE,SUGGEST_OK
Jun 1 12:40:57 wowubuntu kernel: [212621.821640] sd 2:0:1:0: [sdb] Sense Key : Aborted Command [current] [descriptor]
Jun 1 12:40:57 wowubuntu kernel: [212621.821644] Descriptor sense data with sense descriptors (in hex):
Jun 1 12:40:57 wowubuntu kernel: [212621.821646] 72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00
Jun 1 12:40:57 wowubuntu kernel: [212621.821655] 00 01 cc f7
Jun 1 12:40:57 wowubuntu kernel: [212621.821659] sd 2:0:1:0: [sdb] Add. Sense: Recorded entity not found
Jun 1 12:40:57 wowubuntu kernel: [212621.821663] end_request: I/O error, dev sdb, sector 117439
Jun 1 12:40:57 wowubuntu kernel: [212621.821667] raid1: Disk failure on sdb1, disabling device.
Jun 1 12:40:57 wowubuntu kernel: [212621.821667] raid1: Operation continuing on 1 devices.
Jun 1 12:40:57 wowubuntu kernel: [212621.821702] ata3: EH complete
Jun 1 12:40:57 wowubuntu kernel: [212621.821812] md: md0: recovery done.
Jun 1 12:40:57 wowubuntu kernel: [212621.824022] sd 2:0:0:0: [sda] 321672960 512-byte hardware sectors: (164 GB/153 GiB)
Jun 1 12:40:57 wowubuntu kernel: [212621.853029] sd 2:0:0:0: [sda] Write Protect is off
Jun 1 12:40:57 wowubuntu kernel: [212621.853031] sd 2:0:0:0: [sda] Mode Sense: 00 3a 00 00
Jun 1 12:40:57 wowubuntu kernel: [212621.894416] sd 2:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jun 1 12:40:57 wowubuntu mdadm[2758]: Rebuild80 event detected on md device /dev/md0
Jun 1 12:40:57 wowubuntu mdadm[2758]: FailSpare event detected on md device /dev/md0, component device /dev/sdb1
Jun 1 12:40:57 wowubuntu kernel: [212621.916685] sd 2:0:1:0: [sdb] 321672960 512-byte hardware sectors: (164 GB/153 GiB)
Jun 1 12:40:57 wowubuntu kernel: [212621.917012] sd 2:0:1:0: [sdb] Write Protect is off
Jun 1 12:40:57 wowubuntu kernel: [212621.917014] sd 2:0:1:0: [sdb] Mode Sense: 00 3a 00 00
Jun 1 12:40:57 wowubuntu kernel: [212621.921656] sd 2:0:1:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jun 1 12:40:57 wowubuntu mdadm[2758]: RebuildFinished event detected on md device /dev/md0
Jun 1 12:40:57 wowubuntu kernel: [212621.933280] RAID1 conf printout:
Jun 1 12:40:57 wowubuntu kernel: [212621.933282] --- wd:1 rd:2
Jun 1 12:40:57 wowubuntu kernel: [212621.933284] disk 0, wo:0, o:1, dev:sda1
Jun 1 12:40:57 wowubuntu kernel: [212621.933286] disk 1, wo:1, o:0, dev:sdb1
Jun 1 12:40:57 wowubuntu kernel: [212621.933315] RAID1 conf printout:
Jun 1 12:40:57 wowubuntu kernel: [212621.933317] --- wd:1 rd:2
Jun 1 12:40:57 wowubuntu kernel: [212621.933319] disk 0, wo:0, o:1, dev:sda1


Интересует это:

Jun 1 12:40:56 wowubuntu kernel: [212621.721463] ata3.01: error: { IDNF }

Это что за ошибка?







INDIGO
() автор топика
Ответ на: комментарий от INDIGO

Вот что смарт выдал:


root@wowubuntu:~# smartctl --all /dev/sdb
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model: WDC WD1601ABYS-01C0A0
Serial Number: WD-WCAS28223385
Firmware Version: 06.06H05
User Capacity: 164 696 555 520 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Mon Jun 1 13:01:53 2009 MSD
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (4380) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 55) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x303f) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 200 198 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0003 162 162 021 Pre-fail Always - 2858
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 23
5 Reallocated_Sector_Ct 0x0033 197 197 140 Pre-fail Always - 20
7 Seek_Error_Rate 0x000e 001 001 000 Old_age Always - 5731
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 72
10 Spin_Retry_Count 0x0012 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0012 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 21
194 Temperature_Celsius 0x0022 098 095 000 Old_age Always - 45
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0012 150 146 000 Old_age Always - 1343
198 Offline_Uncorrectable 0x0010 189 147 000 Old_age Offline - 309
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 188 173 000 Old_age Offline - 833

SMART Error Log Version: 1
ATA Error Count: 18 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 18 occurred at disk power-on lifetime: 10 hours (0 days + 10 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 41 00 bb 00 28 e0 Error: ABRT at LBA = 0x002800bb = 2621627

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 80 8f 00 28 e0 08 00:00:31.567 READ DMA
ec 00 00 00 00 00 a0 08 00:00:31.542 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 08 00:00:31.519 SET FEATURES [Set transfer mode]

Error 17 occurred at disk power-on lifetime: 10 hours (0 days + 10 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 41 00 bb 00 28 e0 Error: ABRT at LBA = 0x002800bb = 2621627

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 80 8f 00 28 e0 08 00:00:29.406 READ DMA
c8 00 40 4f 00 28 e0 08 00:00:29.400 READ DMA
c8 00 00 0f 11 20 e0 08 00:00:29.372 READ DMA

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]


SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

root@wowubuntu:~#

INDIGO
() автор топика
Ответ на: комментарий от hiokio

ммммм... а зачем расширять, работавший массив?

райд устанавливался при установки ОС. соттветсвтенно в массиве уже есть 2 винта.

сейчас у меня ситуация , когда отказывает один из дисков.

и при востановлении массива, расширять его не надо.... или я ошибаюсь?

INDIGO
() автор топика
Ответ на: комментарий от INDIGO

извини, мои глаза, решил, что ты третий винт пытаешься к рейду прицепить.

hiokio
()

>Jun 1 12:40:57 wowubuntu kernel: [212621.821663] end_request: I/O error, dev sdb, sector 117439 

Ну эта строчка указывает что возникла ошибки при чтении сектора, так что ищи причину, это может быть как винт, так и шлейф. У меня подобная картинка была, смена шлейфа помогла, видимо бракованный попался.

wellcomer
()
Ответ на: комментарий от INDIGO

> !?!?!

> Только что купили!

Сам рыдаю. Опыт показывает, что брака нонче очень много. Винт может проработать 10 лет, но в нем при этом регулярно будет возникать какой-нибудь косяк. Производители похоже считают что и так сойдет. И сходит, ибо работать-то надо. А рейды к таким вещам очень требовательны, они сразу выкидывают из конфигурации винты с глюками. В своей практике собрал 4 рейда, из них один (самый старый, на IDE винтах) работает как часы, а три (сука!) глючат по указанной причине. На днях буду один переделывать. Купил новый аппаратный контроллер на 4 винта и 6 (!) винчестеров. Надеюсь, что из этих шести все-таки четыре безглючных выберу.

LexxTheFox ★★
()
Ответ на: комментарий от LexxTheFox

Ты говори какие винты сыпятся чтобы другие не нарвались. Надеюсь, не сигейты? 11-й серии?

Я щас вот wd-шки EADS тестю, что-то скрип шпинделя мне уже не нравится :)

true_admin ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.