LINUX.ORG.RU
ФорумAdmin

Проблемы с жестким диском


0

0

Здравствуйте!

Модель харда: Seagate Barracuda ST3250410AS.
Решил тут настроить спутниковую рыбалку через skynet. Я в этом деле новичек, видимо по какой-то причине не подключились фильтры программы, и на хард, как я понял, слишком интенсивно полился весь контент с тарелки. Секунд через 5 система сказала ошибку что-то вроде I/O error и зависла. После этого хард прикидывается дохлым: при включении с ним комп сильно тормозит - во время пост-тестов, а также во время загрузки ОС Ubuntu 9.04 (грузится с другого харда), в логи постоянно сыпятся ошибки:

[ 1366.332625] ata1.00: cmd c8/00:08:87:30:00/00:00:00:00:00/e0 tag 0 dma 4096 in
[ 1366.332626] res 51/40:00:87:30:00/00:00:00:00:00/e0 Emask 0x9 (media error)
[ 1366.332629] ata1.00: status: { DRDY ERR }
[ 1366.332632] ata1.00: error: { UNC }
[ 1366.356217] ata1.00: configured for UDMA/133
[ 1366.356233] ata1: EH complete
[ 1381.827717] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 1381.827722] ata1.00: BMDMA stat 0x5
[ 1381.827732] ata1.00: cmd c8/00:08:87:30:00/00:00:00:00:00/e0 tag 0 dma 4096 in
[ 1381.827733] res 51/40:00:87:30:00/00:00:00:00:00/e0 Emask 0x9 (media error)
[ 1381.827736] ata1.00: status: { DRDY ERR }
[ 1381.827739] ata1.00: error: { UNC }
[ 1381.864216] ata1.00: configured for UDMA/133
[ 1381.864233] sd 0:0:0:0: [sdf] Unhandled sense code
[ 1381.864235] sd 0:0:0:0: [sdf] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[ 1381.864239] sd 0:0:0:0: [sdf] Sense Key : Medium Error [current] [descriptor]
[ 1381.864244] Descriptor sense data with sense descriptors (in hex):
[ 1381.864246] 72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
[ 1381.864254] 00 00 30 87
[ 1381.864257] sd 0:0:0:0: [sdf] Add. Sense: Unrecovered read error - auto reallocate failed
[ 1381.864263] end_request: I/O error, dev sdf, sector 12423
[ 1381.864283] ata1: EH complete
[ 1381.864417] JBD: IO error reading journal superblock
[ 1381.864420] EXT3-fs: error loading journal.

, с него ничего не монтируется, хотя самое начало диска читается, т.к. fdisk правильно читает с него таблицу разделов, а также их метки. Пробовал подключать к разным компам - везде одно и то же.
Подскажите, пожалуйста, хотя бы способ извлечь с него как всегда в таких случаях очень важные данные.

Ответ на: комментарий от nnz

> Что smartctl говорит?

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.10 family
Device Model:     ST3250410AS
Serial Number:    9RY0SPK2
Firmware Version: 3.AAC
User Capacity:    250 058 268 160 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Aug  6 01:22:49 2009 NOVST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   099   079   006    Pre-fail  Always       -       67820132
  3 Spin_Up_Time            0x0003   097   097   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       1015
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       6
  7 Seek_Error_Rate         0x000f   082   060   030    Pre-fail  Always       -       187043231
  9 Power_On_Hours          0x0032   095   095   000    Old_age   Always       -       4411
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       499
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       1452
189 High_Fly_Writes         0x003a   096   096   000    Old_age   Always       -       4
190 Airflow_Temperature_Cel 0x0022   063   048   045    Old_age   Always       -       37 (Lifetime Min/Max 31/37)
194 Temperature_Celsius     0x0022   037   052   000    Old_age   Always       -       37 (0 19 0 0)
195 Hardware_ECC_Recovered  0x001a   069   057   000    Old_age   Always       -       66772039
197 Current_Pending_Sector  0x0012   099   099   000    Old_age   Always       -       31
198 Offline_Uncorrectable   0x0010   099   099   000    Old_age   Offline      -       31
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

InfectedM
() автор топика
Ответ на: комментарий от InfectedM

> 1 Raw_Read_Error_Rate 0x000f 099 079 006 Pre-fail Always - 67820132
Все что я могу сказать - винту действительно капец.

Насчет восстановления данных ничего посоветовать не могу, ибо не спец.

nnz ★★★★
()
Ответ на: комментарий от nnz

>> 1 Raw_Read_Error_Rate 0x000f 099 079 006 Pre-fail Always - 67820132

>Все что я могу сказать - винту действительно капец.

Это абсолютно нормально на сигейтах. А вот ненулевое количество ремапов - это уже не есть хорошо.

Black_Shadow ★★★★★
()
Ответ на: комментарий от Black_Shadow

>Это абсолютно нормально на сигейтах.
Наивный человек.

Краткий пример из личного опыта:
винт №1:
Device Model:     ST3500630NS
...
  1 Raw_Read_Error_Rate     0x000f   117   099   006    Pre-fail  Always       -       0
...
SMART Error Log Version: 1
No Errors Logged

винт №2:
Device Model:     ST3300831A
...
  1 Raw_Read_Error_Rate     0x000f   057   051   006    Pre-fail  Always       -       196160984
...
SMART Error Log Version: 1
ATA Error Count: 12 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 12 occurred at disk power-on lifetime: 42 hours (1 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 4b 77 41 e0  Error: ICRC, ABRT 1 sectors at LBA = 0x0041774b = 4290379

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 d8 08 44 77 41 e0 00      00:03:00.357  READ DMA EXT
  25 d8 01 fe ea 14 e0 00      00:03:02.122  READ DMA EXT
  25 d8 01 c5 fa 3f e0 00      00:03:01.840  READ DMA EXT
  25 d8 01 00 00 00 e0 00      00:03:01.829  READ DMA EXT
  25 d8 01 00 00 00 e0 00      00:03:01.829  READ DMA EXT

Error 11 occurred at disk power-on lifetime: 42 hours (1 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 4b 77 41 e0  Error: ICRC, ABRT 1 sectors at LBA = 0x0041774b = 4290379

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 d8 08 44 77 41 e0 00      00:03:00.357  READ DMA EXT
  25 d8 01 fe ea 14 e0 00      00:03:00.346  READ DMA EXT
  25 d8 01 c5 fa 3f e0 00      00:03:00.346  READ DMA EXT
  25 d8 01 00 00 00 e0 00      00:03:00.345  READ DMA EXT
  25 d8 01 00 00 00 e0 00      00:03:00.322  READ DMA EXT

Error 10 occurred at disk power-on lifetime: 42 hours (1 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 4b 77 41 e0  Error: ICRC, ABRT 1 sectors at LBA = 0x0041774b = 4290379

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 d8 08 44 77 41 e0 00      00:03:00.357  READ DMA EXT
  25 d8 08 3c 77 41 e0 00      00:03:00.346  READ DMA EXT
  25 d8 01 fe ea 14 e0 00      00:03:00.346  READ DMA EXT
  25 d8 01 c5 fa 3f e0 00      00:03:00.345  READ DMA EXT
  25 d8 01 00 00 00 e0 00      00:03:00.322  READ DMA EXT

Error 9 occurred at disk power-on lifetime: 42 hours (1 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 43 77 41 e0  Error: ICRC, ABRT 1 sectors at LBA = 0x00417743 = 4290371

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 d8 08 3c 77 41 e0 00      00:02:59.894  READ DMA EXT
  25 d8 08 34 77 41 e0 00      00:02:59.894  READ DMA EXT
  25 d8 08 2c 77 41 e0 00      00:02:59.894  READ DMA EXT
  25 d8 08 24 77 41 e0 00      00:02:59.893  READ DMA EXT
  25 d8 08 1c 77 41 e0 00      00:02:59.893  READ DMA EXT

Error 8 occurred at disk power-on lifetime: 42 hours (1 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 0b fb 9f e0  Error: ICRC, ABRT 1 sectors at LBA = 0x009ffb0b = 10484491

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 d8 08 04 fb 9f e0 00      00:02:58.352  READ DMA EXT
  25 d8 01 fe ea 14 e0 00      00:02:58.351  READ DMA EXT
  25 d8 01 c5 fa 3f e0 00      00:02:58.351  READ DMA EXT
  25 d8 01 00 00 00 e0 00      00:02:58.351  READ DMA EXT
  25 d8 01 00 00 00 e0 00      00:02:58.351  READ DMA EXT

nnz ★★★★
()
Ответ на: комментарий от nnz

На старых моделях Raw_Read_Error_Rate крутился быстро, http://www.linux.org.ru/jump-message.jsp?msgid=3082279&cid=3085066 сейчас эти счетчики на моих винтах ещё больше. Могу ещё добавить ST320014A, у которого Raw_Read_Error_Rate 51992475, Seek_Error_Rate 814320832.

ST3500630NS другая, более новая модель, может там поправили прошивку. Официальных комментариев от Seagete по поводу этих счётчиков я не видел.

mky ★★★★★
()

Если место позволяет, попробуйте скопитовать весь диск с помощью dd на другой, а там уже запускать e2fsck, почитайте в инете про резервный суперблок и т.д. У меня ST3250823A "потерял" 4 сектора, в начале раздела. А потом полностью (по SMART) вылечился тестовой утилитой Seagate.

mky ★★★★★
()
Ответ на: комментарий от mky

по моему довольно обширному жизненному опыту, ненулевой Raw_Error_Read_Rate является достаточным условием для констатации смерти винта. Потому что он практически всегда сопровождается непустым smart error log и ошибками системы при доступе к диску.

Сколько лет юзаем сигейты - про косяк с этим полем слышу впервые. С Seek_Error_Rate да, было дело. И есть до сих пор.

nnz ★★★★
()
Ответ на: комментарий от nnz

>по моему довольно обширному жизненному опыту, ненулевой Raw_Error_Read_Rate является достаточным условием для констатации смерти винта.

Только не для сигейтов. И, да, я тоже не первый год в IT :-)

>Сколько лет юзаем сигейты - про косяк с этим полем слышу впервые. С Seek_Error_Rate да, было дело. И есть до сих пор.

http://forum.ixbt.com/topic.cgi?id=11:36760:1049#1049

цитата: "прошедшие заводской скан диски в процессе работы имеют не самым идеальным образом откалиброваный канал чтения (в смысле настройки канала для каждой зоны/головки) и механизмы коррекции срабатывают на порядок чаще, чем у дисков других производителей. А в купе с тем, что диски Сигейт достаточно сильно греются в работе - а это факт - ситуация усугубляется еще и тем, что бОльшую часть времени диск работает в третьей температурной зоне "Hot", а это автоматом добавляет работы и каналу чтения и механизмам коррекции."

Black_Shadow ★★★★★
()
Ответ на: комментарий от Black_Shadow

Да ну, дилетант какой-то писал. Даже сильно загруженные винты работают при 33 грц (при том, что нормальными для винчестеров являются температуры 36-45 грц, пруф http://labs.google.com/papers/disk_failures.pdf). Единственный раз, когда они вышли в интервал минимального риска - это когда в серверной кондиционер сдох.
Действительно высокая температуры для винта - 50 грц. Только я за свою жизнь никогда этого не видел.

Вообще же, если абстрагироваться от неправильных терминов, человек рассуждает о параметрах Seek_Error_Rate и Hardware_ECC_Recovered. Они у сигейта действительно могут расти без фатальных последствий.

nnz ★★★★
()
Ответ на: комментарий от nnz

Я привёл привёл одну из ссылок, которые накопал в Google. Другую информацию о Seagate и показателях SMART можешь найти там же.

Black_Shadow ★★★★★
()
Ответ на: комментарий от nnz

>ненулевой Raw_Error_Read_Rate является достаточным условием для констатации смерти винта.

Посмотрел ещё доступные сейчаc Seagate, интерестно, у двух ST340014A Raw_Error_Read_Rate очень большой, а у двух ST380011A равен 6. У всех пустые логи ошибок. Интерестно, что ST380011A почти всю жизнь проработали в зеркале, и так как у них одинаковые Raw_Error_Read_Rate, то возможно этот параметр может расти из-за чтения в момент аварийного выключения питания.

В общем, остаюсь при своем мнении, что у части моделей Seagete'ов этот параметр не показатель "здоровья" винта.

mky ★★★★★
()

>Подскажите, пожалуйста, хотя бы способ извлечь с него как всегда в таких случаях очень важные данные.

Не претендую на авторство способа. я не знаю как оно работает, я не знаю что происходит с винчиком, но пару раз уже и меня спасло:

Кидаете винчик в морозилку(лучше завернуть в тряпочку его) на ~сутки, достаете, ждете когда он "отогреется" (не на батарее, сам) до температуры, что на нем не будет конденсата(чем более он холодый лучше, т.е. не слишком рано и не слишком поздно надо заюзать).

Далее по быстрому кидаете в системник, копируете с dd из винчика всё.

Узнал способ через несколько "рук таких же несчастных", на своем опыте спас данные из одного винчика и "оживил" ещё один.

alukard_aka_404
()
Ответ на: комментарий от alukard_aka_404

> Кидаете винчик в морозилку(лучше завернуть в тряпочку его) на ~сутки,
> достаете, ждете когда он "отогреется" (не на батарее, сам) до

> температуры, что на нем не будет конденсата(чем более он холодый

> лучше, т.е. не слишком рано и не слишком поздно надо заюзать).

>

>Далее по быстрому кидаете в системник, копируете с dd из винчика всё.



Не помогло :(
До этого в течении почти 3 суток вычитывал с него данные через dd_rescue. Где-то в середине 150-гб раздела был кусок данных общей длиной около 10гб, из которых в произвольной последовательности не считалось около 200мб (именно на них потратилось бОльшее количество времени). Далее то, что считалось прогнал через fsck.ext3 (его чуть ни стошнило), все что "спаслось" оказалось почему-то в lost+found, названия каталогов в корне похерились, зато бОльшая часть данных спасена. Сейчас пытаюсь выяснить, какие именно данные потерялись.
Всем спасибо за участие!

ЗЫ: ума не приложу, как запуск спутниковой граббилки мог так свести с ума контроллер харда, что тот стал так агрессивно "какать" на диски??

InfectedM
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.