LINUX.ORG.RU

Что может быть с винтом?


0

0

Симптомы следующие:

/var/log/syslog:
Dec  9 16:04:07 vvyurkov kernel: Descriptor sense data with sense descriptors (in hex):
Dec  9 16:04:07 vvyurkov kernel: end_request: I/O error, dev sda, sector 52968306
Dec  9 16:04:07 vvyurkov kernel: metapage_write_end_io: I/O error
Dec  9 16:04:08 vvyurkov kernel: ata3.00: exception Emask 0x10 SAct 0x0 SErr 0x400100 action 0x6
Dec  9 16:04:08 vvyurkov kernel: ata3.00: BMDMA stat 0x26
Dec  9 16:04:08 vvyurkov kernel: ata3: SError: { UnrecovData Handshk }
Dec  9 16:04:08 vvyurkov kernel: ata3.00: cmd ca/00:08:1a:73:28/00:00:00:00:00/e3 tag 0 dma 4096 out
Dec  9 16:04:08 vvyurkov kernel:          res 51/84:08:1a:73:28/84:01:03:00:00/e3 Emask 0x30 (host bus error)
Dec  9 16:04:08 vvyurkov kernel: ata3.00: status: { DRDY ERR }
Dec  9 16:04:08 vvyurkov kernel: ata3.00: error: { ICRC ABRT }
Dec  9 16:04:08 vvyurkov kernel: ata3.00: exception Emask 0x10 SAct 0x0 SErr 0x400100 action 0x6
Dec  9 16:04:08 vvyurkov kernel: ata3.00: BMDMA stat 0x26
Dec  9 16:04:08 vvyurkov kernel: ata3: SError: { UnrecovData Handshk }
Dec  9 16:04:08 vvyurkov kernel: ata3.00: cmd ca/00:08:32:81:e7/00:00:00:00:00/e3 tag 0 dma 4096 out
Dec  9 16:04:08 vvyurkov kernel:          res 51/84:08:32:81:e7/84:01:03:00:00/e3 Emask 0x30 (host bus error)
Dec  9 16:04:08 vvyurkov kernel: ata3.00: status: { DRDY ERR }
Dec  9 16:04:08 vvyurkov kernel: ata3.00: error: { ICRC ABRT }
Dec  9 16:04:09 vvyurkov kernel: ata3.00: exception Emask 0x10 SAct 0x0 SErr 0x400100 action 0x6
Dec  9 16:04:09 vvyurkov kernel: ata3.00: BMDMA stat 0x26
Dec  9 16:04:09 vvyurkov kernel: ata3: SError: { UnrecovData Handshk }
Dec  9 16:04:09 vvyurkov kernel: ata3.00: cmd ca/00:08:22:03:38/00:00:00:00:00/e1 tag 0 dma 4096 out
Dec  9 16:04:09 vvyurkov kernel:          res 51/84:08:22:03:38/84:01:03:00:00/e1 Emask 0x30 (host bus error)
и т.д.

Винчестер:

lsscsi                                                                                                                    
sdev_scandir_sort: left parse failed
[target4:0:0]type?   vendor?  model?           rev?  -
[4:0:0:0]    disk    ATA      ST3400620AS      3.AA  -

Ядро стояло 2.6.24.5, вчера обновился до 2.6.27.7. Штука повторяется примерно раз-два в неделю, при этом идёт непомерный доступ к винту и фс выбрасывает в readonly. Лечится полным выключением питания. На всякий случай данные сохранил %). В чём может быть причина?

★★★★★

Ответ на: комментарий от Sylvia

smartctl version 5.38 [i486-slackware-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.10 family
Device Model:     ST3400620AS
Serial Number:    6QG3DYZD
Firmware Version: 3.AAK
User Capacity:    400 088 457 216 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Tue Dec  9 16:50:09 2008 KRAT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 ( 430) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 132) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   111   099   006    Pre-fail  Always       -       1658475
  3 Spin_Up_Time            0x0003   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       14
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   068   060   030    Pre-fail  Always       -       6345912
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       698
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       14
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   061   051   045    Old_age   Always       -       39 (Lifetime Min/Max 36/39)
194 Temperature_Celsius     0x0022   039   049   000    Old_age   Always       -       39 (0 26 0 0)
195 Hardware_ECC_Recovered  0x001a   079   060   000    Old_age   Always       -       42833312
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   116   000    Old_age   Always       -       2881
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

UVV ★★★★★
() автор топика
Ответ на: комментарий от UVV

199 UDMA_CRC_Error_Count 0x003e 200 116 000 Old_age Always - 2881

ошибки UDMA, то что пишет ядро в dmesg - тоже как бы про это.

можно попробовать hdparm `ом задать какой нибудь режим вручную если автоматом ставится глючно ? или в биос выставить

raw error rate/seek error/ecc recovered на seagate можно игнорировать

Sylvia ★★★★★
()

>199 UDMA_CRC_Error_Count 0x003e 200 116 000 Old_age Always - 2881

У меня была такая проблема пока винты были подключены через 2 PCI контроллера на sil-каком-то чипсете. Вылечилось покупкой нормальной материнки с intel-овским контроллером.

gena2x ★★★
()
Ответ на: комментарий от gena2x

Причем забавно, что винтов было 4. И на каждом следующем этот error count был больше чем на предыдущем..

gena2x ★★★
()

А система не 64бит случайно? Подобное и у себя наблюдал, вроде что-то в ядре поломали, но сейчас уже починили

manntes ★★
()
Ответ на: комментарий от manntes

> А система не 64бит случайно?
Стоит 32-битная Slackware на Core 2 Duo.
> Подобное и у себя наблюдал, вроде что-то в ядре поломали, но сейчас уже починили
Написал же, ядро только что обновил.

UVV ★★★★★
() автор топика
Ответ на: комментарий от Vinick

> Вылечил заменой шлейфа и втыканием винта в другой SATA слот.
Ладно, завтра попробую так и сделать.

UVV ★★★★★
() автор топика

Один в один как и у меня случилось с месяц назад. Я обновился с 2.6.25.19 до 2.6.25.20, перезагрузился и получил подобное в логе. Проверил диски (без поиска бэдов) все ОК, перезагрузился больше ругательных сообщений не было. Но со временем стал обращать внимание на появившийся звук цоканья головками, как будто они паркуются каждые 7 сек. Раньше такого не было. Стал глубже проверять диск и нашел область где поперли бэды. Далее были долгие попытки оживить - безрезультатно. Low Level Surface Test из биоса и родная WD-шная утилита хором рекомендовали заменить диск, т.к. дословно:"too many errors" Ну патч 2.6.25.20 тут был не причем т.к. по ченжлогу с SATA они там ничего не меняли. Я списал это на то что диск стал умирать еще раньше, а до перезагрузки я этого не замечал, т.к. не перезагружаюсь месяцами, только s2ram/disk. В общем после всех тестов Reallocated_Sector_Ct из смарта увеличился с 0 до 340. Я отрезал эту плохую область благо там было все в одном месте и рост бэдов прекратился. На долго ли? Да и цоканье головами о рампу продолжало напрягать. Поймав себя на мысли что с интервалом цоканья 7 секунд я вспоминаю о своем харде и в этот момент смарт-таблица проносится у меня в голове что отвлекает от работы заставили меня поменять хард.

Желаю чтоб у вас все обошлось заменой шлейфа :)

papay ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.