LINUX.ORG.RU

Debian 8 растет число UDMA CRC Error Count в SMART жесткого диска

 ,


0

3

В общем проблема такова. Решил я на домашнем сервачке обновить программное обеспечение, и перейти с Linux Mint Debian Edition, на чистый Debian 8. А так как нынче в Debian используется systemd в место init, а он зверь мне не знакомый, перед окончательной установкой на сервер решил обкатать данный дистрибутив на ноутбуке, т.к. он имеет схожую начинку. Еб... ой т.е. игрался я на ноуте с ним 5-10 дней Устанавливал переустанавливал, ставил удалял различные пакеты, очень часто перезагружал. И уже тогда стал замечать что число UDMA CRC Error росло и за эти 5-10 дней с 0 выросло до 5179. Но особого значения тогда не предал, подумал что диску приходит кирдык, хоть он почти новый. Диск в ноуте Seagate. Ну и собственно поставил этот дистрибутив на сервер. Диск в сервере Hitachi. В итоге +35 CRC Error за время установки и настройки. А после дня работы сервера, на утро обнаружил что два раздела диска из трех перемонтированы только на чтение и ещё около 100 UDMA CRC Error Count в SMART'е уже Hitachi. Т.к. под Windows на ноутбучном Segete ошибок было 0 и сейчас так же стабильно 5179 и не растет. Аналогичная ситуация с hitachi в сервере за 2-3 года пока стоял Linux Mint DE ни прибавилось ни одного CRC Error. Предполагаю что проблема где то в дистрибутиве Debiana. А вот куда копать не знаю. Может кто сталкивался???



Последнее исправление: cetjs2 (всего исправлений: 2)

SystemD убивает твой винт. Или линукс. Как-то была похожая проблема - вылечилось новым ядром. (на генте). С тех пор прошла любовь, завяли помидоры...

Deleted
()
Последнее исправление: Deleted (всего исправлений: 1)
Ответ на: комментарий от Deleted

Едро конечно можно другое собрать но тогда я получу проблемы с зависимостями. А пересобирать то которое уже есть тоже особого смысла не вижу.

DemonXL
() автор топика

Больше желания экспериментировать с дистрибутивом debiana нет, откатился назад на Linux Mint DE и вот уже 12 часов полет нормальный, т.е. снова никаких проблем с дисками.

А желание пропало после того как попытался скопировать syslog с начала на третий раздел Hitachi, который всё ещё был доступен на запись. Он вроде скопировался, но через секунду появилось вместо одного файла syslog куча файлов с названием из мусора которые тоже очень быстро исчезли. Итог +200 crc errors в smart и перемонтированный раздел только на чтение. Далее был разбужен из сна диск с бекапом (western digital) и syslog скопирован туда. Вроде даже успешно. После выключил комп. При завершении работы повылазило ещё куча ошибок диска. А вот когда снова включил комп, то меня ожидал не приятный сюрприз в виде сообщения bios что дескать MBR на диске WD(бекап) error. Далее неудачная попытка загрузки системы, не может смонтировать диски долго думает и затем монтирует только на чтение.

Кусок из syslog c ошибками когда ещё диск был доступен на запись.

Jun 29 06:52:21 SERVER-0C64EF77A7 kernel: [39188.135168] ata1: hard resetting link
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.455100] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.457041] ata1.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.457054] ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.457061] ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.460158] ata1.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.460169] ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.460176] ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.461591] ata1.00: configured for UDMA/33
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.461800] ata1: EH complete
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467087] ata1.00: exception Emask 0x10 SAct 0x38000 SErr 0x450100 action 0x6 frozen
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467096] ata1.00: irq_stat 0x08000000, interface fatal error
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467103] ata1: SError: { UnrecovData PHYRdyChg CommWake Handshk }
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467109] ata1.00: failed command: WRITE FPDMA QUEUED
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467121] ata1.00: cmd 61/58:78:70:0b:95/00:00:00:00:00/40 tag 15 ncq 45056 out
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467121]          res 50/00:20:00:d8:c7/00:00:20:00:00/40 Emask 0x10 (ATA bus error)
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467127] ata1.00: status: { DRDY }
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467131] ata1.00: failed command: WRITE FPDMA QUEUED
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467141] ata1.00: cmd 61/08:80:48:78:dd/00:00:00:00:00/40 tag 16 ncq 4096 out
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467141]          res 50/00:20:00:d8:c7/00:00:20:00:00/40 Emask 0x10 (ATA bus error)
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467147] ata1.00: status: { DRDY }
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467151] ata1.00: failed command: READ FPDMA QUEUED
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467161] ata1.00: cmd 60/20:88:00:d8:c7/00:00:20:00:00/40 tag 17 ncq 16384 in
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467161]          res 50/00:20:00:d8:c7/00:00:20:00:00/40 Emask 0x10 (ATA bus error)
Jun 29 06:52:22 SERVER-0C64EF77A7 kernel: [39188.467165] ata1.00: status: { DRDY }

Инфа из S.M.A.R.T диска

ATA Error Count: 1405 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1405 occurred at disk power-on lifetime: 15827 hours (659 days + 11 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 ac 7a 00 00  Error: ICRC, ABRT at LBA = 0x00007aac = 31404

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 01 ac 7a 00 e0 00   1d+20:00:13.823  WRITE DMA
  ef 10 03 00 00 00 a0 00   1d+20:00:13.823  SET FEATURES [Enable SATA feature]
  27 00 00 00 00 00 e0 00   1d+20:00:13.823  READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
  ec 00 00 00 00 00 a0 00   1d+20:00:13.821  IDENTIFY DEVICE
  ef 10 06 00 00 00 00 00   1d+20:00:13.821  SET FEATURES [Enable SATA feature]

Error 1404 occurred at disk power-on lifetime: 15827 hours (659 days + 11 hours)
DemonXL
() автор топика
Ответ на: комментарий от DemonXL

В общем поэкспериментировал ещё. Проблема не в моих скриптах и установленных мной пакетах. Чистый дистрибутив тоже глючит. Более внимательно изучил syslog и похоже что проблема возникает вот из за этого.

Jul  2 07:27:49 SERVER-0C64EF77A7 kernel: [    7.436570] ACPI Warning: SystemIO range 0x0000000000000428-0x000000000000042f conflicts with OpRegion 0x0000000000000400-0x000000000000047f (\PMIO) (20140424/utaddress-258)
Jul  2 07:27:49 SERVER-0C64EF77A7 kernel: [    7.436585] ACPI: If an ACPI driver is available for this device, you should use it instead of the native driver
Jul  2 07:27:49 SERVER-0C64EF77A7 kernel: [    7.436592] ACPI Warning: SystemIO range 0x0000000000000540-0x000000000000054f conflicts with OpRegion 0x0000000000000500-0x0000000000000563 (\GPIO) (20140424/utaddress-258)
Jul  2 07:27:49 SERVER-0C64EF77A7 kernel: [    7.436600] ACPI: If an ACPI driver is available for this device, you should use it instead of the native driver
Jul  2 07:27:49 SERVER-0C64EF77A7 kernel: [    7.436603] ACPI Warning: SystemIO range 0x0000000000000530-0x000000000000053f conflicts with OpRegion 0x0000000000000500-0x0000000000000563 (\GPIO) (20140424/utaddress-258)
Jul  2 07:27:49 SERVER-0C64EF77A7 kernel: [    7.436610] ACPI: If an ACPI driver is available for this device, you should use it instead of the native driver
Jul  2 07:27:49 SERVER-0C64EF77A7 kernel: [    7.436613] ACPI Warning: SystemIO range 0x0000000000000500-0x000000000000052f conflicts with OpRegion 0x0000000000000500-0x0000000000000563 (\GPIO) (20140424/utaddress-258)
Jul  2 07:27:49 SERVER-0C64EF77A7 kernel: [    7.436620] ACPI: If an ACPI driver is available for this device, you should use it instead of the native driver
Jul  2 07:27:49 SERVER-0C64EF77A7 kernel: [    7.436622] lpc_ich: Resource conflict(s) found affecting gpio_ich 

Jul  2 12:38:13 SERVER-0C64EF77A7 kernel: [16877.281779] perf interrupt took too long (2525 > 2500), lowering kernel.perf_event_max_sample_rate to 50000
Jul  2 13:33:02 SERVER-0C64EF77A7 kernel: [20166.469967] perf interrupt took too long (5002 > 5000), lowering kernel.perf_event_max_sample_rate to 25000 

Я пока не знаю что это, и как с этим бороться, но подозреваю, что что-то связанное с прерываниями и видимо действительно это баг ядра.

DemonXL
() автор топика

Решил проблему установил вместо 64 битной 32 битную версию Debian, и уже прошло ~10 дней и нет ни одной ошибки в syslog связанной с дисками, работает отлично, CRC Error Count не растет. Правда есть всё те же ошибки с ACPI и kernel.perf_event_max_sample_rate, но ни как себя не проявляют, всё работает, устранять их желания нет. Как говорится, работает не трогай!!!

DemonXL
() автор топика
Ответ на: комментарий от DemonXL

работает не трогай

характерно, что так в основном говорят хомячки, которые ничего не понимают, когда что-то не работает само по себе и убегающие обратно в панике

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.