LINUX.ORG.RU

Проблема с дисками

 ,


0

1

Добрый день!

Возникла странная проблема с дисками. Система периодически (с разными интервалами времени) зависает намертво.

Что удалось выяснить:

В логах нашел такое:

Apr 10 16:13:22 host001 kernel: [ 5030.020649] sd 1:0:0:0: [sda] tag#18 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.020654] sd 1:0:0:0: [sda] tag#18 CDB: Write(10) 2a 00 58 ea 9f 6f 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.021715] sd 1:0:0:0: [sda] tag#19 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.021719] sd 1:0:0:0: [sda] tag#19 CDB: Write(10) 2a 00 58 ea 9c b7 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.022692] sd 1:0:0:0: [sda] tag#20 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.022695] sd 1:0:0:0: [sda] tag#20 CDB: Write(10) 2a 00 58 e7 d0 ef 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.023686] sd 1:0:0:0: [sda] tag#21 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.023689] sd 1:0:0:0: [sda] tag#21 CDB: Write(10) 2a 00 58 e7 cd 8f 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.024632] sd 1:0:0:0: [sda] tag#22 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.024635] sd 1:0:0:0: [sda] tag#22 CDB: Write(10) 2a 00 58 e7 cc df 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.025556] sd 1:0:0:0: [sda] tag#8 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.025560] sd 1:0:0:0: [sda] tag#8 CDB: Write(10) 2a 00 00 8b 74 e0 00 00 40 00
Apr 10 16:13:22 host001 kernel: [ 5030.026473] sd 1:0:0:0: [sda] tag#23 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.026476] sd 1:0:0:0: [sda] tag#23 CDB: Write(10) 2a 00 48 8c 00 97 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.027366] sd 1:0:0:0: [sda] tag#24 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.027369] sd 1:0:0:0: [sda] tag#24 CDB: Write(10) 2a 00 48 8c 00 6f 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.028239] sd 1:0:0:0: [sda] tag#25 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.028242] sd 1:0:0:0: [sda] tag#25 CDB: Write(10) 2a 00 48 8c 00 5f 00 00 08 00
Apr 10 16:13:22 host001 kernel: [ 5030.029126] sd 1:0:0:0: [sda] tag#26 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:13:22 host001 kernel: [ 5030.029129] sd 1:0:0:0: [sda] tag#26 CDB: Write(10) 2a 00 48 8c 00 4f 00 00 08 00
Apr 10 16:19:48 host001 kernel: [ 5415.580973] sd 1:0:0:0: [sda] tag#9 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Apr 10 16:19:48 host001 kernel: [ 5415.580977] sd 1:0:0:0: [sda] tag#9 CDB: ATA command pass through(16) 85 06 2c 00 00 00 00 00 00 00 00 00 00 00 e5 00
Apr 10 16:25:36 host001 kernel: [    4.632185] sd 1:0:0:0: [sda] 1953525168 512-byte logical blocks: (1.00 TB/932 GiB)
Apr 10 16:25:36 host001 kernel: [    4.632188] sd 1:0:0:0: [sda] 4096-byte physical blocks
Apr 10 16:25:36 host001 kernel: [    4.632195] sd 1:0:0:0: [sda] Write Protect is off
Apr 10 16:25:36 host001 kernel: [    4.632209] sd 1:0:0:0: [sda] Write cache: disabled, read cache: enabled, doesn't support DPO or FUA
Apr 10 16:25:36 host001 kernel: [    5.079987]  sda: sda1
Apr 10 16:25:36 host001 kernel: [    5.080546] sd 1:0:0:0: [sda] Attached SCSI removable disk

После чего, корневой раздел переходит в режим read-only и система перестает нормально функционировать. Помогает только перезапуск.

На машине используется RAID1 через mdadm . Диски выбивает поочередно. Контроллер SATA: 82801JI (ICH10 Family) SATA AHCI Controller

Незадолго до появления этой проблемы обновился с Debian 9 на 10 но не уверен что это связанно. Проблема начала проявляться только дня через 4 после обновления.

Обновление ядра из бэкпортов и замена SATA кабелей не помогла. Проблема точно не в дисках, т.к. заменил один из них на новый после чего он также вылетал. S.M.A.R.T. показывает нормальные значения на обоих дисках.

В чем может быть проблема? Может кто такое встречал.

★★

в режим read-only

# fsck -y /dev/sdXX
# reboot -f
anonymous
()

попробуйте memtest прогнать.

Deleted
()
Ответ на: комментарий от Rx0

уж лучше mdadm без контроля целостности, чем btrfs.
кстати mdadm зеркало умеет в формат интела с контролем целостности, но тормозноват.

Deleted
()
Ответ на: комментарий от Rx0

Так то страдальцы с потерянными на btrfs данными появляются регулярно, не вижу смысла пополнять их число.

Deleted
()
Ответ на: комментарий от Rx0

mdadm сегодня при наличии ZFS и BTRFS

вот сравнил так сравнил))

darkenshvein ★★★★★
()
Ответ на: комментарий от Deleted

страдальцы с потерянными на btrfs данными появляются регулярно, не вижу смысла пополнять их число.

«Вот оно чё, Михалыч!» (c)

Своё мнение тебе не нужно? ) Я много раз писал что я никогда ничего не терял на ZFS/BTRFS. Что-то делаю не так… )

Rx0
()
Последнее исправление: Rx0 (всего исправлений: 1)
Ответ на: комментарий от Deleted

кстати, дело может быть даже в блоке питания.

Я тоже подумал о том что проблема в питании.

fsck и memtest попробую сделать завтра. Сейчас система опять упала, а физически машина находится в офисе в который сегодня не пустят.

Самое главное определить что эта проблема чисто аппаратная, т.к. железо это старый HP Proliant ML150 G6.

static ★★
() автор топика
Ответ на: комментарий от darkenshvein

ssh?

ssh отваливается вместе с другими сервисами, видимо, из-за того что корень уходит в read-only.

static ★★
() автор топика
Последнее исправление: static (всего исправлений: 1)
Ответ на: комментарий от Rx0

Я много раз писал что я никогда ничего не терял на ZFS/BTRFS

  1. вам хронически везет
  2. писать можно что угодно. Я например тоже никогда и ничего не терял на BTRFS, но рекомендовать ее не буду.
anonymous
()
Ответ на: комментарий от anti_win

smartctl, к сожалению, сейчас нет возможности привести. Система упала. Но, когда смотрел в прошлый раз, вроде все было в норме. Также, при первом случае был заменен на новый один из дисков.

Завтра смогу сбросить вывод.

static ★★
() автор топика
Ответ на: комментарий от anonymous

писать можно что угодно. Я например тоже никогда и ничего не терял на BTRFS, но рекомендовать ее не буду.

Писать можно что угодно. Всем пофиг.

Rx0
()
Ответ на: комментарий от static

systemctl, как и fsck, можно делать с флешки. Если с диском и файловой системе все будет в порядке, будем смотреть в сторону оперативки.

anti_win ★★
()

Кабель SATA напрямую в диск воткнут, или в бэкплейн?
Бэкплейн - это следующее, что надо менять, если не помогла замена диска.

bigbit ★★★★★
()
Ответ на: комментарий от Rx0

BTRFS таки прекрасный способ потерять все данные при отключении в момент интенсивной записи. когда перетягивал систему с винта на ссд в кармане, размеченный эксперимента ради в бтрфс - в процессе он отвалился, после подключения обратно - данных нет вообще, fsck валится. при том что подключен по usb2.0, и вариант что в кеше ссд много данных умерло - исключается.

NiTr0 ★★★★★
()
Ответ на: комментарий от NiTr0

BTRFS таки прекрасный способ потерять все данные при отключении в момент интенсивной записи.

Ничего она не теряет если данные записаны, а если не записаны то и терять нечего.

Rx0
()
Ответ на: комментарий от bigbit

Кабель SATA напрямую в диск воткнут, или в бэкплейн?

Тут кабели втыкаются напрямую в диски.

static ★★
() автор топика
Ответ на: комментарий от Rx0

повторюсь: карман с ссд на юсб2.0, копируется ~200 гигов данных, где-то после 100 гигов - карман отваливается (отключился шнурок). после подключения - расчерепашенная ФС, которую fsck не берет.

NiTr0 ★★★★★
()
Ответ на: комментарий от izzholtik

Выглядит как немощный троллинг тупизной, я немножко за бан.

Выглядит как немощный троллинг кретинизмом, я немножко за бан.

Rx0
()

Либо БП, либо хаб помирает. Ну и влияние системы тоже желательно исключить, мало ли что там глючит.

K50
()
Ответ на: комментарий от Rx0

халва, халва)))

в чем принципиальная разница между выдергиванием юсб шнура и отключением питания компа во время интенсивной записи? первое, как показала практика, приводит к полному дестрою файлосистемы на btrfs.

NiTr0 ★★★★★
()
Ответ на: комментарий от Deleted

У школоты/двоечников зато очень популярна. Только представь: у них работает, а у академиков - нет! Это же такой выброс адреналина!!! :)

anonymous
()
Ответ на: комментарий от anti_win

Вывод smartctl для обоих дисков. sdb - новый (в след. сообщении).

smartctl -a /dev/sda
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-5.5.0-0.bpo.2-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital RE4
Device Model:     WDC WD1003FBYZ-010FB0
Serial Number:    WD-WCAW36774571
LU WWN Device Id: 5 0014ee 25ea27372
Firmware Version: 01.01V03
User Capacity:    1 000 204 886 016 bytes [1,00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Tue May 12 21:13:52 2020 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (16500) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 162) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x303f) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       4
  3 Spin_Up_Time            0x0027   172   171   021    Pre-fail  Always       -       4383
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       107
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   033   033   000    Old_age   Always       -       49373
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       107
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       59
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       108
194 Temperature_Celsius     0x0022   116   104   000    Old_age   Always       -       31
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       3

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
static ★★
() автор топика
Ответ на: комментарий от anti_win
smartctl -a /dev/sdb
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-5.5.0-0.bpo.2-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Blue
Device Model:     WDC WD10EZEX-75WN4A1
Serial Number:    WD-WCC6Y3UNU3EF
LU WWN Device Id: 5 0014ee 2bce91a8b
Firmware Version: 13057113
User Capacity:    1 000 204 886 016 bytes [1,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Tue May 12 21:14:31 2020 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x80) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (11100) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 115) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x3035) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   173   173   021    Pre-fail  Always       -       2308
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       188
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       15
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       12
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       955
194 Temperature_Celsius     0x0022   113   107   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0
240 Head_Flying_Hours       0x0032   100   100   000    Old_age   Always       -       176
241 Total_LBAs_Written      0x0032   200   200   000    Old_age   Always       -       4928330876
242 Total_LBAs_Read         0x0032   200   200   000    Old_age   Always       -       223994380

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
static ★★
() автор топика
Ответ на: комментарий от static

Да, смарт идеальный. Тащи сюда вывод fsck. Только про параметр -N не забудь. Так что у тебя там за файловая система?

anti_win ★★
()
Ответ на: комментарий от anonymous

Только представь: у них работает, а у академиков - нет!

Какие вы к херам «академики»? ) Вы криворукие дебилы втыкающие целый день в смартфон и воняющие на лоре как у вас btrfs падает! Сборище поганого, тупого ламерья ничего не знающего по определению. Идите к херам «академики-задроты»!

anonymous
()
Ответ на: комментарий от anonymous

ты это Торвальдсу скажи, который слез с этой самой btrfs, после того, как потерял свои данные, и не собирается на неё возвращаться )))

anonymous
()
Ответ на: комментарий от anonymous

ты это Торвальдсу скажи

Торвальд это редкий мудень. Его мнением подтерлись многие разработчики и ждут когда этот упырь свалит из репозитория ядра.

anonymous
()
Ответ на: комментарий от anti_win

Приветствую.

Съездить в офис так и не получается, но fsck запустил след. образом:

# tune2fs -c 1 /dev/sda1

И перезагрузился.

Судя по выводу проверка прошла:

# tune2fs -l /dev/sda1 | grep checked
Last checked:             Wed May 13 17:49:36 2020

Правда в логах не нашел каких-либо результатов кроме

May 13 17:49:43 host001 systemd-fsck[464]: /dev/sda1: clean, 347/21560 files, 62059/86016 blocks
static ★★
() автор топика
Ответ на: комментарий от Deleted

Почему не хотите воспользоваться ilo ?

С какой целью?

Недавно подключлся к системе по ssh, запустил восстановление массива, сейчас зашел проверить как дела, а массив не собрался. В логе как обычно знакомые сообщения. Но в начале, есть данные которых нет в первом сообщении.

May 13 18:03:51 host001 kernel: [  860.375876] md: recovery of RAID array md0
May 13 18:38:35 host001 kernel: [ 2943.537251] ata1: hard resetting link
May 13 18:38:35 host001 kernel: [ 2943.847922] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
May 13 18:38:40 host001 kernel: [ 2948.883887] ata1.00: qc timeout (cmd 0xec)
May 13 18:38:40 host001 kernel: [ 2948.883895] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
May 13 18:38:40 host001 kernel: [ 2948.883948] ata1: hard resetting link
May 13 18:38:40 host001 kernel: [ 2949.200125] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
May 13 18:38:50 host001 kernel: [ 2959.379845] ata1.00: qc timeout (cmd 0xec)
May 13 18:38:50 host001 kernel: [ 2959.379853] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
May 13 18:38:50 host001 kernel: [ 2959.379906] ata1: limiting SATA link speed to 1.5 Gbps
May 13 18:38:50 host001 kernel: [ 2959.379911] ata1: hard resetting link
May 13 18:38:51 host001 kernel: [ 2959.691856] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
May 13 18:39:22 host001 kernel: [ 2991.124620] ata1.00: qc timeout (cmd 0xec)
May 13 18:39:22 host001 kernel: [ 2991.124627] ata1.00: failed to IDENTIFY (I/O error, err_mask=0x4)
May 13 18:39:22 host001 kernel: [ 2991.124673] ata1.00: disabled
May 13 18:39:22 host001 kernel: [ 2991.436684] ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
May 13 18:39:22 host001 kernel: [ 2991.436713] ata1: EH complete
May 13 18:39:22 host001 kernel: [ 2991.436790] sd 0:0:0:0: [sda] tag#20 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK cmd_age=78s
May 13 18:39:22 host001 kernel: [ 2991.436794] sd 0:0:0:0: [sda] tag#20 CDB: Write(10) 2a 00 17 76 66 00 00 05 00 00
May 13 18:39:22 host001 kernel: [ 2991.436902] sd 0:0:0:0: [sda] tag#21 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK cmd_age=78s
May 13 18:39:22 host001 kernel: [ 2991.436904] sd 0:0:0:0: [sda] tag#21 CDB: Write(10) 2a 00 17 76 61 80 00 04 80 00
May 13 18:39:22 host001 kernel: [ 2991.436991] sd 0:0:0:0: [sda] tag#22 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK cmd_age=78s
May 13 18:39:22 host001 kernel: [ 2991.436993] sd 0:0:0:0: [sda] tag#22 CDB: Write(10) 2a 00 17 76 5b 80 00 06 00 00
May 13 18:39:22 host001 kernel: [ 2991.437070] sd 0:0:0:0: [sda] tag#23 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK cmd_age=77s
May 13 18:39:22 host001 kernel: [ 2991.437072] sd 0:0:0:0: [sda] tag#23 CDB: Write(10) 2a 00 08 9f 84 17 00 00 01 00
May 13 18:39:22 host001 kernel: [ 2991.437140] sd 0:0:0:0: [sda] tag#31 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK cmd_age=77s
May 13 18:39:22 host001 kernel: [ 2991.437143] sd 0:0:0:0: [sda] tag#31 CDB: Write(10) 2a 00 0a 33 40 5f 00 00 08 00
May 13 18:39:22 host001 kernel: [ 2991.438260] sd 0:0:0:0: [sda] tag#0 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK cmd_age=77s
May 13 18:39:22 host001 kernel: [ 2991.438263] sd 0:0:0:0: [sda] tag#0 CDB: Write(10) 2a 00 0a 53 9d 5f 00 00 08 00
May 13 18:39:22 host001 kernel: [ 2991.439289] sd 0:0:0:0: [sda] tag#1 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK cmd_age=77s
May 13 18:39:22 host001 kernel: [ 2991.439292] sd 0:0:0:0: [sda] tag#1 CDB: Write(10) 2a 00 0a 22 b9 bf 00 00 28 00
May 13 18:39:22 host001 kernel: [ 2991.440297] sd 0:0:0:0: [sda] tag#2 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK cmd_age=77s
May 13 18:39:22 host001 kernel: [ 2991.440300] sd 0:0:0:0: [sda] tag#2 CDB: Write(10) 2a 00 0a 22 b9 7f 00 00 40 00
May 13 18:39:22 host001 kernel: [ 2991.441317] sd 0:0:0:0: [sda] tag#3 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK cmd_age=78s
May 13 18:39:22 host001 kernel: [ 2991.441320] sd 0:0:0:0: [sda] tag#3 CDB: Read(10) 28 00 09 44 2a 5f 00 00 08 00
May 13 18:39:22 host001 kernel: [ 2991.444905] sd 0:0:0:0: [sda] tag#9 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK cmd_age=0s
May 13 18:39:22 host001 kernel: [ 2991.444910] sd 0:0:0:0: [sda] tag#9 CDB: Write(10) 2a 00 06 81 4d 47 00 00 40 00
static ★★
() автор топика
Ответ на: комментарий от static

Вы же хотели из-за чего-то ехать в офис. За fsck понаблюдать там.
Кстати в ilo можно посмотреть напряжения, потребление.

Deleted
()
Ответ на: комментарий от anti_win

Получилось сгонять в офис.

Сделал fsck

/dev/sda1 has been mounted 1 times without being checked, check forced.
Pass 1: Checking inodes, blocks, and sizes
Pass 2: Checking directory structure
Pass 3: Checking directory connectivity
Pass 4: Checking reference counts
Pass 5: Checking group summary information
/dev/sda1: 37588/610800 files (0.3% non-contiguous), 1558193/2441216 blocks

Также выполнил один прогон memtest+, который не нашел ошибок.

static ★★
() автор топика
Ответ на: комментарий от Deleted

На материнке нашелся один вздутый кондер. Решили вызвать специально обученного человека перепаять его)) Также он протестирует б.п. Возможно дело в этом.

static ★★
() автор топика
Ответ на: комментарий от static

Сталкивался с ошибками «200 Multi_Zone_Error_Rate» на ноутбучном самсунговском диске. Цифра примерно на 1 порядок больше, чем у Вас. Других никаких ошибок по SMART не было совсем, тесты все проходили успешно. Насколько помню, это ошибка связана с механическим позиционированием головок.

У меня ошибка проявлялась в постоянном «трыкании» и существенных задержках на каждую операцию, до нескольких секунд, изредка больше. Причем, чем больше партиций, тем дольше «трыканье». После недельного лежания диска на полке паузы ещё больше. Для ноута, наверное, терпимо, но заменил диск чтобы не потерять данные. (Где-то на форумах (ixbt кажется) писали, что механика диска может вылететь в любой момент.) С новым диском всё происходит существенно бодрее. (Сам самсунговский диск ещё жив, но использую его только для экспериментов.)

А для нагруженного компа может быть проблема, если начнёт «трыкать» в момент свопа. Большая пауза даже на малом свопинге [без тюнинга ядра] может даже привести к панике. Имхо. Думаю, имеет смысл заменить sda, если он действительно «трыкает».

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.