LINUX.ORG.RU

PSA: Не покупайте ST5000LM000 (5Тб 2.5 карманы)

 , click-of-death, , ,


0

3

Первый помер летом.
Вчера во время btrfs scrub отдал концы второй.
C третьим ближайшие пару суток будет разговаривать badblocks методом недеструктивной перезаписи.

Скорее всего, кончина близка:

root@optiplex:/home/aidaho# smartctl -a /dev/sda    
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-5.9.0-15.1-liquorix-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 2.5 5400
Device Model:     ST5000LM000-2AN170
Serial Number:    WCJ0J7GM
LU WWN Device Id: 5 000c50 0ac7558a8
Firmware Version: 0001
User Capacity:    5,000,981,078,016 bytes [5.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5526 rpm
Form Factor:      2.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s
Local Time is:    Thu Dec 24 18:43:06 2020 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 117) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline 
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 821) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x30a5) SCT Status supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   084   064   006    Pre-fail  Always       -       235374112
  3 Spin_Up_Time            0x0003   100   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   085   085   020    Old_age   Always       -       15658
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   078   060   045    Pre-fail  Always       -       56361906
  9 Power_On_Hours          0x0032   075   075   000    Old_age   Always       -       22257 (46 65 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
183 SATA_Downshift_Count    0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       4295032858
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   053   049   040    Old_age   Always       -       47 (Min/Max 23/48)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   094   094   000    Old_age   Always       -       12624
193 Load_Cycle_Count        0x0032   086   086   000    Old_age   Always       -       29144
194 Temperature_Celsius     0x0022   047   051   000    Old_age   Always       -       47 (0 20 0 0 0)
195 Hardware_ECC_Recovered  0x001a   084   064   000    Old_age   Always       -       235374112
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       8
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       8
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       463 (84 195 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       27260027568
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       18480454058
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       50%     22247         -
# 2  Short offline       Completed without error       00%     22158         -
# 3  Short offline       Interrupted (host reset)      00%     20049         -
# 4  Extended offline    Aborted by host               90%     16191         -
# 5  Extended offline    Interrupted (host reset)      00%     16180         -
# 6  Extended offline    Interrupted (host reset)      00%     16180         -
# 7  Short offline       Completed without error       00%     16180         -
# 8  Short offline       Interrupted (host reset)      00%      9731         -
# 9  Short offline       Interrupted (host reset)      00%      9371         -

USB карманы разных производителей, но внутри одно и то же.
Сейчас диск вынят из кармана и стоит в ПК.

Рекомендую проходить мимо любого 5Тб 2.5" накопителя.


Не вынят, я вынеман. Из карманаА. А по сабжу да, с рекомендацией согласен.

Jameson 👍👍👍👍👍
()

Шо, оно опять само себе служебные блоки перезаписало? А то по смарту ни одного бэдблока нет. М.Б. попробовать перешить сдохшие?

А то click-of-death насколько мне известно это именно косяк когда винт умудряется перезаписать себе служебные сектора.

timdorohin
()

Extended offline Aborted by host

Если нет возможности прогнать Extended тест за один раз, используй select. Там можно выбрать желаемый сегмент.

i-rinat ☕☕☕☕
()
Ответ на: комментарий от timdorohin

А то по смарту ни одного бэдблока нет.

А если внимательнее посмотреть?

А то click-of-death насколько мне известно это именно косяк когда винт умудряется перезаписать себе служебные сектора.

Это звук, когда беспомощно дёргает головками. А от чего, дело десятое.
Первый дал дуба на ровном месте, причем вместе со своим мостом.

Второй резко получил полсотни ремапов и сколько-то там offline uncorrectable.
Запустил scrub посмотреть, какие файлы пострадали, через два часа click-of-death.

Третий выше видно.

aidaho
() автор топика
Ответ на: комментарий от aidaho

А если внимательнее посмотреть?

pending не бэды, эти товарищи постоянно случаются на говноадаптерах. Вот если они случились когда диск стоял в нормальном компе, это уже подозрительно. То же самое касается ошибок позиционирования, для внешних это вообще норма.

Запустил scrub посмотреть, какие файлы пострадали, через два часа click-of-death.

У меня подобное было, я слил дамп ddrescue и потом просто полностью занулил диск, пендинги ушли, диск жив.

И да, до жизни такой его тоже адаптер довёл.

timdorohin
()
Последнее исправление: timdorohin (всего исправлений: 1)
Ответ на: комментарий от timdorohin

Pending по всякому могут появляться и исчезать. Диск в них не уверен. Завтра может быть наоборот.

А вот эти восемь уже всё:

198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       8

Теперь ждём когда badblocks туда доберётся и перезаписью переведёт их в разряд Reallocated_Sector_Ct.
Судя по селф-тесту, они где-то с половины диска начинаются.

Туда сутки добираться, судя по текущим темпам:

root@optiplex:~# nice -n 19 badblocks -b 4096 -c 262144 -s -n -p 1 -o fatty.badblocks /dev/sda   # non-destructive overwrite test, 1G blocks
Checking for bad blocks (non-destructive read-write test)
Testing with random pattern:  22.97% done, 9:23:11 elapsed. (0/0/0 errors)

Не слышал, чтобы контроллер как-то влиял на количество подозрительных секторов.
UDMA_CRC_Error_Count да, растёт как на дрожжах с хреновым коннектом.

aidaho
() автор топика
Ответ на: комментарий от aidaho

Я же правильно понимаю, что наличие этих двух атрибутов означает присутствие технологии черепичной записи?

241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       27260027568
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       18480454058
И так как прошивка всё время тусует данные по диску, то может получиться так, что в разные моменты времени на эти бэдблоки будут записаны разные файлы? Или не может?

justAmoment
()
Ответ на: комментарий от bhfq

Нет.
Я об этом тоже думал, но ни к каким выводам особо не пришёл.

Первый мертвец всю жизнь был на хабе с внешним питанием.
Второй был сразу извлечён из бокса и поставлен внутрь.
Третий жил на хабе с внешкой, потом был воткнут напрямую в порт на системнике, ну и теперь внутри доживать будет.

Я пробовал подкинуть к этому HPшному кирпичу стоваттный БП, так эти гады оказывается встроили какую-то систему свой-чужой.
Обычный двухпиновый штекер, но UEFI детектит чужой блок и стартует только после подтверждения, наглухо блокируя цпу на 800Мгц.

aidaho
() автор топика
Ответ на: комментарий от justAmoment

Я же правильно понимаю, что наличие этих двух атрибутов означает присутствие технологии черепичной записи?

Выглядит верно: на этот экземпляр больше писали, чем читали.
Вряд ли это признак SMR, хотя диск действительно SMR.
Я истерик по поводу технологии не закатывал: мне в принципе без разницы, лишь бы работало.

И так как прошивка всё время тусует данные по диску, то может получиться так, что в разные моменты времени на эти бэдблоки будут записаны разные файлы? Или не может?

Вот тут не знаю, что означает блок в диске с SMR.
Если исходить из здравого смысла, то в целях совместимости в SMART должны быть «традиционные» блоки.
Это бы объяснило, как один прогон с остановом длинного self-test принёс 8 Offline Uncorrectable вместо одного.
На самом деле он и есть один, но затрагивает объём данных равный восьми блокам.

Подчёркиваю, что это догадки.

aidaho
() автор топика
Ответ на: комментарий от aidaho

Выглядит верно: на этот экземпляр больше писали, чем читали.

Чтобы никого не пугали 22 тысячи Power_On_Hours: крутился он менее пятиста.
В основном принимал очередную порцию бекапов и выключался.

aidaho
() автор топика

9 Power_On_Hours 0x0032 075 075 000 Old_age Always - 22257 (46 65 0)
192 Power-Off_Retract_Count 0x0032 094 094 000 Old_age Always - 12624
193 Load_Cycle_Count 0x0032 086 086 000 Old_age Always - 29144
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 463 (84 195 0)

Ему можно. Отпусти его.

Suigintou
()

192 Power-Off_Retract_Count 0x0032 094 094 000 Old_age Always - 12624

Питание. Скорее всего, недостаточный ток из порта.

anonymous
()
Ответ на: комментарий от anonymous

Хорошо подмечено.
Жаль, нет смарта второго, который всё время внутри стоял.

Тем временем, badblocks нашёл, то что искал:

oot@optiplex:~# nice -n 19 badblocks -b 4096 -c 262144 -s -n -p 1 -o fatty.badblocks /dev/sda   # non-destructive overwrite test, 1G blocks
Checking for bad blocks (non-destructive read-write test)
Testing with random pattern:  55.61% done, 25:21:49 elapsed. (333/0/0 errors)


root@optiplex:/home/aidaho# smartctl -a /dev/sda 
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-5.9.0-15.1-liquorix-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 2.5 5400
Device Model:     ST5000LM000-2AN170
Serial Number:    WCJ0J7GM
LU WWN Device Id: 5 000c50 0ac7558a8
Firmware Version: 0001
User Capacity:    5,000,981,078,016 bytes [5.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5526 rpm
Form Factor:      2.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Fri Dec 25 14:33:14 2020 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 117) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline 
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 821) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x30a5) SCT Status supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   047   046   006    Pre-fail  Always       -       96097152
  3 Spin_Up_Time            0x0003   100   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   085   085   020    Old_age   Always       -       15658
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   078   060   045    Pre-fail  Always       -       61969591
  9 Power_On_Hours          0x0032   075   075   000    Old_age   Always       -       22277 (70 230 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
183 SATA_Downshift_Count    0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       344
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       4295032858
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   056   049   040    Old_age   Always       -       44 (Min/Max 23/48)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   094   094   000    Old_age   Always       -       12624
193 Load_Cycle_Count        0x0032   086   086   000    Old_age   Always       -       29144
194 Temperature_Celsius     0x0022   044   051   000    Old_age   Always       -       44 (0 20 0 0 0)
195 Hardware_ECC_Recovered  0x001a   080   064   000    Old_age   Always       -       96097152
197 Current_Pending_Sector  0x0012   092   092   000    Old_age   Always       -       2720
198 Offline_Uncorrectable   0x0010   092   092   000    Old_age   Offline      -       2720
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       483 (109 102 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       35459349296
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       26682736978
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0

...

Прямо сейчас диск спамит мне лог и инкрементит Offline_Uncorrectable как на дрожжах.
И судя по всему Pending у этой прошивки — это надмножество Offline_Uncorrectable, а не отдельный параметр.

aidaho
() автор топика
Ответ на: комментарий от aidaho

В dmesg на каждый фейл вот такой кусок:

[143665.037531] ata1.00: exception Emask 0x0 SAct 0x11000000 SErr 0x0 action 0x0
[143665.037532] ata1.00: irq_stat 0x40000008
[143665.037535] ata1.00: failed command: READ FPDMA QUEUED
[143665.037538] ata1.00: cmd 60/c0:e0:e0:a2:dc/02:00:43:01:00/40 tag 28 ncq dma 360448 in
                         res 43/40:c0:e0:a2:dc/00:02:43:01:00/00 Emask 0x409 (media error) <F>
[143665.037538] ata1.00: status: { DRDY SENSE ERR }
[143665.037539] ata1.00: error: { UNC }
[143665.044818] ata1.00: configured for UDMA/133
[143665.044834] sd 0:0:0:0: [sda] tag#28 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=43s
[143665.044835] sd 0:0:0:0: [sda] tag#28 Sense Key : Medium Error [current]
[143665.044837] sd 0:0:0:0: [sda] tag#28 Add. Sense: Unrecovered read error - auto reallocate failed
[143665.044839] sd 0:0:0:0: [sda] tag#28 CDB: Read(16) 88 00 00 00 00 01 43 dc a2 e0 00 00 02 c0 00 00
[143665.044840] blk_update_request: I/O error, dev sda, sector 5433500384 op 0x0:(READ) flags 0x0 phys_seg 88 prio class 2
[143665.044854] ata1: EH complete
aidaho
() автор топика
Ответ на: комментарий от aidaho

похоже в режиме сна (когда блины не крутятся) часы тоже считаются.

Rost
()

мое мнение: так как hdd очень сложная и хрупкая штуковина, то их (особенно 3,5) лучше покупать в магазинах (лучше в крупных) с хорошей репутацией. и никогда не заказывать по почте - лучше забирать самому. от заводского брака это не спасёт, но шансы что какая-то криворучка могла уронить/стукнуть диск до вас снизится к минимому.

да и еще печалит тот факт, что раньше hdd поставлялись в противоударной пластиковой коробке, а сейчас просто в антистатик заворачивают. видимо не с проста.

Rost
()
Ответ на: комментарий от aidaho

Хроники пикирующего бомбардировщика:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   043   043   006    Pre-fail  Always       -       103296232
  3 Spin_Up_Time            0x0003   100   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   085   085   020    Old_age   Always       -       15658
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   078   060   045    Pre-fail  Always       -       61989361
  9 Power_On_Hours          0x0032   075   075   000    Old_age   Always       -       22278 (103 57 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
183 SATA_Downshift_Count    0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       824
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       4295032858
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   055   049   040    Old_age   Always       -       45 (Min/Max 23/48)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   094   094   000    Old_age   Always       -       12624
193 Load_Cycle_Count        0x0032   086   086   000    Old_age   Always       -       29144
194 Temperature_Celsius     0x0022   045   051   000    Old_age   Always       -       45 (0 20 0 0 0)
195 Hardware_ECC_Recovered  0x001a   080   064   000    Old_age   Always       -       103296232
197 Current_Pending_Sector  0x0012   081   081   000    Old_age   Always       -       6512
198 Offline_Uncorrectable   0x0010   081   081   000    Old_age   Offline      -       6512
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       484 (141 186 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       35462946920
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       26686338434
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0

В этот раз уже минуту думал, прежде чем отдать смарт.
Прошивка не ремапит сектора. У него вообще резерв то есть?

aidaho
() автор топика
Последнее исправление: aidaho (всего исправлений: 1)
Ответ на: комментарий от timdorohin

А то click-of-death насколько мне известно это именно косяк когда винт умудряется перезаписать себе служебные сектора.

нет, это когда винт не видит серворазметку (минимум по одной головке), частично либо полностью. чаще всего - из-за дохлой головы, в т.ч. стершейся на царапине поверхности либо разучившейся читать из-за налипшей на нее грязи. реже - когда сгорел коммутатор/прочие проблемы с электроникой канала чтения. еще реже - когда винт забыл выключить запись во время позиционирования голов, затерев себе все включая сервометки.

NiTr0
()
Ответ на: комментарий от aidaho

И судя по всему Pending у этой прошивки — это надмножество Offline_Uncorrectable, а не отдельный параметр.

ну да, пендинги - это все имеющиеся на данный момент проблемные сектора (включая те, которые еще читаются но уже с большим BER), offline uncorrectable - обычно имеются ввиду те, которые найдены при BGMS и не могут быть автоматически переназначены т.к. не читаются.

NiTr0
()
Ответ на: комментарий от aidaho

Прошивка не ремапит сектора. У него вообще резерв то есть?

сектора римэпятся при записи в них. badblocks недеструктивный - запись в нечитаемый сектор не вызвает.

не мучьте зверушку если с него данные еще нужны. если там царапина на поверхности - винт может сдохнуть окончательно за считанные часы. если данные ценные (дороже несколько сот $) - несите в датарикавери, если дешевле - пробуйте сами через ddrecovery сначала пропуская битые куски, потом - довычитывая остаток посекторно из битых кусков (если повезет и винт не рассыпется в процессе).

NiTr0
()
Ответ на: комментарий от aidaho

non-destructive overwrite test, 1G blocks

Оно случаем не пытается сначала прочитать, потом записать то же самое туда же?

Это не самый лучший вариант, Offline_Uncorrectable появляются тогда, когда ECC не может восстановить данные на секторе.

Тут лучше тупо залить всё нулями и посмотреть уйдут ли они.

timdorohin
()
Ответ на: комментарий от NiTr0

Не надо с него ничего.

badblocks недеструктивный - запись в нечитаемый сектор не вызвает.

Разве? Ну ок, сейчас нулями забью.

aidaho
() автор топика
Ответ на: комментарий от timdorohin

При попытке перезаписи нулями диск ушёл в астрал:

[180726.525038] ata1.00: status: { DRDY }
[180726.525039] ata1.00: failed command: WRITE FPDMA QUEUED
[180726.525041] ata1.00: cmd 61/a8:f0:48:c2:7e/00:00:43:01:00/40 tag 30 ncq dma 86016 out
                         res 40/00:01:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[180726.525042] ata1.00: status: { DRDY }
[180726.525042] ata1.00: failed command: WRITE FPDMA QUEUED
[180726.525044] ata1.00: cmd 61/a8:f8:e0:c6:7e/00:00:43:01:00/40 tag 31 ncq dma 86016 out
                         res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[180726.525045] ata1.00: status: { DRDY }
[180726.525047] ata1: hard resetting link
[180731.878063] ata1: link is slow to respond, please be patient (ready=0)
[180736.577884] ata1: COMRESET failed (errno=-16)
[180736.577891] ata1: hard resetting link
[180741.938072] ata1: link is slow to respond, please be patient (ready=0)
[180746.625862] ata1: COMRESET failed (errno=-16)
[180746.625866] ata1: hard resetting link
[180751.988050] ata1: link is slow to respond, please be patient (ready=0)
[180781.655980] ata1: COMRESET failed (errno=-16)
[180781.655986] ata1: limiting SATA link speed to 3.0 Gbps
[180781.655987] ata1: hard resetting link
[180786.705747] ata1: COMRESET failed (errno=-16)
[180786.705756] ata1: reset failed, giving up
[180786.705759] ata1.00: disabled
[180786.706874] ata1: EH complete
[180786.706976] sd 0:0:0:0: [sda] tag#7 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK cmd_age=90s
[180786.706978] sd 0:0:0:0: [sda] tag#7 CDB: Write(16) 8a 00 00 00 00 01 43 7e c6 e0 00 00 00 a8 00 00
[180786.706980] blk_update_request: I/O error, dev sda, sector 5427349216 op 0x1:(WRITE) flags 0x104000 phys_seg 168 prio class 0
[180786.706983] Buffer I/O error on dev sda, logical block 5427349216, lost async page write
root@optiplex:/home/aidaho# smartctl -a /dev/sda -T permissive
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-5.9.0-15.1-liquorix-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

Short INQUIRY response, skip product id

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK
Current Drive Temperature:     0 C
Drive Trip Temperature:        0 C

Read defect list: asked for grown list but didn't get it
Error Counter logging not supported

Device does not support Self Test logging

Но после перезагрузки пациент вновь ожил.
С обнулёнными Reallocated_Sector_Ct, Current_Pending_Sector и Offline_Uncorrectable 0_0

Раз запись в плохие секторы приводит к зависанию прошивки, решил вернуться к badblocks и просто составить карту бедов чтением.
Но твориться какая-то ерунда: уже 75% прочитано, а бедов всё еще нет.
Раньше они кучковались на ~51-52%.

aidaho
() автор топика
Ответ на: комментарий от aidaho

вполне может быть что в прошивке reallocated sector ct всегда нули выводит (вроде встречал такое).

попробуйте badblocks -ws

NiTr0
()
Ответ на: комментарий от NiTr0

badblocks -ws

Уже 30% прошёл. Последний прогон, и хватит.
Чтение прошло без запинки, будто всё отремаплено.

Кстати, оказывается, btrfs не может в badblocks.
Дополнительная монетка в копилку более высокой надёжности ext4.

aidaho
() автор топика
Ответ на: комментарий от aidaho

более высокой надёжности ext4.

Это скорее не надёжность, а устойчивость к отдельным сбоям.

За счёт потери ёмкости btrfs может вот такое:

btrfs vs ext4 (комментарий)

greenman 👍👍👍
()
Ответ на: комментарий от aidaho

Уже 30% прошёл. Последний прогон, и хватит.
Чтение прошло без запинки, будто всё отремаплено.

Есть возможность запустить mhdd?

justAmoment
()
Ответ на: комментарий от justAmoment

Это под винду же.
Хватит красноглазить, праздновать пора.
Отдал его на растерзание qbittorrent для общественно полезного сидинга.

aidaho
() автор топика

Power_On_Hours 22257
Temperature_Celsius 47

Охлаждается хреново, вот и отдал концы.

Контакты на плате пробовал протирать? Тупой совет, но мне несколько раз помогало.

Radjah 👍
()
Ответ на: комментарий от aidaho

Это под винду же.

Он после биоса сразу с флоппика грузится. Безо всяких прослоек в виде виндов и линуксов.

https://ihdd.ru/mhdd

Выбираешь диск Shift-F3. Лучше все остальные диски на время тестирования отключить физически. Смотришь смарт по F8. Запускаешь тестирование сначала просто на чтение F4-F4. В твоём случае дожидаться полного чтения необязательно. Смотришь на каких адресах секторов начнёт спотыкаться. Фиксируешь адреса на фото(бумагу). Останавливаешь тест. Смотришь смарт. Запускаешь снова тест F4 уже на remap и указываешь адреса от плюс/минус вокруг найденных адресов F4. Смотришь смарт. Запускаешь снова тест F4 ставишь erasewaits на тех же адресах F4. Смотришь смарт. Снимаешь питание с диска для его перезапуска. Снова подключаешь. Повторяешь процедуру. Смарт. Remap. Смарт. EraseWaits. Смарт.

Делаешь выводы: капец котёнку или ещё поживёт.

PS Если материнка только в UEFI умеет без поддержки Legasy BIOS, то mhdd работать не будет.

justAmoment
()
Ответ на: комментарий от justAmoment

Есть еще whdd под Linux.
Правда сколь-либо обширного опыта с ним у меня нет, ничего не могу сказать про эффективность в сравнении с mhdd.

bormant
()
Ответ на: комментарий от justAmoment

Если материнка только в UEFI умеет без поддержки Legasy BIOS, то mhdd работать не будет

Легаси как бы есть, но только для внутренних девайсов.
А с внешки DELLовский (вверху по ошибке обозвал HP, бо стоит за стеной в боксе) моноблок грузит только код, окроплённый цифровой подписью MS.

Не рекомендую, короче.

aidaho
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.