LINUX.ORG.RU

PSA: Не покупайте ST5000LM000 (5Тб 2.5 карманы)

 , , , ,


0

3

Первый помер летом.
Вчера во время btrfs scrub отдал концы второй.
C третьим ближайшие пару суток будет разговаривать badblocks методом недеструктивной перезаписи.

Скорее всего, кончина близка:

root@optiplex:/home/aidaho# smartctl -a /dev/sda    
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-5.9.0-15.1-liquorix-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 2.5 5400
Device Model:     ST5000LM000-2AN170
Serial Number:    WCJ0J7GM
LU WWN Device Id: 5 000c50 0ac7558a8
Firmware Version: 0001
User Capacity:    5,000,981,078,016 bytes [5.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5526 rpm
Form Factor:      2.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s
Local Time is:    Thu Dec 24 18:43:06 2020 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 117) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline 
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 821) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x30a5) SCT Status supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   084   064   006    Pre-fail  Always       -       235374112
  3 Spin_Up_Time            0x0003   100   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   085   085   020    Old_age   Always       -       15658
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   078   060   045    Pre-fail  Always       -       56361906
  9 Power_On_Hours          0x0032   075   075   000    Old_age   Always       -       22257 (46 65 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
183 SATA_Downshift_Count    0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       4295032858
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   053   049   040    Old_age   Always       -       47 (Min/Max 23/48)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   094   094   000    Old_age   Always       -       12624
193 Load_Cycle_Count        0x0032   086   086   000    Old_age   Always       -       29144
194 Temperature_Celsius     0x0022   047   051   000    Old_age   Always       -       47 (0 20 0 0 0)
195 Hardware_ECC_Recovered  0x001a   084   064   000    Old_age   Always       -       235374112
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       8
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       8
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       463 (84 195 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       27260027568
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       18480454058
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       50%     22247         -
# 2  Short offline       Completed without error       00%     22158         -
# 3  Short offline       Interrupted (host reset)      00%     20049         -
# 4  Extended offline    Aborted by host               90%     16191         -
# 5  Extended offline    Interrupted (host reset)      00%     16180         -
# 6  Extended offline    Interrupted (host reset)      00%     16180         -
# 7  Short offline       Completed without error       00%     16180         -
# 8  Short offline       Interrupted (host reset)      00%      9731         -
# 9  Short offline       Interrupted (host reset)      00%      9371         -

USB карманы разных производителей, но внутри одно и то же.
Сейчас диск вынят из кармана и стоит в ПК.

Рекомендую проходить мимо любого 5Тб 2.5" накопителя.

★★★★★

Не вынят, я вынеман. Из карманаА. А по сабжу да, с рекомендацией согласен.

Jameson ★★★★ ()

Шо, оно опять само себе служебные блоки перезаписало? А то по смарту ни одного бэдблока нет. М.Б. попробовать перешить сдохшие?

А то click-of-death насколько мне известно это именно косяк когда винт умудряется перезаписать себе служебные сектора.

timdorohin ★★★ ()

Extended offline Aborted by host

Если нет возможности прогнать Extended тест за один раз, используй select. Там можно выбрать желаемый сегмент.

i-rinat ★★★★★ ()
Ответ на: комментарий от timdorohin

А то по смарту ни одного бэдблока нет.

А если внимательнее посмотреть?

А то click-of-death насколько мне известно это именно косяк когда винт умудряется перезаписать себе служебные сектора.

Это звук, когда беспомощно дёргает головками. А от чего, дело десятое.
Первый дал дуба на ровном месте, причем вместе со своим мостом.

Второй резко получил полсотни ремапов и сколько-то там offline uncorrectable.
Запустил scrub посмотреть, какие файлы пострадали, через два часа click-of-death.

Третий выше видно.

aidaho ★★★★★ ()
Ответ на: комментарий от aidaho

А если внимательнее посмотреть?

pending не бэды, эти товарищи постоянно случаются на говноадаптерах. Вот если они случились когда диск стоял в нормальном компе, это уже подозрительно. То же самое касается ошибок позиционирования, для внешних это вообще норма.

Запустил scrub посмотреть, какие файлы пострадали, через два часа click-of-death.

У меня подобное было, я слил дамп ddrescue и потом просто полностью занулил диск, пендинги ушли, диск жив.

И да, до жизни такой его тоже адаптер довёл.

timdorohin ★★★ ()
Последнее исправление: timdorohin (всего исправлений: 1)
Ответ на: комментарий от timdorohin

Pending по всякому могут появляться и исчезать. Диск в них не уверен. Завтра может быть наоборот.

А вот эти восемь уже всё:

198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       8

Теперь ждём когда badblocks туда доберётся и перезаписью переведёт их в разряд Reallocated_Sector_Ct.
Судя по селф-тесту, они где-то с половины диска начинаются.

Туда сутки добираться, судя по текущим темпам:

root@optiplex:~# nice -n 19 badblocks -b 4096 -c 262144 -s -n -p 1 -o fatty.badblocks /dev/sda   # non-destructive overwrite test, 1G blocks
Checking for bad blocks (non-destructive read-write test)
Testing with random pattern:  22.97% done, 9:23:11 elapsed. (0/0/0 errors)

Не слышал, чтобы контроллер как-то влиял на количество подозрительных секторов.
UDMA_CRC_Error_Count да, растёт как на дрожжах с хреновым коннектом.

aidaho ★★★★★ ()
Ответ на: комментарий от aidaho

Я же правильно понимаю, что наличие этих двух атрибутов означает присутствие технологии черепичной записи?

241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       27260027568
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       18480454058
И так как прошивка всё время тусует данные по диску, то может получиться так, что в разные моменты времени на эти бэдблоки будут записаны разные файлы? Или не может?

justAmoment ★★★★★ ()
Ответ на: комментарий от bhfq

Нет.
Я об этом тоже думал, но ни к каким выводам особо не пришёл.

Первый мертвец всю жизнь был на хабе с внешним питанием.
Второй был сразу извлечён из бокса и поставлен внутрь.
Третий жил на хабе с внешкой, потом был воткнут напрямую в порт на системнике, ну и теперь внутри доживать будет.

Я пробовал подкинуть к этому HPшному кирпичу стоваттный БП, так эти гады оказывается встроили какую-то систему свой-чужой.
Обычный двухпиновый штекер, но UEFI детектит чужой блок и стартует только после подтверждения, наглухо блокируя цпу на 800Мгц.

aidaho ★★★★★ ()
Ответ на: комментарий от justAmoment

Я же правильно понимаю, что наличие этих двух атрибутов означает присутствие технологии черепичной записи?

Выглядит верно: на этот экземпляр больше писали, чем читали.
Вряд ли это признак SMR, хотя диск действительно SMR.
Я истерик по поводу технологии не закатывал: мне в принципе без разницы, лишь бы работало.

И так как прошивка всё время тусует данные по диску, то может получиться так, что в разные моменты времени на эти бэдблоки будут записаны разные файлы? Или не может?

Вот тут не знаю, что означает блок в диске с SMR.
Если исходить из здравого смысла, то в целях совместимости в SMART должны быть «традиционные» блоки.
Это бы объяснило, как один прогон с остановом длинного self-test принёс 8 Offline Uncorrectable вместо одного.
На самом деле он и есть один, но затрагивает объём данных равный восьми блокам.

Подчёркиваю, что это догадки.

aidaho ★★★★★ ()
Ответ на: комментарий от aidaho

Выглядит верно: на этот экземпляр больше писали, чем читали.

Чтобы никого не пугали 22 тысячи Power_On_Hours: крутился он менее пятиста.
В основном принимал очередную порцию бекапов и выключался.

aidaho ★★★★★ ()

9 Power_On_Hours 0x0032 075 075 000 Old_age Always - 22257 (46 65 0)
192 Power-Off_Retract_Count 0x0032 094 094 000 Old_age Always - 12624
193 Load_Cycle_Count 0x0032 086 086 000 Old_age Always - 29144
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 463 (84 195 0)

Ему можно. Отпусти его.

Suigintou ★★★★ ()

192 Power-Off_Retract_Count 0x0032 094 094 000 Old_age Always - 12624

Питание. Скорее всего, недостаточный ток из порта.

anonymous ()
Ответ на: комментарий от anonymous

Хорошо подмечено.
Жаль, нет смарта второго, который всё время внутри стоял.

Тем временем, badblocks нашёл, то что искал:

oot@optiplex:~# nice -n 19 badblocks -b 4096 -c 262144 -s -n -p 1 -o fatty.badblocks /dev/sda   # non-destructive overwrite test, 1G blocks
Checking for bad blocks (non-destructive read-write test)
Testing with random pattern:  55.61% done, 25:21:49 elapsed. (333/0/0 errors)


root@optiplex:/home/aidaho# smartctl -a /dev/sda 
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-5.9.0-15.1-liquorix-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 2.5 5400
Device Model:     ST5000LM000-2AN170
Serial Number:    WCJ0J7GM
LU WWN Device Id: 5 000c50 0ac7558a8
Firmware Version: 0001
User Capacity:    5,000,981,078,016 bytes [5.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5526 rpm
Form Factor:      2.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Fri Dec 25 14:33:14 2020 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 117) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline 
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 821) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x30a5) SCT Status supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   047   046   006    Pre-fail  Always       -       96097152
  3 Spin_Up_Time            0x0003   100   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   085   085   020    Old_age   Always       -       15658
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   078   060   045    Pre-fail  Always       -       61969591
  9 Power_On_Hours          0x0032   075   075   000    Old_age   Always       -       22277 (70 230 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
183 SATA_Downshift_Count    0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       344
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       4295032858
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   056   049   040    Old_age   Always       -       44 (Min/Max 23/48)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   094   094   000    Old_age   Always       -       12624
193 Load_Cycle_Count        0x0032   086   086   000    Old_age   Always       -       29144
194 Temperature_Celsius     0x0022   044   051   000    Old_age   Always       -       44 (0 20 0 0 0)
195 Hardware_ECC_Recovered  0x001a   080   064   000    Old_age   Always       -       96097152
197 Current_Pending_Sector  0x0012   092   092   000    Old_age   Always       -       2720
198 Offline_Uncorrectable   0x0010   092   092   000    Old_age   Offline      -       2720
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       483 (109 102 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       35459349296
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       26682736978
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0

...

Прямо сейчас диск спамит мне лог и инкрементит Offline_Uncorrectable как на дрожжах.
И судя по всему Pending у этой прошивки — это надмножество Offline_Uncorrectable, а не отдельный параметр.

aidaho ★★★★★ ()
Ответ на: комментарий от aidaho

В dmesg на каждый фейл вот такой кусок:

[143665.037531] ata1.00: exception Emask 0x0 SAct 0x11000000 SErr 0x0 action 0x0
[143665.037532] ata1.00: irq_stat 0x40000008
[143665.037535] ata1.00: failed command: READ FPDMA QUEUED
[143665.037538] ata1.00: cmd 60/c0:e0:e0:a2:dc/02:00:43:01:00/40 tag 28 ncq dma 360448 in
                         res 43/40:c0:e0:a2:dc/00:02:43:01:00/00 Emask 0x409 (media error) <F>
[143665.037538] ata1.00: status: { DRDY SENSE ERR }
[143665.037539] ata1.00: error: { UNC }
[143665.044818] ata1.00: configured for UDMA/133
[143665.044834] sd 0:0:0:0: [sda] tag#28 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=43s
[143665.044835] sd 0:0:0:0: [sda] tag#28 Sense Key : Medium Error [current]
[143665.044837] sd 0:0:0:0: [sda] tag#28 Add. Sense: Unrecovered read error - auto reallocate failed
[143665.044839] sd 0:0:0:0: [sda] tag#28 CDB: Read(16) 88 00 00 00 00 01 43 dc a2 e0 00 00 02 c0 00 00
[143665.044840] blk_update_request: I/O error, dev sda, sector 5433500384 op 0x0:(READ) flags 0x0 phys_seg 88 prio class 2
[143665.044854] ata1: EH complete
aidaho ★★★★★ ()
Ответ на: комментарий от aidaho

похоже в режиме сна (когда блины не крутятся) часы тоже считаются.

Rost ★★★★★ ()

мое мнение: так как hdd очень сложная и хрупкая штуковина, то их (особенно 3,5) лучше покупать в магазинах (лучше в крупных) с хорошей репутацией. и никогда не заказывать по почте - лучше забирать самому. от заводского брака это не спасёт, но шансы что какая-то криворучка могла уронить/стукнуть диск до вас снизится к минимому.

да и еще печалит тот факт, что раньше hdd поставлялись в противоударной пластиковой коробке, а сейчас просто в антистатик заворачивают. видимо не с проста.

Rost ★★★★★ ()
Ответ на: комментарий от aidaho

Хроники пикирующего бомбардировщика:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   043   043   006    Pre-fail  Always       -       103296232
  3 Spin_Up_Time            0x0003   100   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   085   085   020    Old_age   Always       -       15658
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   078   060   045    Pre-fail  Always       -       61989361
  9 Power_On_Hours          0x0032   075   075   000    Old_age   Always       -       22278 (103 57 0)
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
183 SATA_Downshift_Count    0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       824
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       4295032858
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   055   049   040    Old_age   Always       -       45 (Min/Max 23/48)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   094   094   000    Old_age   Always       -       12624
193 Load_Cycle_Count        0x0032   086   086   000    Old_age   Always       -       29144
194 Temperature_Celsius     0x0022   045   051   000    Old_age   Always       -       45 (0 20 0 0 0)
195 Hardware_ECC_Recovered  0x001a   080   064   000    Old_age   Always       -       103296232
197 Current_Pending_Sector  0x0012   081   081   000    Old_age   Always       -       6512
198 Offline_Uncorrectable   0x0010   081   081   000    Old_age   Offline      -       6512
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       484 (141 186 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       35462946920
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       26686338434
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -       0

В этот раз уже минуту думал, прежде чем отдать смарт.
Прошивка не ремапит сектора. У него вообще резерв то есть?

aidaho ★★★★★ ()
Последнее исправление: aidaho (всего исправлений: 1)
Ответ на: комментарий от timdorohin

А то click-of-death насколько мне известно это именно косяк когда винт умудряется перезаписать себе служебные сектора.

нет, это когда винт не видит серворазметку (минимум по одной головке), частично либо полностью. чаще всего - из-за дохлой головы, в т.ч. стершейся на царапине поверхности либо разучившейся читать из-за налипшей на нее грязи. реже - когда сгорел коммутатор/прочие проблемы с электроникой канала чтения. еще реже - когда винт забыл выключить запись во время позиционирования голов, затерев себе все включая сервометки.

NiTr0 ★★★★★ ()
Ответ на: комментарий от aidaho

И судя по всему Pending у этой прошивки — это надмножество Offline_Uncorrectable, а не отдельный параметр.

ну да, пендинги - это все имеющиеся на данный момент проблемные сектора (включая те, которые еще читаются но уже с большим BER), offline uncorrectable - обычно имеются ввиду те, которые найдены при BGMS и не могут быть автоматически переназначены т.к. не читаются.

NiTr0 ★★★★★ ()
Ответ на: комментарий от aidaho

Прошивка не ремапит сектора. У него вообще резерв то есть?

сектора римэпятся при записи в них. badblocks недеструктивный - запись в нечитаемый сектор не вызвает.

не мучьте зверушку если с него данные еще нужны. если там царапина на поверхности - винт может сдохнуть окончательно за считанные часы. если данные ценные (дороже несколько сот $) - несите в датарикавери, если дешевле - пробуйте сами через ddrecovery сначала пропуская битые куски, потом - довычитывая остаток посекторно из битых кусков (если повезет и винт не рассыпется в процессе).

NiTr0 ★★★★★ ()
Ответ на: комментарий от aidaho

non-destructive overwrite test, 1G blocks

Оно случаем не пытается сначала прочитать, потом записать то же самое туда же?

Это не самый лучший вариант, Offline_Uncorrectable появляются тогда, когда ECC не может восстановить данные на секторе.

Тут лучше тупо залить всё нулями и посмотреть уйдут ли они.

timdorohin ★★★ ()
Ответ на: комментарий от NiTr0

Не надо с него ничего.

badblocks недеструктивный - запись в нечитаемый сектор не вызвает.

Разве? Ну ок, сейчас нулями забью.

aidaho ★★★★★ ()
Ответ на: комментарий от timdorohin

При попытке перезаписи нулями диск ушёл в астрал:

[180726.525038] ata1.00: status: { DRDY }
[180726.525039] ata1.00: failed command: WRITE FPDMA QUEUED
[180726.525041] ata1.00: cmd 61/a8:f0:48:c2:7e/00:00:43:01:00/40 tag 30 ncq dma 86016 out
                         res 40/00:01:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[180726.525042] ata1.00: status: { DRDY }
[180726.525042] ata1.00: failed command: WRITE FPDMA QUEUED
[180726.525044] ata1.00: cmd 61/a8:f8:e0:c6:7e/00:00:43:01:00/40 tag 31 ncq dma 86016 out
                         res 40/00:01:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
[180726.525045] ata1.00: status: { DRDY }
[180726.525047] ata1: hard resetting link
[180731.878063] ata1: link is slow to respond, please be patient (ready=0)
[180736.577884] ata1: COMRESET failed (errno=-16)
[180736.577891] ata1: hard resetting link
[180741.938072] ata1: link is slow to respond, please be patient (ready=0)
[180746.625862] ata1: COMRESET failed (errno=-16)
[180746.625866] ata1: hard resetting link
[180751.988050] ata1: link is slow to respond, please be patient (ready=0)
[180781.655980] ata1: COMRESET failed (errno=-16)
[180781.655986] ata1: limiting SATA link speed to 3.0 Gbps
[180781.655987] ata1: hard resetting link
[180786.705747] ata1: COMRESET failed (errno=-16)
[180786.705756] ata1: reset failed, giving up
[180786.705759] ata1.00: disabled
[180786.706874] ata1: EH complete
[180786.706976] sd 0:0:0:0: [sda] tag#7 FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK cmd_age=90s
[180786.706978] sd 0:0:0:0: [sda] tag#7 CDB: Write(16) 8a 00 00 00 00 01 43 7e c6 e0 00 00 00 a8 00 00
[180786.706980] blk_update_request: I/O error, dev sda, sector 5427349216 op 0x1:(WRITE) flags 0x104000 phys_seg 168 prio class 0
[180786.706983] Buffer I/O error on dev sda, logical block 5427349216, lost async page write
root@optiplex:/home/aidaho# smartctl -a /dev/sda -T permissive
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-5.9.0-15.1-liquorix-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

Short INQUIRY response, skip product id

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK
Current Drive Temperature:     0 C
Drive Trip Temperature:        0 C

Read defect list: asked for grown list but didn't get it
Error Counter logging not supported

Device does not support Self Test logging

Но после перезагрузки пациент вновь ожил.
С обнулёнными Reallocated_Sector_Ct, Current_Pending_Sector и Offline_Uncorrectable 0_0

Раз запись в плохие секторы приводит к зависанию прошивки, решил вернуться к badblocks и просто составить карту бедов чтением.
Но твориться какая-то ерунда: уже 75% прочитано, а бедов всё еще нет.
Раньше они кучковались на ~51-52%.

aidaho ★★★★★ ()
Ответ на: комментарий от aidaho

вполне может быть что в прошивке reallocated sector ct всегда нули выводит (вроде встречал такое).

попробуйте badblocks -ws

NiTr0 ★★★★★ ()
Ответ на: комментарий от NiTr0

badblocks -ws

Уже 30% прошёл. Последний прогон, и хватит.
Чтение прошло без запинки, будто всё отремаплено.

Кстати, оказывается, btrfs не может в badblocks.
Дополнительная монетка в копилку более высокой надёжности ext4.

aidaho ★★★★★ ()
Ответ на: комментарий от aidaho

более высокой надёжности ext4.

Это скорее не надёжность, а устойчивость к отдельным сбоям.

За счёт потери ёмкости btrfs может вот такое:

btrfs vs ext4 (комментарий)

greenman ★★★★★ ()
Ответ на: комментарий от aidaho

Уже 30% прошёл. Последний прогон, и хватит.
Чтение прошло без запинки, будто всё отремаплено.

Есть возможность запустить mhdd?

justAmoment ★★★★★ ()
Ответ на: комментарий от justAmoment

Это под винду же.
Хватит красноглазить, праздновать пора.
Отдал его на растерзание qbittorrent для общественно полезного сидинга.

aidaho ★★★★★ ()

Power_On_Hours 22257
Temperature_Celsius 47

Охлаждается хреново, вот и отдал концы.

Контакты на плате пробовал протирать? Тупой совет, но мне несколько раз помогало.

Radjah ★★★★★ ()
Ответ на: комментарий от aidaho

Это под винду же.

Он после биоса сразу с флоппика грузится. Безо всяких прослоек в виде виндов и линуксов.

https://ihdd.ru/mhdd

Выбираешь диск Shift-F3. Лучше все остальные диски на время тестирования отключить физически. Смотришь смарт по F8. Запускаешь тестирование сначала просто на чтение F4-F4. В твоём случае дожидаться полного чтения необязательно. Смотришь на каких адресах секторов начнёт спотыкаться. Фиксируешь адреса на фото(бумагу). Останавливаешь тест. Смотришь смарт. Запускаешь снова тест F4 уже на remap и указываешь адреса от плюс/минус вокруг найденных адресов F4. Смотришь смарт. Запускаешь снова тест F4 ставишь erasewaits на тех же адресах F4. Смотришь смарт. Снимаешь питание с диска для его перезапуска. Снова подключаешь. Повторяешь процедуру. Смарт. Remap. Смарт. EraseWaits. Смарт.

Делаешь выводы: капец котёнку или ещё поживёт.

PS Если материнка только в UEFI умеет без поддержки Legasy BIOS, то mhdd работать не будет.

justAmoment ★★★★★ ()
Ответ на: комментарий от justAmoment

Есть еще whdd под Linux.
Правда сколь-либо обширного опыта с ним у меня нет, ничего не могу сказать про эффективность в сравнении с mhdd.

bormant ★★★★★ ()
Ответ на: комментарий от justAmoment

Если материнка только в UEFI умеет без поддержки Legasy BIOS, то mhdd работать не будет

Легаси как бы есть, но только для внутренних девайсов.
А с внешки DELLовский (вверху по ошибке обозвал HP, бо стоит за стеной в боксе) моноблок грузит только код, окроплённый цифровой подписью MS.

Не рекомендую, короче.

aidaho ★★★★★ ()
Ограничение на отправку комментариев: только для зарегистрированных пользователей