LINUX.ORG.RU

Ubuntu 18.04 LTS отваливается системный SSD через 1-1.5 недели

 , ,


2

1

Привет всем! Не могу понять с чем связано, но стабильно через 1-1.5 недели отваливается системный SSD. Причем в journalctl -p err ничего не отображается, что могло послужить этому. Пару раз успел на консольном мониторе только увидеть что-то вроде i/o error на sda и все. По reset на корпусе при перезагрузке SSD не появляется в списке дисков. После выключения питания и повторного включения - диск ssd появляется и система успешно загружается. TRIM включен, SMART диск проходит успешно. В BIOS режим AHCI, прошивка на мать последняя, кабель SATA, питание, проверены. Буду рад любым советам!

По reset на корпусе при перезагрузке SSD не появляется в списке дисков. После выключения питания и повторного включения - диск ssd появляется и система успешно загружается.

Было абсолютно тоже самое с Intel 530. Перетыкал в разные SATA порты, кабеля менял. И то, сё… систему раз в неделю переустанавливал, ибо билась. И из BIOS SSD пропадал в таких случаях.

Короче плюнул, купил новый SSD.

Тот глючащий до сих пор отлично работает в другом ПК с Windows 10 уже шесть лет как.

Ну и два купленных SSD в компьютере, где глюки были тоже отлично работают уже шесть лет как…

В сервис SSD отнёс — сказали отличный.

Апгрейдов BIOS не было.

Только Линукс обновлялся и ядро к нему. Наверно что-то там натворили, что SSD раком встаёт.

fornlr ★★★★★ ()
Последнее исправление: fornlr (всего исправлений: 4)

Была такая проблема со старым кингстоном на 120 гиг. Купил новый, тот воткнул на работу - оба работают без проблем. Версии ОС совершенно одинаковые.

Бывает, видимо, какая-то нелюбовь между комплектующими.

izzholtik ★★★ ()

Было подобное с ssd от amd. После сбоя питания переставал определяться, через пару дней как ни в чем ни бывало определялся снова. Помогла только замена.

frunobulax ()

Ребят, вот, что я сделал.

  1. БП проверил, выдает напряжение стабильно. Мерил калиброванным мультиметром Fluke.
  2. Кабель SATA включал в другой разъем, но система не загружалась с ним.
  3. Сам кабель SATA менял тоже на другой. SSD Kingston 60 Gb. До этого стояла CentOS с аптаймом в 2 года. Все было ок. Сам грешу на SSD. Больше ничего не остается. Пугает только то, что вгрохивать придется кучу времени на перенос системы. Там nginx поднят с десятком сайтов. Есть еще мысли, что можно попробовать?? Реально очень задолбало.
alvian ()
Ответ на: комментарий от alvian

Перенести раздел через гпартед не так уж и долго. А вообще стоит начать с прошивок этого сэсэдэ, начиная с первой. Ну либо поставить нормальный дистрибутив и посмотреть как на нем все будет работать. Он может просто неправильно уходит в энергосбережение, а в новых ядрах его поотрубали вроде как и должно перестать колбасить. Но все же бубунта корявая из-за шпионящего функционала в том числе. Так что перенести систему стоит. Как вариант коребут прошить. Биосы тоже корявые бывают и потому с линуксами не очень дружат. Ну а ставить точный диагноз на расстоянии никто не в состоянии. Сказал бы сразу, что центос работал нормально и все было бы ясно. Но если очень хочется бубунту, то вперед портировать коребут и возиться с прошивками - авось поможет.

anonymous ()
Ответ на: комментарий от alvian

SSD Kingston 60 Gb

Есть еще мысли, что можно попробовать??

Тут даже думать нечего — замена SSD. Можно даже тупо раздел склонировать на новый.

Стоимость ковыряния с ним перевесит легко цену нового SSD минимального размера.

fornlr ★★★★★ ()
Последнее исправление: fornlr (всего исправлений: 1)
Ответ на: комментарий от alvian

т.е. я могу подключить новый SSD, размечу например его на 1 диск и после этого создам клон старого SSD?

Полный клон создается одной командой dd. 15 мин работы. Ничего размечать на чистом(грязном) диске не нужно.

# dd if=/dev/rdsk/device-name of=/dev/rdsk/device-name bs=block-size


if=/dev/rdsk/device-name

Represents the overlap slice of the master disk device, usually slice 2. 

of=/dev/rdsk/device-name

Represents the overlap slice of the clone disk device, usually slice 2. 

bs=blocksize

Identifies block size, such as 128 Kbytes or 256 Kbytes. A large block size value decreases the time it takes to copy. 
Rx0 ()
Последнее исправление: Rx0 (всего исправлений: 1)
Ответ на: комментарий от anti_win

=== START OF INFORMATION SECTION === Model Family: SandForce Driven SSDs Device Model: KINGSTON SV300S37A60G Serial Number: 50026B724A06CDC3 LU WWN Device Id: 5 0026b7 24a06cdc3 Firmware Version: 580ABBF0 User Capacity: 60,022,480,896 bytes [60.0 GB] Sector Size: 512 bytes logical/physical Rotation Rate: Solid State Device Device is: In smartctl database [for details use: -P show] ATA Version is: ATA8-ACS, ACS-2 T13/2015-D revision 3 SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Tue May 12 14:36:21 2020 MSK SMART support is: Available - device has SMART capability. SMART support is: Enabled

alvian ()
Ответ на: комментарий от alvian

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.0-99-generic] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION === Model Family: SandForce Driven SSDs Device Model: KINGSTON SV300S37A60G Serial Number: 50026B724A06CDC3 LU WWN Device Id: 5 0026b7 24a06cdc3 Firmware Version: 580ABBF0 User Capacity: 60,022,480,896 bytes [60.0 GB] Sector Size: 512 bytes logical/physical Rotation Rate: Solid State Device Device is: In smartctl database [for details use: -P show] ATA Version is: ATA8-ACS, ACS-2 T13/2015-D revision 3 SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Tue May 12 14:37:19 2020 MSK SMART support is: Available - device has SMART capability. SMART support is: Enabled

=== START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED

General SMART Values: Offline data collection status: (0x02) Offline data collection activity was completed without error. Auto Offline Data Collection: Disabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 0) seconds. Offline data collection capabilities: (0x7d) SMART execute Offline immediate. No Auto Offline data collection support. Abort Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 48) minutes. Conveyance self-test routine recommended polling time: ( 2) minutes. SCT capabilities: (0x0025) SCT Status supported. SCT Data Table supported.

SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x0032 095 095 050 Old_age Always - 2/5846695 5 Retired_Block_Count 0x0033 099 099 003 Pre-fail Always - 0 9 Power_On_Hours_and_Msec 0x0032 069 069 000 Old_age Always - 27309h+01m+28.090s 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 488 171 Program_Fail_Count 0x000a 100 100 000 Old_age Always - 0 172 Erase_Fail_Count 0x0032 100 100 000 Old_age Always - 0 174 Unexpect_Power_Loss_Ct 0x0030 000 000 000 Old_age Offline - 171 177 Wear_Range_Delta 0x0000 000 000 000 Old_age Offline - 98 181 Program_Fail_Count 0x000a 100 100 000 Old_age Always - 0 182 Erase_Fail_Count 0x0032 100 100 000 Old_age Always - 0 187 Reported_Uncorrect 0x0012 100 100 000 Old_age Always - 0 189 Airflow_Temperature_Cel 0x0000 034 046 000 Old_age Offline - 34 (Min/Max 22/46) 194 Temperature_Celsius 0x0022 034 046 000 Old_age Always - 34 (Min/Max 22/46) 195 ECC_Uncorr_Error_Count 0x001c 100 100 000 Old_age Offline - 2/5846695 196 Reallocated_Event_Count 0x0033 099 099 003 Pre-fail Always - 0 201 Unc_Soft_Read_Err_Rate 0x001c 100 100 000 Old_age Offline - 2/5846695 204 Soft_ECC_Correct_Rate 0x001c 100 100 000 Old_age Offline - 2/5846695 230 Life_Curve_Status 0x0013 100 100 000 Pre-fail Always - 100 231 SSD_Life_Left 0x0013 094 094 010 Pre-fail Always - 1 233 SandForce_Internal 0x0032 000 000 000 Old_age Always - 4910 234 SandForce_Internal 0x0032 000 000 000 Old_age Always - 3747 241 Lifetime_Writes_GiB 0x0032 000 000 000 Old_age Always - 3747 242 Lifetime_Reads_GiB 0x0032 000 000 000 Old_age Always - 465

SMART Error Log not supported

SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error

1 Extended offline Completed without error 00% 26901 -

2 Extended offline Completed without error 00% 18816 -

3 Short offline Completed without error 00% 13936 -

SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

alvian ()
Ответ на: комментарий от anti_win
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.0-99-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     SandForce Driven SSDs
Device Model:     KINGSTON SV300S37A60G
Serial Number:    50026B724A06CDC3
LU WWN Device Id: 5 0026b7 24a06cdc3
Firmware Version: 580ABBF0
User Capacity:    60,022,480,896 bytes [60.0 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS, ACS-2 T13/2015-D revision 3
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue May 12 14:43:19 2020 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x7d) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Abort Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  48) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x0025) SCT Status supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x0032   095   095   050    Old_age   Always       -       2/5847009
  5 Retired_Block_Count     0x0033   099   099   003    Pre-fail  Always       -       0
  9 Power_On_Hours_and_Msec 0x0032   069   069   000    Old_age   Always       -       27309h+07m+27.580s
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       488
171 Program_Fail_Count      0x000a   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
174 Unexpect_Power_Loss_Ct  0x0030   000   000   000    Old_age   Offline      -       171
177 Wear_Range_Delta        0x0000   000   000   000    Old_age   Offline      -       98
181 Program_Fail_Count      0x000a   100   100   000    Old_age   Always       -       0
182 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0012   100   100   000    Old_age   Always       -       0
189 Airflow_Temperature_Cel 0x0000   034   046   000    Old_age   Offline      -       34 (Min/Max 22/46)
194 Temperature_Celsius     0x0022   034   046   000    Old_age   Always       -       34 (Min/Max 22/46)
195 ECC_Uncorr_Error_Count  0x001c   100   100   000    Old_age   Offline      -       2/5847009
196 Reallocated_Event_Count 0x0033   099   099   003    Pre-fail  Always       -       0
201 Unc_Soft_Read_Err_Rate  0x001c   100   100   000    Old_age   Offline      -       2/5847009
204 Soft_ECC_Correct_Rate   0x001c   100   100   000    Old_age   Offline      -       2/5847009
230 Life_Curve_Status       0x0013   100   100   000    Pre-fail  Always       -       100
231 SSD_Life_Left           0x0013   094   094   010    Pre-fail  Always       -       1
233 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       4910
234 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       3747
241 Lifetime_Writes_GiB     0x0032   000   000   000    Old_age   Always       -       3747
242 Lifetime_Reads_GiB      0x0032   000   000   000    Old_age   Always       -       465

SMART Error Log not supported

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     26901         -
# 2  Extended offline    Completed without error       00%     18816         -
# 3  Short offline       Completed without error       00%     13936         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.```
alvian ()
Ответ на: комментарий от alvian

Хорошо. В логе ничего криминального нет. Были две ошибки чтения, скорректированные программно. Убедись, что твой девайс поддерживает discard и добавляй его в опции монтирования в fstab.

anti_win ★★ ()
Последнее исправление: anti_win (всего исправлений: 1)
Ответ на: комментарий от Deleted

https://wiki.debian.org/SSDOptimization

Some firmware versions on some SSD models have bugs that result in data corruption when used in certain ways. For this reason the Linux ata driver maintains a «blacklist» of certain things it shouldn't do on certain drive/firmware combinations. This list is in the linux source at drivers/ata/libata-core.c. If you have a blacklisted controller/drive combination, you are at risk until a newer kernel avoids the problem.

In particular, many drives, including Samsung, Micron, Crucial have problems with discard/TRIM. Also see 790520

Make sure you review the latest version of that file for your model, and if present then make sure it's also in the version of the kernel you intend to run or find some other way to avoid the problems (like not using discard/TRIM, or a particular firmware version).
targitaj ★★★★★ ()
Ответ на: комментарий от alvian

Firmware Version: 580ABBF0

Говносандфорс. Радуйся, что так долго прожил. У меня даже на eMLC сандфорсы уже из строя стали выходить в прошлом/этом году.

anonymous ()
Ответ на: комментарий от alvian

Device Model: KINGSTON SV300S37A60G

Firmware Version: 580ABBF0

Тут всё тоже самое, кстати :)

https://www.kingston.com/ru/support/technical/downloads/90683

«Firmware Revision 60AABBF0 –May 28th, 2016»

Обновление прошивки вышло 4 чёртовых года назад, а пользователю пофиг.

anonymous ()
Ответ на: комментарий от anonymous

А так про всё можно сказать. И в 2015 году, когда Samsung с ядерными этими кидались — а кто виноват. В итоге все оказались.

Бабахает. Хотя большинство пронесёт конечно.

fornlr ★★★★★ ()
Последнее исправление: fornlr (всего исправлений: 2)
Ответ на: комментарий от anonymous
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.0-99-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     SandForce Driven SSDs
Device Model:     KINGSTON SV300S37A60G
Serial Number:    50026B724A06CDC3
LU WWN Device Id: 5 0026b7 24a06cdc3
Firmware Version: 60AABBF0
User Capacity:    60,022,480,896 bytes [60.0 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS, ACS-2 T13/2015-D revision 3
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Tue May 12 17:30:23 2020 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x02) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x7d) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Abort Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  48) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x0025) SCT Status supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x0032   120   120   050    Old_age   Always       -       2/0
  5 Retired_Block_Count     0x0033   099   099   003    Pre-fail  Always       -       0
  9 Power_On_Hours_and_Msec 0x0032   069   069   000    Old_age   Always       -       27311h+45m+34.600s
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       490
171 Program_Fail_Count      0x000a   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
174 Unexpect_Power_Loss_Ct  0x0030   000   000   000    Old_age   Offline      -       172
177 Wear_Range_Delta        0x0000   000   000   000    Old_age   Offline      -       98
181 Program_Fail_Count      0x000a   100   100   000    Old_age   Always       -       0
182 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0012   100   100   000    Old_age   Always       -       0
189 Airflow_Temperature_Cel 0x0000   033   046   000    Old_age   Offline      -       33 (Min/Max 22/46)
194 Temperature_Celsius     0x0022   033   046   000    Old_age   Always       -       33 (Min/Max 22/46)
195 ECC_Uncorr_Error_Count  0x001c   120   120   000    Old_age   Offline      -       2/0
196 Reallocated_Event_Count 0x0033   099   099   003    Pre-fail  Always       -       0
201 Unc_Soft_Read_Err_Rate  0x001c   120   120   000    Old_age   Offline      -       2/0
204 Soft_ECC_Correct_Rate   0x001c   120   120   000    Old_age   Offline      -       2/0
230 Life_Curve_Status       0x0013   100   100   000    Pre-fail  Always       -       100
231 SSD_Life_Left           0x0013   093   093   010    Pre-fail  Always       -       1
233 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       4912
234 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       3749
241 Lifetime_Writes_GiB     0x0032   000   000   000    Old_age   Always       -       3749
242 Lifetime_Reads_GiB      0x0032   000   000   000    Old_age   Always       -       465

SMART Error Log not supported

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     26901         -
# 2  Extended offline    Completed without error       00%     18816         -
# 3  Short offline       Completed without error       00%     13936         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Обновил :)) Сейчас у меня в монтировании:

/dev/mapper/ubuntu--vg-root /   ext4 errors=remount-ro,noatime,nodiratime,commit=60  0  1

Добавить discard так:

/dev/mapper/ubuntu--vg-root /   ext4 errors=remount-ro,discard,noatime,nodiratime,commit=60  0  1
alvian ()
Ответ на: комментарий от alvian

Да, либо discard в fstab, либо включить таймер fstrim.

Я предпочитаю discard.

P.S. А зачем на одном диске, да ещё и таком маленьком, лишняя прослойка в виде lvm? В /etc/lvm/lvm.conf тоже надо убедиться, что «issue_discards = 1» стоит.

anonymous ()
Ответ на: комментарий от fornlr

Бессмысленно, на плохо стабильном SSD может легко привести только к дополнительному бабаху

Смысленно. Диск - очень мелкий, с таймером «раз в неделю» при интенсивном файлообмене получится жопа в виде write amplification (что мы, собственно, скорее всего и видим по сильному перекосу в сторону write)

anonymous ()