LINUX.ORG.RU

Файловая система переходит в read-only режим

 , , , ,


1

1

В последнее время компьютер с Ubuntu 23.04 на борту стал себя чувствовать плохо. Периодически подвисает и только перезагрузка помогает вернуть его в чувство, но не всегда надолго. Я заметил, что это возникает при активном использовании нескольких окон Google Chrome, но не уверен в этом на 100%.

После некоторых экспериментов я выяснил, что файловая система с ОС переходит в режим только для чтения прямо во время работы. Чем это вызвано я и хочу выяснить и исправить. Захватил скриншот лога, который показывается при загрузке сразу после одного из таких инцидентов. И вот еще последние записи в системном логе непосредственно до перезагрузки.

В администрировании Linux разбираюсь на уровне продвинутого пользователя, поэтому прошу направить меня в нужном направлении. Если нужны дополнительные логи для анализа, прошу описать как их вытащить, какими именно командами.

UPDATE: Вот, я сумел сделать фото системного лога перед очередной перезагрузкой. Проблема в том, что после перезагрузки, этот лог затирается нулями и вытащить его в текстовом виде уже невозможно.



Последнее исправление: majus (всего исправлений: 1)

Замени кабель диска или сам диск, скорее всего дело в этом. read-only это защитная реакция на аппаратные ошибки записи, чтобы не запороть данные на диске.

Ну и уточни что за диск.

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 2)

Имеются многочисленные повреждения ФС после загрузки. Это ЖЖЖ неспроста... Обычно горячее отключение менее деструктивно. При чём тут непонятные проблемы с Х-библиотеками - не знаю, но возможно они следствие а не причина.

В первую очередь препарируй диск. Ну, как полагается, данные и систему забэкапить, диск прогнать через тесты записи-чтения. Для ssd - подумать надо, может не бэдблоком а какой нибудь бенчмарк хаотичного мелкоблочного теста. Всё это желательно на другом компе.

А потом, если железо ОК, начинать разбирать ситему на предмет сбойных приложений.

kirill_rrr ★★★★★
()
Последнее исправление: kirill_rrr (всего исправлений: 1)
Ответ на: комментарий от firkax

Диск вот этот:

*-nvme
  description: NVMe device
  product: Samsung SSD 980 PRO 500GB
  vendor: Samsung Electronics Co Ltd
  physical id: 0
  bus info: pci@0000:01:00.0
  logical name: /dev/nvme0
  version: 2B2QGXA7
  serial: S5GYNG0NC35693N
  width: 64 bits
  clock: 33MHz
  capabilities: nvme nvm_express bus_master cap_list
  configuration: driver=nvme latency=0 nqn=nqn.1994-11.com.samsung:nvme:980PRO:M.2:S5GYNG0NC35693N state=live
  resources: irq:40 memory:fce00000-fce03fff
majus
() автор топика
Ответ на: комментарий от annulen

Я запускал memtest86+ на полчаса примерно и ошибок не было. Правда, это было несколько месяцев назад. Стоит ли запустить заново и оставить на ночь, например?

majus
() автор топика
Ответ на: комментарий от Aceler

Вот:

$ sudo smartctl -a /dev/nvme0
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.2.0-37-generic] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       Samsung SSD 980 PRO 500GB
Serial Number:                      S5GYNG0NC35693N
Firmware Version:                   2B2QGXA7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 500,107,862,016 [500 GB]
Unallocated NVM Capacity:           0
Controller ID:                      6
NVMe Version:                       1.3
Number of Namespaces:               1
Namespace 1 Size/Capacity:          500,107,862,016 [500 GB]
Namespace 1 Utilization:            352,228,683,776 [352 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 bc01518317
Local Time is:                      Fri Dec  1 10:33:27 2023 +03
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x0057):     Comp Wr_Unc DS_Mngmt Sav/Sel_Feat Timestmp
Log Page Attributes (0x0f):         S/H_per_NS Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg
Maximum Data Transfer Size:         128 Pages
Warning  Comp. Temp. Threshold:     82 Celsius
Critical Comp. Temp. Threshold:     85 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     8.49W       -        -    0  0  0  0        0       0
 1 +     4.48W       -        -    1  1  1  1        0     200
 2 +     3.18W       -        -    2  2  2  2        0    1000
 3 -   0.0400W       -        -    3  3  3  3     2000    1200
 4 -   0.0050W       -        -    4  4  4  4      500    9500

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        39 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    6%
Data Units Read:                    8,684,257 [4.44 TB]
Data Units Written:                 34,163,424 [17.4 TB]
Host Read Commands:                 282,003,178
Host Write Commands:                1,354,419,587
Controller Busy Time:               23,279
Power Cycles:                       733
Power On Hours:                     1,806
Unsafe Shutdowns:                   155
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               39 Celsius
Temperature Sensor 2:               48 Celsius

Error Information (NVMe Log 0x01, 16 of 64 entries)
No Errors Logged
majus
() автор топика

Я добавил в пост ссылку на фото системного лога сразу после инцидента и до ручной перезагрузки.

majus
() автор топика
Ответ на: комментарий от alex1101

Да, комп на AMD CPU:

*-cpu
  product: AMD Ryzen 3 3100 4-Core Processor
  vendor: Advanced Micro Devices [AMD]
  physical id: 1
  bus info: cpu@0
  version: 23.113.0
  size: 2200MHz
  capacity: 3905MHz
  width: 64 bits
  capabilities: fpu fpu_exception wp vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp x86-64 constant_tsc rep_good nopl nonstop_tsc cpuid extd_apicid aperfmperf rapl pni pclmulqdq monitor ssse3 fma cx16 sse4_1 sse4_2 movbe popcnt aes xsave avx f16c rdrand lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt tce topoext perfctr_core perfctr_nb bpext perfctr_llc mwaitx cpb cat_l3 cdp_l3 hw_pstate ssbd mba ibpb stibp vmmcall fsgsbase bmi1 avx2 smep bmi2 cqm rdt_a rdseed adx smap clflushopt clwb sha_ni xsaveopt xsavec xgetbv1 cqm_llc cqm_occup_llc cqm_mbm_total cqm_mbm_local clzero irperf xsaveerptr rdpru wbnoinvd arat npt lbrv svm_lock nrip_save tsc_scale vmcb_clean flushbyasid decodeassists pausefilter pfthreshold avic v_vmsave_vmload vgif v_spec_ctrl umip rdpid overflow_recov succor smca sev sev_es cpufreq
  configuration: microcode=141561889
majus
() автор топика
Ответ на: комментарий от alex1101

Да, у меня тоже такое было, диск на платформе AMD уходил в сон и не возвращался. Я сдал его как бракованный, купил другую модель.

Aceler ★★★★★
()
Ответ на: комментарий от firkax

Лет пятнадцать назад была со мной такая история. Решил я проапгредить оперативку у ноута (тогда их ещё не распаивали), купил две плашки, которые по всем характеристикам должны были подходить. Прямо в магазине поставил её, сел и полчаса гонял мемтест, чтобы точно всё выявить сразу. Ничего не нашлось. Потом временами стали возникать подозрительные кернел паники. Поставил старую плашку — прекратились. Как-то так.

annulen ★★★★★
()
Ответ на: комментарий от majus

2B2QGXA7

А актуальная - 5B2QGXA7 (т.е. между ними были 3B2QGXA7 и 4B2QGXA7). iso с сайта можно разобрать, вытащить оттуда прошивку и прошивалку https://wiki.gentoo.org/wiki/Samsung_SSD_Firmware и обновиться прямо из-под хостового Linux.

https://www.pugetsystems.com/support/guides/critical-samsung-ssd-firmware-update/

Очередное подтверждение тезиса «следите за прошивками SSD и обновляйте их».

Dimez ★★★★★
()
Последнее исправление: Dimez (всего исправлений: 4)
Ответ на: комментарий от firkax

Замени кабель диска

Заменить кабель у nvme ssd - это хорошо :)

Dimez ★★★★★
()
Ответ на: комментарий от Dimez

Воу, и там прямо в первом абзаце моя история:

As with any other piece of software, it is important to occasionally update the firmware on an SSD to ensure that the device is protected from any known firmware bugs; for example the issues with 980 Pro devices failing into read-only mode unexpectedly.

Кажется, это попадание в точку. Буду пробовать обновляться. Спасибо!

majus
() автор топика
Ответ на: комментарий от firkax

У меня отключения питания и далеко не всегда в режиме простоя - иногда это перепаковка архивов или ещё что. Плюс бывают зависания видеодрайвера, но этих я нацчился избегать.

kirill_rrr ★★★★★
()
Ответ на: комментарий от majus

Почитай по этому багу, что-то припоминаю, что обновляться надо было сразу после покупки, а сейчас уже флеш сдох, поздно.

vbr ★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.