LINUX.ORG.RU

Ext4-fs-error. Journal has aborted. Чистый S.M.A.R.T.

 , , , ,


0

1

Привет, ЛОР.

Возникла следующая проблема.

Есть мини-пк, который выступает в роли сервера с docker контейнерами для домашнего использования (Immich, Jellyfin, cgit, etc.)

Железка - MinisForum UM690S (модель SSD достоверно узнать нельзя, SMART для нее очень обрезанный)

Почти год система работала идеально, 0 сбоев.

Вчера обнаружил зависание, ни один сервис не был доступен, по SSH коннекта не было, подключив физически монитор увидел это (https://0x0.st/KSPu.jpg).

SMART докладывает что все чисто, ошибки все по нулям (Но он какой-то куцый, на Samsung у меня атрибутов намного больше).

В логах за ту сессию аптайма вообще ничего интересного, просто в 12:00:03 UTC сообщения прекращаются, никаких ошибок до этого нет.

Собственно, главный вопрос: Можно ли утверждать, что возникновение этой ошибки обязательно означает умирающий диск и что его пора менять?

★★★★★

Последнее исправление: Jefail (всего исправлений: 2)

SMART для нее очень обрезанный

и nvme-шные журналы тоже? smartctl -l error или nvme error-log что-то осмысленное говорят?

alegz ★★★★★
()

Вероятно, да. Диск ушёл в ro и начал сыпать ошибками. Сомневаюсь что на m2-pci такие ошибки могли быть из-за порта - это вероятно бы по другому проявлялось. К тому же если диск безымянный...

mittorn ★★★★★
()
Последнее исправление: mittorn (всего исправлений: 1)

Я бы с замены SSD начал, пока он читается.

модель SSD достоверно узнать нельзя, SMART для нее очень обрезанный

И хорошо бы это сделать сразу после покупки устройства.

Radjah ★★★★★
()
Ответ на: комментарий от mittorn

Понял, тогда буду менять, спасибо. За данные не переживаю, поскольку сервер выступает лишь прослойкой, все данные лежат на NAS, в котором энтерпрайзный Seagate, который бэкапится по 3-2-1 стратегии.

сс: @Radjah

Jefail ★★★★★
() автор топика
Ответ на: комментарий от Jefail

Один главных признаков совсем шляпного SSD - неизменная температура в SMART. Ты можешь его гонять в хост и гриву, а он будет тебе выдавать 42 градуса. Можешь его подержать у окна, а при включении он будет показывать те же 42 градуса.

Data Units Read:                    963,864 [493 GB]
Data Units Written:                 6,506,265 [3.33 TB]
Host Read Commands:                 11,872,709
Host Write Commands:                63,951,362
Controller Busy Time:               19,388
Power Cycles:                       125
Power On Hours:                     323

Ну это вообще не нагрузка, если не врёт. Как будто поставили заглушку, чтобы в разъём пыль не попадала.

Radjah ★★★★★
()
Ответ на: комментарий от Radjah

не просто так эти микрокомпы продаются сейчас часто без SSD. Эти одноразовые диски - тот ещё прогрев

mittorn ★★★★★
()
Ответ на: комментарий от nicholas_ru

Так, а смысл мне ее ремонтировать, если диск железно помирает? Вопрос был лишь в том, могли ли быть другие причины у этого явления, судя по всему нет, так что диск под замену не думая.

Jefail ★★★★★
() автор топика

На скриншоте ругать на невозможность прочитать блок 0. Это признак потери связи с диском. Проверь провода.

legolegs ★★★★★
()
Ответ на: комментарий от nicholas_ru

Обращение чего к чему? В таком случае это либо баг ядра, либо баг в коде ФС, либо баг в прошивке SSD, учитывая что система в такой конфигурации работает почти год, это можно исключить.

Jefail ★★★★★
() автор топика
Ответ на: комментарий от Radjah

Хмм, а вот это уже хуже. Как можно дифференциировать одно от другого? Лишнего диска, который можно было бы вставить для теста, у меня нет, а купить новый и понять что проблема не в нем - такое себе.

Jefail ★★★★★
() автор топика
Ответ на: комментарий от Jefail

Обычно рекомендуют мониторить температуру контроллера и памяти. Они от высокой температуры большой могут начать дуреть. Высокая - это примерно 65+.

Если на SSD ничего нет, но на том же OZON закажи для него радиатор. Ему чуток полегче будет тяготы жизни переносить.

Radjah ★★★★★
()
Последнее исправление: Radjah (всего исправлений: 1)
Ответ на: комментарий от Radjah

Я не думаю что это температура, просто потому что на сервере развернуты достаточно легкие сервисы. Учитывая мощность, там процессор почти всегда на холостых работает. Тот же Jellyfin делает в тупую Direct Play и это не сильно его нагружает.

Jefail ★★★★★
() автор топика
Ответ на: комментарий от Jefail

Да, который на SSD.

У меня есть коробка, в которой SSD вообще никак не обдувается. Он там просто сам по себе может до 70 кочегарить. Я к нему радиатор прилепил, но особо легче не стало.

Radjah ★★★★★
()
Ответ на: комментарий от Radjah

А, тогда ок, т.е. в любом случае замена диска решит проблему. Я просто думал, что отъехать может что-то еще по соседству, это уже не так весело.

Jefail ★★★★★
() автор топика
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.