LINUX.ORG.RU
ФорумAdmin

IO error. Зависание и перегрев MiniPC

 , , , ,


1

1

Добрый день.

Имеется трёхгодовалая хост система с Debian 9>10>11 и гипервизором Proxmox 5>7 версий на мини пк Qotom. Первоначально задавал вопрос на самом форуме, но помощь не получил.

Проблема заключается в том, что после включения рандомно через 3-8 часов машина полностью зависает и начинается жёсткий нагрев по всему корпусу. Началось 1.5 недели назад. После перезагрузки все виртуалки поднимаются и всё работает без проблем.

Во время падения всего я заснял ошибки, который выдавались через HDMI:

Ошибка IO

Нет доступа к файлу логов

За не имения достаточного опыта и понимания внутренностей линукса, я не смог решить проблему через гугл со службой systemd-journald

Так же выдал гипотезу по износу SSD диска (во втором моем сообщении в первоисточнике). В спецификации используемого компонента указано 544 TBW for 512GB, а у меня уже 885035 GiB на 256 модели. Но процент износа всего 8% по смарту.

Прошу помощи в диагностике проблемы, может и не в mSATA проблема. Обновление до актуальной версии 7.1 с новым ядром, что вышла после поста на форуме - проблему не решило. Я проганял SSD через тесты Виктории - плохих блоков не обнаружено.

К сожалению, зашёл в тупик и пока только занимаюсь ручной перезагрузкой. Жаль, что ночью только ПК находится в критических температурах.

Может есть возможность скриптом автоматизировать перезагрузку хотя бы на первом этапе?

а у меня уже 885035 GiB на 256 модели. Но процент износа всего 8% по смарту.

Уверен что это износ 8% а не остаток?

Я проганял SSD через тесты Виктории - плохих блоков не обнаружено.

И не обнаружит, это тест для hdd.

IO error это проблема с накопителем. А греется от того что спам ошибками начинается в цикле. Смонтируй (временно) /var/log/journal в tmpfs, и поверь что открытых файлов по этому пути на ssd не остаётся - тогда journald перестанет спамить и можно будет увидеть предысторию, возможно.

К сожалению, зашёл в тупик и пока только занимаюсь ручной перезагрузкой.

Скорее всего, надо не этим заниматься и уж тем более не автоматизировать её (приближая итоговый конец), а срочно менять ssd пока он не забрал с собой все данные.

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 1)
Ответ на: комментарий от firkax

Уверен что это износ 8% а не остаток?

Да, SSD Life Left: 92%

И не обнаружит, это тест для hdd.

Крайние версии ведь работают и с SSD, грузился с виндовой спасательной флешки. Какие есть рабочие варианты достоверно проверить диск на аппаратном уровне?

Смонтируй (временно) /var/log/journal в tmpfs, и поверь что открытых файлов по этому пути на ssd не остаётся - тогда journald перестанет спамить и можно будет увидеть предысторию, возможно.

Спасибо, попробую и понаблюдаю.

aladygin
() автор топика
Ответ на: комментарий от aladygin

Крайние версии ведь работают и с SSD, грузился с виндовой спасательной флешки. Какие есть рабочие варианты достоверно проверить диск на аппаратном уровне?

SSD аппаратный уровень прячет за контроллером, особо ничего не проверить.

firkax ★★★★★
()
Ответ на: комментарий от firkax

Скорее всего, надо не этим заниматься и уж тем более не автоматизировать её (приближая итоговый конец), а срочно менять ssd пока он не забрал с собой все данные.

А вообще это нормально ли, что в день писалось почти 1TB данных? Запущены только Pfsense и пара бытовых виртуалок. Это у кого такое логгирование или что может быть?

Хотя может китайцы и не новый диск вставляли, кто их знает. Это не проверялось при покупке. Диск новый заказываю, да. Бэкапы виртуалок есть на NAS + я сделал реплику ssd на 2.5 HDD, но не запускал без SSD еще.

В общем тут еще вопросы как оптимизировать процессы по записи данных.

aladygin
() автор топика
Ответ на: комментарий от firkax

И не обнаружит, это тест для hdd.

Прошу разъяснить, почему так..? Какая разница SSD или HDD, если мы просто пробуем прочитать данные и сообщаем о неудаче?

DALDON ★★★★★
()
Ответ на: комментарий от aladygin

Прокс показывает графики записи чтения в веб. морде. - Как минимум, посмотри по истории чего там. Так же zfs имеет утилиты мониторинга по данным. - Ну и я как-то считал кол-во данных которые процесс пишет, читает. - Не могу вспомнить команду… Очень хорошо отлавливает мерзавцев :)

DALDON ★★★★★
()
Ответ на: комментарий от aladygin

Крайние версии ведь работают и с SSD

Ты взял версию не с того края

vasya_pupkin ★★★★★
()
Ответ на: комментарий от aladygin

А вообще это нормально ли, что в день писалось почти 1TB данных?

iotop в помощь, как на хосте так и на виртуалках.

einhander ★★★★★
()
Ответ на: комментарий от anc

Так есть эмуляция блочного устройства есть. - Я узнаю о том что всё плохо, только когда уже не останется ни одной запасной ячейки в SSD?

DALDON ★★★★★
()
Ответ на: комментарий от DALDON

Ну и я как-то считал кол-во данных которые процесс пишет, читает. - Не могу вспомнить команду

подозреваю iosnoop из пакета perf-tools

anonymous
()
Ответ на: комментарий от anc

Упс… Понял. :) Пойду погуглю. Я как-то плохие SSD выявлял чем угодно, оно зачастую падает скорость чтения просто драматически.

DALDON ★★★★★
()
Последнее исправление: DALDON (всего исправлений: 1)
Ответ на: комментарий от DALDON

оно зачастую падает скорость чтения просто драматически.

Есть такой эффект. Не то что бы драматически, конечно зависит от места применения, но проседает так, что заметно «на глазок» без всяких утилит. Плохо только то, что это происходит не одномоментно, просто привыкаешь. :)

anc ★★★★★
()

Не указан DE. Не указано какая железка, гуглить спеки лень.

Почистить журнал journalctl, задать ограничение по размеру, в арчевики есть инфа.

Проверять запущенные процессы во время зависания, может у чего-то протекает память.

Мониторить температуры устройства.

Проверить на arch появляется ли та же проблема.

xDShot ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.