LINUX.ORG.RU

Намертво зависает Ubuntu (длительная проблема)

 , ,


0

1

Привет, в произвольный момент времени намертво зависает Ubuntu.

При зависании система не реагирует ни на какие нажатия, помогает только Alt+SysRq+REISUB.

Зависание может произойти в любой момент даже при работе 2-3 вкладов в Chrome и текстового редактора Gedit - не могу связать проблему с нагрузкой на ЦП, ОЗУ.

Раньше думал, что проблема возможно связана с использованием SWAP (использую шифрование вместе с домашним каталогом), но нет - сейчас 12 гб ОЗУ и зависание произошло при отсутствии использования SWAP.

Проблема наблюдается длительное время - неоднократно обновлял пакеты (включаю MESA, видеодрайверы и т.д.), саму операционную систему.

System Hardware:
Processor: Intel Core i3-6006U @ 2.00GHz (4 Cores), Motherboard: Dell 0GGV1M, Chipset: Intel Xeon E3-1200 v5/E3-1500, Memory: 12288MB, Disk: 256GB SK hynix SC311 S + 1000GB Elements SE 25FE, Graphics: Intel Skylake GT2 [HD 520] 2048MB, Audio: Realtek ALC3246, Network: Realtek RTL810xE PCI Fast + Qualcomm Atheros QCA9377 802.11ac Wireless

Software:
OS: Ubuntu 20.04, Kernel: 5.4.0-131-generic (x86_64), Desktop: GNOME Shell 3.36.9, OpenGL: 4.6 Mesa 22.2.2- kisak-mesa PPA, File-System: ext4 (ecryptfs), Screen Resolution: 1920x1080

Перемещено hobbit из general

Ответ на: комментарий от monkdt
-- Logs begin at Mon 2023-05-15 11:22:02 MSK, end at Mon 2023-05-15 11:43:09 MSK. --
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000c42902a0 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 0000000007a01e2d (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000fe885b98 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000c42902a0 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 0000000007a01e2d (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000fe885b98 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000c42902a0 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 0000000007a01e2d (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000fe885b98 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000c42902a0 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 0000000007a01e2d (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000fe885b98 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000c42902a0 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 0000000007a01e2d (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000fe885b98 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000c42902a0 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 0000000007a01e2d (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000fe885b98 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000c42902a0 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 0000000007a01e2d (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000fe885b98 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000c42902a0 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 0000000007a01e2d (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000fe885b98 (20190816/dsargs-301)
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: sd 3:0:0:0: [sdb] No Caching mode page found
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: sd 3:0:0:0: [sdb] Assuming drive cache: write through
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: scsi 3:0:0:1: Wrong diagnostic page; asked for 1 got 8
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: scsi 3:0:0:1: Failed to get diagnostic page 0x1
мая 15 11:22:02 nikolay-Inspiron-5570 kernel: scsi 3:0:0:1: Failed to bind enclosure -19
мая 15 11:22:02 nikolay-Inspiron-5570 systemd-sysv-generator[443]: [/etc/init.d/cprocsp:4] PID file not absolute. Ignoring.
мая 15 11:22:04 nikolay-Inspiron-5570 kernel: ACPI Error: No pointer back to namespace node in package 00000000c42902a0 (20190816/dsargs-301)
мая 15 11:22:04 nikolay-Inspiron-5570 kernel: ACPI Error: Aborting method \_SB.PCI0.B0D4.PPCC due to previous error (AE_AML_INTERNAL) (20190816/psparse-529)
мая 15 11:22:11 nikolay-Inspiron-5570 libvirtd[1519]: cannot open directory '/media/nikolay/ElementsLinux/KVM': Нет такого файла или каталога
мая 15 11:22:11 nikolay-Inspiron-5570 libvirtd[1519]: internal error: Failed to autostart storage pool 'pool': cannot open directory '/media/nikolay/ElementsLinux/KVM': Нет>
мая 15 11:22:11 nikolay-Inspiron-5570 libvirtd[1519]: cannot open directory '/media/nikolay/ElementsLinux/Virtual Machines': Нет такого файла или каталога
мая 15 11:22:11 nikolay-Inspiron-5570 libvirtd[1519]: internal error: Failed to autostart storage pool 'iso': cannot open directory '/media/nikolay/ElementsLinux/Virtual Ma>
мая 15 11:22:17 nikolay-Inspiron-5570 systemd[1]: Failed to start Postfix Mail Transport Agent (instance -).
мая 15 11:22:26 nikolay-Inspiron-5570 gdm-password][2724]: gkr-pam: unable to locate daemon control file

TheDeckardCain
() автор топика
Ответ на: комментарий от TheDeckardCain

Куча acpi ошибок. Тут пишут что может помочь апдейт биоса, но советовать такие критичные вещи я не хочу. 50/50 что может пойти не так при апгрейде и можно в лучшем случае потерять очень много времени

https://www.kubuntuforums.net/forum/currently-supported-releases/kubuntu-22-04-jammy-jellyfish/post-installation-ax/662598-boot-shut-down-errors-acpi-error-no-pointer-back-to-namespace-node-in-package

monkdt
()

У меня была подобная фигня, но оказалось, что это было не зависание, а kernel panic, вызванный драйвером Wi-Fi.

Попробуй воспроизвести зависание в то время как у тебя активна текстовая консоль (без иксов которая), там высвечивается сообщение.

А вообще должны быть какие-то способы поймать сообщение о kernel panic наверное, но я их не знаю. Разве что, у тебя есть RS-232 порт или UART?

Xenius ★★★★★
()
Ответ на: комментарий от TheDeckardCain

тогда вопрос работала ли система с другими дистрибутивами или после сразу установки без зависаний или всегда было так? Твою машину никто не знает, а обычный админ всегда копает методом исключений

monkdt
()
Ответ на: комментарий от monkdt

И автозагрузка тоже здесь ни причём, потому что проблема была и при почти чистой системе. Проблема была с первого запуска нового ноута - с 2018 года. Другие дистрибутивы не использовал.

TheDeckardCain
() автор топика
Последнее исправление: TheDeckardCain (всего исправлений: 1)
Ответ на: комментарий от TheDeckardCain

omg так с этого и надо было начинать. Надо накатить чистую систему и оттуда начинать искать решение проблемы. Для начала посмотреть какие ошибки на дефолтной системе

Я бы поставил еще ко всему прочему совершенно отличный дистрибутив от того, что у тебя сейчас и посмотрел бы есть ли там такая ошибка .

monkdt
()

У меня были проблемы с оборудованием на 20.04. Помогло установить HWE ядро. Прошло успешно. По-моему, комманда такая:

apt install --install-recommends linux-generic-hwe-20.04

При этом у меня инсталлировался 5.15.

Ну и, как здесь пишут, осторожненько БИОС проапгрейдить, если ещё не. Иногда помогает просто в дефолт сбросить.

forest22
()

Как вариант - возможно засыхание термо-пасты на процессоре и перегрев.
Если с температурой все в порядке - возможны зависания при простое процессора (включение алгоритмов энергосбережения). У меня было такое на служебном ноуте HP с i5. Самопроизвольные фризы начались после добавления памяти. Причем никакие тесты памяти не выявляли проблему.
Помогло только отключение энергосбережения на процессоре intel_idle.max_cstate=0. Последующие эксперименты показали, что при cstate=0,1,2 зависаний не было. При отсутствии опции или установке 3 и более - случайные зависания (при этом на проце и памяти снижается напряжения и память видимо не держит). Ну и затем удалось память подобрать, которая нормально работает на низком напряжении проца.
https://wiki.bu.ost.ch/infoportal/_media/embedded_systems/ethercat/controlling_processor_c-state_usage_in_linux_v1.1_nov2013.pdf

sigurd ★★★★★
()
Последнее исправление: sigurd (всего исправлений: 3)
Ответ на: комментарий от TheDeckardCain

Проблема была с первого запуска нового ноута - с 2018 года. Другие дистрибутивы не использовал.

Вот это бы добавить в шапку темы.

Причем первая часть коммента важнее и в принципе указывает на особенности железа ноута.
А вторая - как бы толкает нас проверить с другими дистрами, но боюсь будет та же проблема.

krasnh ★★★
()
Ответ на: комментарий от TheDeckardCain

Ну вон, в комментах рассказывают похожее про свое железо.

Может биос давно не обновлялся, может зависает только под линукс, а вот в windows нет проблем…
Главное, что проблема сразу показала с новья, и как то меньше всего думаешь на софт.

krasnh ★★★
()
Ответ на: комментарий от krasnh

Я, конечно, не специалист, но вроде EFI передаёт управление ОС и дальше никак не участвует в работе системы. Как тогда его обновление может повлиять на работу в ОС ?

Как локализовать проблему ? Воспроизвести зависание невозможно, потому что нет точного определения причины.

TheDeckardCain
() автор топика

Kernel: 5.4.0-131-generic (x86_64)

Оно какое-то кривое, у меня память течет, когда включаю rtsp поток с камеры.
При этом рядом комп, там прошлый выпуск, ядро 4.15.0-20 и всё нормально.

crutch_master ★★★★★
()
Последнее исправление: crutch_master (всего исправлений: 1)

попробуй запустить =без установки= archlinux-2023.05.03-x86_64.iso
посмотри там dmesg
если ошибки с ACPI остаются, значит придётся обновлять bios

если ты категорически против обновления биоса, тогда попробуй во время загрузки ubuntu передать ядру параметр noacpi , может это как-то ситуацию изменит

d00fy ★★★
()
Ответ на: комментарий от d00fy

Загрузился с двух флешек с Ubuntu 18.04.1 и Clonezilla, в первом случае команда journalctl -b -p err дала


-- Logs begin at Mon 2023-05-15 23:25:54 UTC, end at Mon 2023-05-15 23:27:24 UTC. --
May 15 23:25:54 ubuntu kernel: ACPI Error: [_SB_.PCI0.RP05.PXSX] Namespace lookup failure, AE_NOT_FOUND (20170831/dswload2-191)
May 15 23:25:54 ubuntu kernel: ACPI Exception: AE_NOT_FOUND, During name lookup/catalog (20170831/psobject-252)
May 15 23:25:54 ubuntu kernel: ACPI Error: Method parse/execution failed \_SB.PCI0.RP04.PXSX, AE_NOT_FOUND (20170831/psparse-550)
May 15 23:25:54 ubuntu kernel: ACPI Error: [_SB_.PCI0.RP09.PXSX] Namespace lookup failure, AE_NOT_FOUND (20170831/dswload2-191)
May 15 23:25:54 ubuntu kernel: ACPI Exception: AE_NOT_FOUND, During name lookup/catalog (20170831/psobject-252)
May 15 23:25:54 ubuntu kernel: ACPI Error: Method parse/execution failed \_SB.PCI0.RP08.PXSX, AE_NOT_FOUND (20170831/psparse-550)
May 15 23:25:54 ubuntu kernel: sd 3:0:0:0: [sdb] No Caching mode page found
May 15 23:25:54 ubuntu kernel: sd 3:0:0:0: [sdb] Assuming drive cache: write through
May 15 23:25:54 ubuntu kernel: scsi 3:0:0:1: Wrong diagnostic page; asked for 1 got 8
May 15 23:25:54 ubuntu kernel: scsi 3:0:0:1: Failed to get diagnostic page 0x1
May 15 23:25:54 ubuntu kernel: scsi 3:0:0:1: Failed to bind enclosure -19
May 15 23:25:54 ubuntu kernel: sd 4:0:0:0: [sdc] No Caching mode page found
May 15 23:25:54 ubuntu kernel: sd 4:0:0:0: [sdc] Assuming drive cache: write through
May 15 23:26:03 ubuntu wpa_supplicant[1204]: dbus: wpa_dbus_get_object_properties: failed to get object properties: (none) none
May 15 23:26:03 ubuntu wpa_supplicant[1204]: dbus: Failed to construct signal
May 15 23:26:29 ubuntu pulseaudio[1897]: [pulseaudio] backend-ofono.c: Failed to register as a handsfree audio agent with ofono: org.freedesktop.DBus.Error.ServiceUnknown: The name org.ofono was not provi
May 15 23:26:38 ubuntu spice-vdagent[2061]: Cannot access vdagent virtio channel /dev/virtio-ports/com.redhat.spice.0


Какие-то ACPI ошибки и в Clonezilla.

Какие предложения по решению проблемы имеются:

  1. Отключить ACPI путём указания в GRUB acpi=off. Чревато последствиями, как я понимаю. Да и правильно ли такими способами ?
  2. Отключить Intel c-state. Это можно кстати сделать прямо в биосе, я посмотрел. Можно попробовать, но не знаю.

Основной вопрос - как попытаться локализовать источник проблемы.

TheDeckardCain
() автор топика
Последнее исправление: TheDeckardCain (всего исправлений: 1)
Ответ на: комментарий от master_0K

Интересная тема. Я так понял, что ОС обращается к UEFI, а тот не понимает, что от него хотят, потому что он ожидает запрос от Windows. А этот параметр в свою очередь ему лжёт, что обращаются из Windows.

Толковая статья https://forum.manjaro.org/t/how-to-choose-the-proper-acpi-kernel-argument/1405.

То есть можно добавить в /etc/default/grub

GRUB_CMDLINE_LINUX_DEFAULT="quiet splash acpi_osi='Windows 2018'"

Или вариант

apci_osi=Linux

В каких случаях такие параметры добавляются ?

TheDeckardCain
() автор топика
Последнее исправление: TheDeckardCain (всего исправлений: 1)
Ответ на: комментарий от TheDeckardCain

Этот параметр «рекомендует» ядру представляться ACPI-«прошивке», как некоторая версия Windows. Дело в том, что подсистема ACPI может по-разному взаимодействовать с разными хост-ОС.

По-умолчанию linux не выдаёт себя за Windows. В определённых прошивках («биосах») могут быть какие-то правки под определённый Windows, а для ОС отличных от «винды» этого кода может и не быть.

В твоём случае нужно протестировать эту «гипотезу»:

  • добавить вариант загрузки с GRUB_CMDLINE_LINUX_DEFAULT="quiet splash acpi_osi='Windows 2018'"
  • загрузить Ubuntu с этими парметрами
  • посмотреть dmesg – стало меньше «жалоб» на ACPI?
  • пользоваться компьютером как обычно – «фризы», зависания прекратились?

Через некоторое время можно будет сделать выводы насколько эта опция помогает.

master_0K
()
Ответ на: комментарий от TheDeckardCain

Тебе нужно выбрать версию поближе к времени создания прошивки и выпуска ноутбука.

‘Windows 2010’ это древность для ноутбука 2018 года.

‘Windows 2018’ тоже не помогает?

Если и поможет, то значение из этого ряда

Windows 2017 	Windows 10, version 1703
Windows 2017.2 	Windows 10, version 1709
Windows 2018 	Windows 10, version 1803
Windows 2018.2 	Windows 10, version 1809
Windows 2019 	Windows 10, version 1903
master_0K
()
Последнее исправление: master_0K (всего исправлений: 2)
Ответ на: комментарий от TheDeckardCain

А отключение c-state в UEFI срабатывает

А какая разница, кто ядро запускает?

Или надо также указать это /etc/default/grub intel_idle.max_cstate=0

Если у вас grub запускает ядро - то в его параметрах.

Как проверить отключена опция или нет ?

Я привел ссылку на руководство от dell - мне лень ее вам зачитывать. Там и про установку и и как проверить - все есть!

sigurd ★★★★★
()
Ответ на: комментарий от sigurd

Добавил intel_idle.max_cstate=0 в GRUB. Через программу i7z смотрю таблицу работы процессора. Что-то я не совсем понимаю работает ли опция или нет. C0% показывает немного процентов 1-7 %. В основном Halt(C1).

TheDeckardCain
() автор топика
Ответ на: комментарий от TheDeckardCain

Не повезло. По модели ноута не пытался искать решение? Если устройство не совсем «экзотика» за 5 лет если не решение, то сами проблемы должны быть уже достаточно часто описаны в интернете.

master_0K
()
Ответ на: комментарий от sigurd

Да, и если предположить, что зависание связано с входом/выходом из разных состояний процессора, то проблема же должна появляться очень часто ? Ну раз в день точно. А бывает, что и неделями нет зависаний.

TheDeckardCain
() автор топика
Ответ на: комментарий от TheDeckardCain

Да, и если предположить, что зависание связано с входом/выходом из разных состояний процессора, то проблема же должна появляться очень часто ? Ну раз в день точно.

В моем случае это было от раз в день до раз в 2-3 дня. Но вообще это зависит от сценария использования компа.

sigurd ★★★★★
()
Ответ на: комментарий от sigurd

В интернетах пишут, что система виснет с процессорами intel (даже в некоторых местах указывается именно на архитектуру Skylake). И предлагается решение с параметром intel_idle.max_cstate. https://bugzilla.kernel.org/show_bug.cgi?id=109081

https://linuxmint.com.ru/viewtopic.php?p=2520&sid=7ac6ea63c62720926716b41627540d80#p2520

TheDeckardCain
() автор топика
Ответ на: комментарий от sigurd

Мне удалось воспроизвести зависание, но неясно имеет ли оно ту же самую природу.

Два раза воспроизвёл. Два раза подряд уходим в «Ждущий режим». Открываем LibreOffice, через меню файл открываем кривой текстовый файл формата.docx. Система зависла 2 раза. Третий раз я не смог воспроизвести… Что тут вообще происходит…..

TheDeckardCain
() автор топика
Ответ на: комментарий от Dimez

Проблема в том, что я не использую ждущий режим, а тут решил затестить. А как откатиться, если что-то пойдёт не так ? Где хранятся данные UEFI, не в специальной памяти ?

TheDeckardCain
() автор топика
Ответ на: комментарий от Dimez

Обновил биос с 1.2.3. до 1.14.0. Урааа, новый софт новые баги. Пока таковых не замечено.

BIOS Information
        Vendor: Dell Inc.
        Version: 1.2.3
        Release Date: 05/15/2019

BIOS Information
        Vendor: Dell Inc.
        Version: 1.14.0
        Release Date: 04/06/2023

TheDeckardCain
() автор топика