LINUX.ORG.RU

Вечные зависания Ubuntu 22.04

 , , ,


0

2

Добрый день! Проблема в названии.

X-сервера нету, чистый терминал. На борту: Мать Gigabyte B450M K (rev. 1.0) Ryzen 5 1400 GeForce GT610 RAM 8GB Crucial NVME Kinston NV2 250GB БП Aerocool 400w

Что я пробовал предпринять:

  1. Пробовал заменять абсолютно все на аналогичные модели кроме проца и видеокарты. Подозрений на проц мало, т.к. не слышал ни одного случая смерти процессора при обычной нагрузке.
  2. Пробовал ставить debian 12 - зависает
  3. Windows 10/11 - полет нормальный
  4. Пробовал ставить чистую Ubuntu server - зависает
  5. Пробовал включать/выключать CSM, TPM 2.0, Secure boot в bios - Зависает (С включенным CSM намного чаще)
  6. Версия BIOS последняя, настройки заводские
  7. Пробовал начисто устанавливать систему, отключать видеокарту и сносить драйвер - не помогло

Как зависает? Рандомный промежуток времени вне зависимости от нагрузки, чаще всего в ночное/вечернее время. Сетевая карта перестает получать IP. Изображение на мониторе есть, не реагирует ни на какие команды ввода, кроме SysRq.

Информация о системе (Все команды которые знаю, если что спрашивайте):

#uname -a
Linux subuntu 5.15.0-97-generic #107-Ubuntu SMP Wed Feb 7 13:26:48 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux'
#df -h
Filesystem      Size  Used Avail Use% Mounted on
tmpfs           786M  3,4M  783M   1% /run
/dev/nvme0n1p2  228G   11G  205G   6% /
tmpfs           3,9G     0  3,9G   0% /dev/shm
tmpfs           5,0M     0  5,0M   0% /run/lock
/dev/nvme0n1p1  1,1G  6,1M  1,1G   1% /boot/efi
/dev/sdb1       916G   28K  870G   1% /mnt/hdd2
/dev/sda1       916G  744G  126G  86% /mnt/hdd1
# sensors
k10temp-pci-00c3
Adapter: PCI adapter
Tctl:         +36.5°C

acpitz-acpi-0
Adapter: ACPI interface
temp1:        +16.8°C  (crit = +20.8°C)
temp2:        +16.8°C  (crit = +20.8°C)

nvme-pci-0100
Adapter: PCI adapter
Composite:    +39.9°C  (low  =  -0.1°C, high = +76.8°C)
                       (crit = +78.8°C)
ERROR: Can't get value of subfeature temp3_min: I/O error
ERROR: Can't get value of subfeature temp3_max: I/O error
Sensor 2:     +41.9°C  (low  =  +0.0°C, high =  +0.0°C)'
# free -m
               total        used        free      shared  buff/cache   available
Mem:            7853        1306         234           3        6312        6263
Swap:           4095           0        4095
# lspci
00:00.0 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Root Complex
00:01.0 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-1fh) PCIe Dummy Host Bridge
00:01.1 PCI bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) PCIe GPP Bridge
00:01.3 PCI bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) PCIe GPP Bridge
00:02.0 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-1fh) PCIe Dummy Host Bridge
00:03.0 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-1fh) PCIe Dummy Host Bridge
00:03.1 PCI bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) PCIe GPP Bridge
00:04.0 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-1fh) PCIe Dummy Host Bridge
00:07.0 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-1fh) PCIe Dummy Host Bridge
00:07.1 PCI bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Internal PCIe GPP Bridge 0 to Bus B
00:08.0 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-1fh) PCIe Dummy Host Bridge
00:08.1 PCI bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Internal PCIe GPP Bridge 0 to Bus B
00:14.0 SMBus: Advanced Micro Devices, Inc. [AMD] FCH SMBus Controller (rev 59)
00:14.3 ISA bridge: Advanced Micro Devices, Inc. [AMD] FCH LPC Bridge (rev 51)
00:18.0 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 0
00:18.1 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 1
00:18.2 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 2
00:18.3 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 3
00:18.4 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 4
00:18.5 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 5
00:18.6 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 6
00:18.7 Host bridge: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Data Fabric: Device 18h; Function 7
01:00.0 Non-Volatile memory controller: Kingston Technology Company, Inc. Device 5019
02:00.0 USB controller: Advanced Micro Devices, Inc. [AMD] 400 Series Chipset USB 3.1 XHCI Controller (rev 01)
02:00.1 SATA controller: Advanced Micro Devices, Inc. [AMD] 400 Series Chipset SATA Controller (rev 01)
02:00.2 PCI bridge: Advanced Micro Devices, Inc. [AMD] 400 Series Chipset PCIe Bridge (rev 01)
03:00.0 PCI bridge: Advanced Micro Devices, Inc. [AMD] 400 Series Chipset PCIe Port (rev 01)
03:01.0 PCI bridge: Advanced Micro Devices, Inc. [AMD] 400 Series Chipset PCIe Port (rev 01)
03:04.0 PCI bridge: Advanced Micro Devices, Inc. [AMD] 400 Series Chipset PCIe Port (rev 01)
03:05.0 PCI bridge: Advanced Micro Devices, Inc. [AMD] 400 Series Chipset PCIe Port (rev 01)
03:06.0 PCI bridge: Advanced Micro Devices, Inc. [AMD] 400 Series Chipset PCIe Port (rev 01)
03:07.0 PCI bridge: Advanced Micro Devices, Inc. [AMD] 400 Series Chipset PCIe Port (rev 01)
09:00.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller (rev 15)
0a:00.0 VGA compatible controller: NVIDIA Corporation GF119 [GeForce GT 610] (rev a1)
0a:00.1 Audio device: NVIDIA Corporation GF119 HDMI Audio Controller (rev a1)
0b:00.0 Non-Essential Instrumentation [1300]: Advanced Micro Devices, Inc. [AMD] Zeppelin/Raven/Raven2 PCIe Dummy Function
0b:00.2 Encryption controller: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) Platform Security Processor
0b:00.3 USB controller: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) USB 3.0 Host Controller
0c:00.0 Non-Essential Instrumentation [1300]: Advanced Micro Devices, Inc. [AMD] Zeppelin/Renoir PCIe Dummy Function
0c:00.2 SATA controller: Advanced Micro Devices, Inc. [AMD] FCH SATA Controller [AHCI mode] (rev 51)
0c:00.3 Audio device: Advanced Micro Devices, Inc. [AMD] Family 17h (Models 00h-0fh) HD Audio Controller

Я хлебушек, поэтому не умею анализировать логи и не понимаю как их и откуда доставать, поэтому спрашивайте

Всем спасибо и удачи!

Ответ на: комментарий от dukettk

Потому что раньше сидел на debian, но посчитал что проблема с зависаниями из-за драйверов, а на сколько мне известно в плане подтягивания драйверов ubuntu работает на уровне винды. Д а и просто попса…

Dedr_off
() автор топика
Ответ на: комментарий от tiinn

На самом деле нет. Забыл добавить в ингредиенты компа 2 ЖД на SATA, если бы они в винде на горячую отвалились, то она бы просто размонтировала их, а вот в линуксе даже если на холодную отключить, то она в сервисном режиме запускается, поэтому не буду исключать этот факт

Dedr_off
() автор топика

Попробуй kernel 5.6 , оно стабильнее (для моих zen1 точно). С 5.8 начали кучу нововведений добавлять, многие из них и 6.1 не устаканились. 6.1.18 и выше тоже постабильнее. В 6.2 и выше опять надобавляли.

anonymous
()
Ответ на: комментарий от anonymous

Не исключено что понижение версии Кернельки поможет, однако хочется разобраться в чем собака зарыто, ибо это не норм:/ Да и в добавок у меня «синдром последних версий»:)

В любом случае учту, если ничего не спасет - понижу Кернельки, спасибо

Dedr_off
() автор топика
Последнее исправление: Dedr_off (всего исправлений: 1)

А у меня в 22.04 ядро 6.5.0. Видимо потому, что я включал hwe (ещё на 20.04). Помнится, у меня тоже с рязанью что-то не так было, потому и включил.

Beewek ★★
()

Gigabyte B450M K (rev. 1.0)

1. Отключи IOMMU (выбери Disabled принудительно), эта штука не работает нормально на данной материнской плате.

2. Выброси это говно и купи матернискую плату Asrock, которая не будет являться источником непонятных глюков.

Серьезно, не берите Gigabyte под AM4, у них все плохо, не разведена часть дорожек и кривые биосы!

Khnazile ★★★★★
()
Ответ на: комментарий от Dedr_off

Ещё имеет смысл в EFI частоту для контроллера вторичного источника питания сделать повыше, чтобы напряжение не просаживалось при очень резком возрастании нагрузки. Так же zenstates.py --c6-disable автоматом при старте (C6 всеми zen по факту не поддерживается).

anonymous
()
Ответ на: комментарий от Khnazile

Серьезно, не берите Gigabyte под AM4, у них все плохо, не разведена часть дорожек и кривые биосы!

Тут можно вместо AM4 смело подставить название любого другого актуального сокета, и утверждение останется достаточно верным. Кривые биосы у них везде.

anonymous
()

Подозрений на проц мало, т.к. не слышал ни одного случая смерти процессора при обычной нагрузке.

В точности наоборот. У тебя первая рязань, которая кривая косая сразу с завода, а сверху ещё и кривые биосы от производителей материнок.

ox55ff ★★★★★
()
# uptime
 19:43:26 up 1 day, 21:19,  3 users,  load average: 0.00, 0.00, 0.00

Собственно в течении 2 суток не зависал, а это уже ничего себе… Послежу еще неделю и буду взаимоисключать насоветованное чтобы понять какая же из настроек биоса давала такой эффект.

Что было проделано?

  1. Заменены sata шлейфы
  2. Отключение Global C-State Control
  3. Отключение OpCache
  4. Отключение IOMMU
  5. Отключение NX mode
Dedr_off
() автор топика
Последнее исправление: Dedr_off (всего исправлений: 1)