LINUX.ORG.RU

Отваливается половина озушки при перезагрузке


0

0

Стоит 2х32Гб. При перезагрузке мне биос сообщает, что у вас изменилась конфигурация. Захожу в биос и показывает 1х32Гб. Т.е отваливается одна планка. Если выйти из биоса и продолжить загрузку, то загрузится и будет в системе показывать 32Гб. Если выключить и включить систему, то опять показывает 2х32Гб. Наблюдаться стало такое на 13 дебиане. На 12 такого не разу не было. Прогонял 4pass memtest - всё ок. Такое ощущение, что какая-то глюква на уровне ядра при перезагрузке происходит

PS: как начало появляться - продул порты резиновой грушей и контакты на озушке протер этиловым спиртом 95%. Когда просто включаю-выключаю тачку/увожу ее в standby - всегда 2х32. Проблема появляется иногда при перезагрузке. В логах ничего нет. Материнка msi x670e tomahawk, 7900X, 2x32 gskill(6200)

★★★★

Последнее исправление: bryak (всего исправлений: 1)

Это железная проблема. Обнови биос материнки, проделай всё тоже самое с контактами процессора, осмотри ножки сокета. Скинь разгон в сток(6200 это разгон). Проверь какая планка или какой разъем отваливается. Проверь что планки в правильные слоты вставлены (A2-D2)

cobold ★★★★★
()
Ответ на: комментарий от cobold

Биос материнки 23 года. Жду, пока из беты последний выйдет и на него хотел обновиться. Процессор один раз ставился 2 года назад. Ничего не трогал, всё стоит на одном месте. Отваливается B2. Озушка стоит в правильных портах

bryak ★★★★
() автор топика
Ответ на: комментарий от bryak

После 23 года там была куча версий, в описании которых заявляется в том числе повышение стабильности работы памяти. Проц хорошо бы снять и посмотреть. Физика беспощадна и деформация материалов, особенно при температурных и физических(прижим) нагрузках это реально существующая вещь, а не придумка яйцеголовых

cobold ★★★★★
()
Ответ на: комментарий от Dimez

Я на сайте какого-то производителя материнок, рядом со скачиванием прошивок видел такое заявление: обновляйте только если столкнулись с багом, если же всё работает то лучше сидите на текущей версии.

firkax ★★★★★
()
Ответ на: комментарий от Dimez

Биос материнки 23 года.

А ты приколист. В текущем мире, где выкидывают сырой продукт и допиливают прошивками, сидеть на прошивке двухлетней давности - весело.

Риск сделать материнку кирпичом ещё страшней.

Проблема после протирки? Ну переткни ещё раз. Может где-то контакт плохой. Я вообще нулёвкой чищу, потом салфеткой протираю. Всякие спирты не знаю как могут повлиять. У меня был с видюхой, я раз 10 перетыкал, уже потерял надежду, и в сказал клиенту покупать видюху. Но потом она вдруг ожила.

AZJIO
()
Ответ на: комментарий от bryak

Можете ещё попробовайть поискать софт, который читает SPD-чип с ОЗУ. Бывает, что SPD зависает, тогда в той же Aida это видно, что в начале данные с SPD есть с обоих планок, а через некоторое время работы данных нет. При цикле по питанию SPD-чип оживает и BIOS считывает данные и видит планку, при перезагрузке без power-cycle, SPD не отвисает, BIOS данные не считывает, планку не видит.

По идее, пакет i2c-tools, программа «decode-dimms», модуль ядра at24 для DDR3 и модуль ee1004 для DDR4, но это не точно.

Ещё у ядра есть boot-параметр reboot=[warm|cold][,[bios|hard]], хотите, можете поизучать, менялось ли там что-то со сменой версии дистрибутива/ядра...

mky ★★★★★
()
Ответ на: комментарий от mky

то можно загрузочную флешку с любым ядром слепить и поперезагружать…

Так это рандомно происходит, а не постоянно. Может месяц всё быть ок, а потом сделал ребут и планка отвалилась. У msi глючные биосы. Например:

  1. я включил pbo, а в биосе как показывалось 4.7Ггц, так и показывается. Когда только пк взял, то включал и оно показывало 5.5. Глюква? Глюква! Иногда при включении pbo пк выключается с переинициализацией всего, а иногда нет
  2. при настроенном pbo, постоянно пытается перевести pbo в режим auto при выходе из биоса

Возможно это какой-то глюк биоса. Надо обновиться прежде всего. Но настроек много надо менять, поэтому надо подождать стабилизации крайнего релиза биоса и на него обновиться

Да, еще бы было не лишним поменять планки местами. Как отвалится в следующий раз озушка - 100% посмотрю отвалившийся порт и переставлю планки местами

bryak ★★★★
() автор топика
Ответ на: комментарий от mky

По идее, пакет i2c-tools, программа «decode-dimms», модуль ядра at24 для DDR3 и модуль ee1004 для DDR4, но это не точно.

Все модули позагружал(ee1004, at24) и

sudo modprobe eeprom
modprobe: FATAL: Module eeprom not found in directory /lib/modules/6.12.57+deb13-amd64
sudo decode-edid
EDID EEPROM not found.  Please make sure that the eeprom module is loaded.

Видимо для ddr5 ничего нет

bryak ★★★★
() автор топика

у меня такое было на работе. старый компьютер с процессором амд серии fx. дело было на виндовс 10. случайным образом отваливалось половина ДДР3 памяти. а память мне нужна была для виртуализации. дело кончилось тем что я докупил на алиекспресс еще столько же памяти. и мне стало хватать несмотря отваливание. думаю виноват биос. старый храм не исправить.

jura12 ★★★
()
Ответ на: комментарий от Dimez

то риска нет

С ИБП нет риска, иначе есть хоть и вероятность мала, главное не в грозу и ветер. Но можно прочитать причины обновления, критичны ли они.

AZJIO
()
Последнее исправление: AZJIO (всего исправлений: 1)
Ответ на: комментарий от AZJIO

В новых материнках есть специальный порт, в который вставляешь флешку с биосом и оно прошивает даже без вставленной ram & cpu. Помогает при неудачном обновлении биоса

bryak ★★★★
() автор топика
Последнее исправление: bryak (всего исправлений: 1)

оффтоп: был как-то ноутбук, на котором в некоторых случаях при загрузке размер ОЗУ становился меньше на несколько десятков КБ. вспомнилось

anonymous
()
Ответ на: комментарий от bryak

eeprom not found

Да, модуль eeprom выпилили из 6.7 (2 года назад). И тогда стало нужно устраивать дополнительные телодвижения для регистрации spd на i2c шине: https://lore.kernel.org/all/312c4863-9b18-df13-fdf2-d183e192f15c@nurealm.net/ Но, вроде, это относится только к at24 (DDR3), а DDR4 (ee1004) и DDR5 (spd5118) должны сами находить spd на шине.

Но, decode-edid точно не будет читать sdp :)

Про DDR5 пишут, что для неё нужен модуль spd5118 (возможно, качать и компилить) и нужно патчить decode-dimms https://lore.kernel.org/all/20241114-decode-ddr5-v1-5-0ed2db8ef30f@outlook.co... Но я это всё не проверял.

mky ★★★★★
()
Ответ на: комментарий от Dimez

Я вот специально перестал обновляться, когда они начали mitigations в биос завозить. Те что в ядре я отключаю mitigations=off, а те что в биосе не отключить и они будут мне бесплатно производительность просаживать.

PS: Да, я неуловимый джо и никто меня такими сложными способами ломать не будет.

Loki13 ★★★★★
()

два пути.

1) чтобы всё заработало. постепенно поднимать напряжение на памяти пока не добьёшься стабильного включения обоих модулей.

2) чтобы выяснить кто из модулей никчёмен. постепенно уменьшать напряжение на памяти пока не добьёшься стабильного включения только одного из модулей.

justAmoment ★★★★★
()

Типичная райзенопроблема - перезагрузка не работает как надо. Память двухранговая?
В принципе тебе повезло, у кого-то черный экран после перезагрузки. А при сбросе питания при последующем включении будет принудительный memory training.
Такие проблемы только с линуксом.

Khnazile ★★★★★
()
Последнее исправление: Khnazile (всего исправлений: 1)

Если в BIOS (UEFI) отображается часть ОЗУ, т.е. пропадает, то это проблема не с Linux, а с железом.

Если стоит от непонятного производителя - покупай новую, что в текущих реалиях недёшево.

Можешь увеличить тайминги или чуть повысить напряжение, если позволяет прошивка материнской платы.

kostik87 ★★★★★
()
Ответ на: комментарий от vbr

Так это вроде как раз помощью mitigation=off отключается. А год назад писали, что именно в обновление биоса будут завозить.

А, вообще, если с фирмварями приносят, то надо тоже заблокировать свежие подумать как(конкретную для процессора старую подкладывать).

У меня локалхост за натом, нафига мне терять 10-20% производительности из-за паранойи?

Loki13 ★★★★★
()
Последнее исправление: Loki13 (всего исправлений: 2)

Потому что не надо было покупать бракованный процессор без ножек.

// А вообще, выглядит как зафейленный тренинг памяти при запуске. Поставь частоту пониже и проверь.

devl547 ★★★★★
()
Ответ на: комментарий от kostik87

Если в BIOS (UEFI) отображается часть ОЗУ, т.е. пропадает, то это проблема не с Linux, а с железом.

Это верно, когда тачка с положения off грузится и не перегружается с работающего ядра. А если происходит ребут, то ядро может что-то намутить, скажем с acpi или чем-то еще(перевести планки в режим сверхнизкого потребления, тем самым может привести к тому, что они при следующей загрузке не смогут инициализироваться), что может привести к неудачной инициализации одного из модулей

bryak ★★★★
() автор топика
Последнее исправление: bryak (всего исправлений: 1)
Ответ на: комментарий от Loki13

Так это вроде как раз помощью mitigation=off отключается

Вряд ли. Митигации это митигации, а микрокод это микрокод. Для успешной борьбы с уязвимостями нужны оба компонента, но mitigations=off не отключает загрузку микрокода, насколько мне известно.

Просто обновление биоса в основном именно это и делает - грузит микрокод некоей относительно новой версии (касательно обсуждаемого вопроса). Поэтому если ты не обновляешь биос, то тебе надо следить, чтобы и из других источников микрокод не залетел в процессор, иначе всё это зря.

Для отключения обновления микрокода есть параметр ядра dis_ucode_ldr. Возможно у тебя он уже используется. Т.е. должно быть что-то вроде mitigations=off dis_ucode_ldr

vbr ★★★★★
()
Последнее исправление: vbr (всего исправлений: 2)
Ответ на: комментарий от Ololo_Trololo

Я эту надпись видел где-то год-два назад, тогда она значит ещё актуальна была. Так что про «давно» мимо.

А может и сейчас осталась там (я не помню где).

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 1)
Ответ на: комментарий от firkax

Но производителю материнки, считаю, виднее

Фиг знает…

Я считаю, что пользователю виднее. Нет проблем — нет смысла что-то перепрошивать. Есть проблемы — есть и смысл.

Я за последние 20 лет ни разу не перепрошивал — всё просто сразу отлично работало, из коробки.

CrX ★★★★★
()
Ответ на: комментарий от vbr

Для отключения обновления микрокода есть параметр ядра dis_ucode_ldr. Возможно у тебя он уже используется. Т.е. должно быть что-то вроде mitigations=off dis_ucode_ldr

О, Спасибо. Попробую добавить.

Loki13 ★★★★★
()
Ответ на: комментарий от CrX

Нет проблем — нет смысла что-то перепрошивать. Есть проблемы — есть и смысл.

Так производитель это там и написал примерно. Только не «нет смысла» а что-то более категоричное было.

firkax ★★★★★
()
Ответ на: комментарий от Loki13

А ещё можно сэкономить много времени если отключить все проверки паролей и прочих доступов. Сделай телнет без авторизации вместо ssh, заодно на криптографии процовое время сэкономишь тоже.

firkax ★★★★★
()
Ответ на: комментарий от firkax

А ещё можно сэкономить много времени если отключить все проверки паролей и прочих доступов.

Ну в локальный сеанс у меня автологин и после сна пароль не ввожу. Дело в том, что у меня десктоп, к которому кроме меня(дети не в счет) ни у кого нет доступа физического. Если кто-то попадет в мой дом, то у меня проблемы будут посерьезнее, чем доступ к моему компу. Ничего секретного у меня там нет. Даже в истории браузера. И даже фотки обычные семейные, без какого либо палева(они у меня, кстати, торчат в инет через photoprism с относительно простейшим паролем). Попросишь - сам покажу :)

Loki13 ★★★★★
()
Последнее исправление: Loki13 (всего исправлений: 2)