LINUX.ORG.RU

Помогите понять суть MCE: [Hardware Error].

 , , ,


0

1

Привет, ЛОР. Имею следующий конфиг по железу:

Motherboard: ASUS ROG Strix X570-E Gaming
CPU: AMD Ryzen 9 5950x 

Системе третий год, дистрибутив Pop_OS, настройки BIOS дефолт + включено PBO.

Сегодня заметил в логе dmesg вот такие сообщения.

[13046.777610] mce: [Hardware Error]: Machine check events logged
[13046.777613] [Hardware Error]: Deferred error, no action required.
[13046.777617] [Hardware Error]: CPU:1 (19:21:0) MC19_STATUS[-|-|-|-|-|-|Deferred|Poison|-]: 0x90001eb761e88ceb
[13046.777622] [Hardware Error]: IPID: 0x0000000000000000
[13046.777624] [Hardware Error]: Bank 19 is reserved.
[13046.777625] [Hardware Error]: cache level: L3/GEN, tx: GEN

Вопрос: Что именно это значит и насколько это критично? В гугле был, толковых ответов не нашел, пытаюсь понять, стоит ли предпринимать какие-то действия, или это просто предупреждение.

Заранее спасибо за ответы.

★★★★

Процессор обнаружил ошибку и устранил её. В логе есть соответствующая заметка.

Никаких действий предпринимать не надо. Возможно в будущем, вместе с новыми firmware приедет исправление.

Aceler ★★★★★
()
Ответ на: комментарий от Aceler

Понял. Спасибо большое за пояснение. Если ошибка будет повторяться - так же ничего не предпринимать? Я исследовал логи за недель и там таких ошибок не было, встретилось впервые. Насчет обновлений firmware, не уверен как посмотреть, когда прилетало последнее, но свежее ядро точно было(а с ним, скорее всего, и firmware).

Jefail ★★★★
() автор топика
Ответ на: комментарий от Jefail

Если ошибка будет повторяться

А она не будет ;-) Сообщение будет теперь повторяться, ошибка нет.

Насчет обновлений firmware, не уверен как посмотреть,

apt-cache policy linux-firmware

Aceler ★★★★★
()
Ответ на: комментарий от Aceler

Хмм, походу от февраля текущего года, так что я ошибся.

linux-firmware:
  Installed: 20230213.gitbf4115c1-0ubuntu1+system76~1677174484~22.04~76a1c5b
  Candidate: 20230213.gitbf4115c1-0ubuntu1+system76~1677174484~22.04~76a1c5b
  Version table:
 *** 20230213.gitbf4115c1-0ubuntu1+system76~1677174484~22.04~76a1c5b 1001
       1001 http://apt.pop-os.org/release jammy/main amd64 Packages
       1001 http://apt.pop-os.org/release jammy/main i386 Packages
        100 /var/lib/dpkg/status
     20220329.git681281e4-0ubuntu3.13 500
        500 http://apt.pop-os.org/ubuntu jammy-updates/main amd64 Packages
        500 http://apt.pop-os.org/ubuntu jammy-updates/main i386 Packages
     20220329.git681281e4-0ubuntu3.12 500
        500 http://apt.pop-os.org/ubuntu jammy-security/main amd64 Packages
        500 http://apt.pop-os.org/ubuntu jammy-security/main i386 Packages
     20220329.git681281e4-0ubuntu1 500
        500 http://apt.pop-os.org/ubuntu jammy/main amd64 Packages
        500 http://apt.pop-os.org/ubuntu jammy/main i386 Packages
Jefail ★★★★
() автор топика
Ответ на: комментарий от bigbit

mcelog deprecated, в моде rasdaemon

Coming to existing hardware health detection utilities, MCElog and edac-utils are tools that were used to monitor correctable/uncorrectable memory errors as well as machine check exceptions on bare metal hosts. However, recent changes in the Linux kernel have made some of our metrics, exported from current utilities for machine check and memory error handling/monitoring, less reliable. Mcelog is now deprecated and edac-utils is, for the most part, not maintained.

https://blog.twitter.com/engineering/en_us/topics/infrastructure/2023/how-twi...

Jameson ★★★★★
()
Ответ на: комментарий от Jefail

Возможно в этом причина. Но как правило такие ошибки возникают из-за слишком высокой частоты FCLK и/или недостаточного вольтажа VDDG CCD, VDDG IOD, Vsoc и еще один параметр, забыл какой.

UDP: Вспомнил - CLDO VDDP.

До 3600 это все можно на авто оставить и забить, а вот выше уже нужно подбирать вручную и тестить.

Meyer ★★★★★
()
Последнее исправление: Meyer (всего исправлений: 3)
Ответ на: комментарий от Meyer

Ну у меня 3733 стоит, вроде. На один шаг выше. Просто стало интересно, что 2.5 года я этого не наблюдал. Если единичный случай и можно не беспокоиться - ок, главное чтоб железо бородой не шло, вопрос был исключительно в этом)

Jefail ★★★★
() автор топика