LINUX.ORG.RU

Ошибки kernel: CPU 1: Machine Check: 0 Bank 0: d020000000100011

 ,


0

2

Проц AMD Ryzen 5 3500X 6-Core Processor. Без разгона. BIOS на мат.плату последний стоит.

с недавних пор начали сыпаться ошибки в лог. Причину их понять не могу:

Feb 04 07:17:30 home-pc kernel: mce: [Hardware Error]: CPU 1: Machine Check: 0 Bank 0: d020000000100011
Feb 04 07:17:30 home-pc kernel: mce: [Hardware Error]: TSC 0 SYND 3a036c05 IPID b000000000
Feb 04 07:17:30 home-pc kernel: mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1612412246 SOCKET 0 APIC 1 microcode 8701021
Feb 04 07:17:30 home-pc kernel:
Feb 04 07:17:33 home-pc kernel: [Hardware Error]: Corrected error, no action required.
Feb 04 07:17:33 home-pc kernel: [Hardware Error]: CPU:1 (17:71:0) MC0_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd820000000100015
Feb 04 07:17:34 home-pc kernel: [Hardware Error]: IPID: 0x000000b000000000, Syndrome: 0x000000003a036c05
Feb 04 07:17:34 home-pc kernel: [Hardware Error]: Load Store Unit Ext. Error Code: 16, Level 2 TLB parity error.
Feb 04 07:17:34 home-pc kernel: [Hardware Error]: cache level: L1, tx: DATA
Feb 04 07:22:40 home-pc kernel: [Hardware Error]: Corrected error, no action required.
Feb 04 07:22:40 home-pc kernel: [Hardware Error]: CPU:1 (17:71:0) MC0_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd820000000100015
Feb 04 07:22:40 home-pc kernel: [Hardware Error]: IPID: 0x000000b000000000, Syndrome: 0x000000003a036c05
Feb 04 07:22:40 home-pc kernel: [Hardware Error]: Load Store Unit Ext. Error Code: 16, Level 2 TLB parity error.
Feb 04 07:22:40 home-pc kernel: [Hardware Error]: cache level: L1, tx: DATA
Feb 04 07:27:54 home-pc kernel: [Hardware Error]: Corrected error, no action required.
Feb 04 07:27:54 home-pc kernel: [Hardware Error]: CPU:1 (17:71:0) MC0_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd820000000100015
Feb 04 07:27:54 home-pc kernel: [Hardware Error]: IPID: 0x000000b000000000, Syndrome: 0x000000003a036c05
Feb 04 07:27:54 home-pc kernel: [Hardware Error]: Load Store Unit Ext. Error Code: 16, Level 2 TLB parity error.
Feb 04 07:27:54 home-pc kernel: [Hardware Error]: cache level: L1, tx: DATA
Feb 04 07:33:08 home-pc kernel: [Hardware Error]: Corrected error, no action required.
Feb 04 07:33:08 home-pc kernel: [Hardware Error]: CPU:1 (17:71:0) MC0_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|-|-|-]: 0xdc20000000100015
Feb 04 07:33:08 home-pc kernel: [Hardware Error]: Error Addr: 0x00007f057f06c000
Feb 04 07:33:08 home-pc kernel: [Hardware Error]: IPID: 0x000000b000000000, Syndrome: 0x000000003a036c05
Feb 04 07:33:08 home-pc kernel: [Hardware Error]: Load Store Unit Ext. Error Code: 16, Level 2 TLB parity error.
Feb 04 07:33:08 home-pc kernel: [Hardware Error]: cache level: L1, tx: DATA
Feb 04 07:38:22 home-pc kernel: [Hardware Error]: Corrected error, no action required.
Feb 04 07:38:22 home-pc kernel: [Hardware Error]: CPU:1 (17:71:0) MC0_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|-|-|-]: 0xdc20000000100015
Feb 04 07:38:22 home-pc kernel: [Hardware Error]: Error Addr: 0x00007ffe76cec000
Feb 04 07:38:22 home-pc kernel: [Hardware Error]: IPID: 0x000000b000000000, Syndrome: 0x000000003a036c05
Feb 04 07:38:22 home-pc kernel: [Hardware Error]: Load Store Unit Ext. Error Code: 16, Level 2 TLB parity error.
Feb 04 07:38:22 home-pc kernel: [Hardware Error]: cache level: L1, tx: DATA

Имеет смысл сдать по гарантии, само вряд ли пройдёт. До этого можно попробовать сбросить настройки UEFI и отключить XMP-профиль памяти, чтобы она работала на каких-нибудь 2666 МГц.

anonymous
()

Материнская плата какая? Zen2 не очень хорошо работают на старых чипсетах, особенно на ранних ревизиях плат из начала 17 года.

Khnazile ★★★★★
()
Ответ на: комментарий от Pavval

Зачем? Никаких проблем при эксплуатации нету. Не хочу комп разбирать. Раньше этой ошибки точно не было. Появилась она недавно.

Jaeger1999 ★★★
() автор топика
Ответ на: комментарий от Jaeger1999

Тогда скорее всего дело не вней. Как я понял, ошибка по L2-кэшу на одном из ядер. Но т.к. ecc кэша отрабатывает штатно, то не уверен, что такой процессор будет просто поменять. Только если напрямую через производителя.

Khnazile ★★★★★
()
Ответ на: комментарий от Jaeger1999

Как ты думаешь, когда проц вместо выполнения 1 инструкции срет исключение, печатает всю эту портянку в лог - у тебя производительность не падает ни разу?

Pavval ★★★★★
()

BIOS на мат.плату последний стоит.

Ок.

не понятно, почему этого раньше не было (пару месяцев назад) а сейчас появилось.

Раньше этой ошибки точно не было. Появилась она недавно.

Биос последний прошит.

Ок.

Три вопроса тогда.

  1. За эти два месяца обновлял ли ядро?

  2. Перепрошивал ли биос?

  3. Оперативку протестил?

И ещё:

  1. В простое посмотри будут ли сыпаться логи, когда температура проца минимальна.

  2. И под нагрузкой посмотри, есть ли разница.

  3. Попробуй разные ядра.

Возьми лайв твоего дистрибутива и с него посмотри как будет ситуация развиваться.

anonymous
()
Ответ на: комментарий от anonymous

За эти два месяца обновлял ли ядро?

Да, все официальные арчевовские ядра обновлял своевременно.

Перепрошивал ли биос?

Да, пробовал 4 последние версии биоса, в том числе тот, на котором ошибки тогда давно не было. Но на всех них ошибка воспроизводится сейчас.

Оперативку протестил?

Нет, вот сейчас протестю.

Я вот вспомнил, что вроде это появилось после обновления amd-ucode какой-то версии.

Jaeger1999 ★★★
() автор топика
Ответ на: Corrected error, no action required от anonymous

Если таким сыпет, action как раз явно required. Игнорировать можно было бы, если бы это была одна такая ошибка за месяц.

anonymous
()
Ответ на: комментарий от Jaeger1999

Ясно. Инет даёт кучу мнений по этим ошибкам, начиная от битых планок оперативки до хардварных проблем с деградацией процессора в силу его перегрева - на сайте амд есть топик, где у 5-6х человек такие же проблемы. Кому-то помогает перепрошивка биоса, кому-то проверка power supply voltages, кому-то простая чистка кулера с заменой термопасты, а кому-то даже замена процессора по гарантии.

вроде это появилось после обновления amd-ucode какой-то версии

Поэтому-то и нужно тестировать разными версиями ос/ядра/лайв, чтобы убедиться, что проблема не софтварная, а хардварная.

anonymous
()
Ответ на: комментарий от anonymous

В общем.
* Отключил XPM — все тоже самое.
* Пробовал загрузиться с systemrescuecd — и уже в начале загрузки увидел тоже самое сообщение с ошибкой.
* Прогнал через memtest — ошибок нет. Скрин https://lostpic.net/image/y6LY

Какие еще будут предположения?

Jaeger1999 ★★★
() автор топика
Ответ на: комментарий от Jaeger1999

Прогнал через memtest — ошибок нет.

Ошибка (скорректированная) не в памяти, а в кеше L1 (который индивидуальный для каждого ядра) [Hardware Error]: cache level: L1, tx: DATA

Это либо «надо менять железо», либо кто-то умышленно портит кеш, не заботясь о коррекции ошибок (всякий микрокод, хрен-пойми чем занимающийся), либо неправильно читаются и интерпретируются сообщения об ошибках и состоянии процессора.

anonymous
()
Ответ на: комментарий от anonymous

mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor. Please use the edac_mce_amd module instead. CPU is unsupported

гарантия на проц до 11.05.2021

Jaeger1999 ★★★
() автор топика
Ответ на: комментарий от anonymous

Загрузился с Ubuntu 20.04 и вижу:

ubuntu@ubuntu:~$ journalctl -p err -b
-- Logs begin at Thu 2021-02-04 11:35:45 UTC, end at Thu 2021-02-04 11:41:47 UTC. --
Feb 04 11:35:45 ubuntu kernel: mce: [Hardware Error]: CPU 1: Machine Check: 0 Bank 0: d820000000100015
Feb 04 11:35:45 ubuntu kernel: mce: [Hardware Error]: TSC 0 MISC d0130fff00000000 SYND 3a036c05 IPID b000000000 
Feb 04 11:35:45 ubuntu kernel: mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1612438503 SOCKET 0 APIC 1 microcode 8701021
Feb 04 11:35:45 ubuntu kernel: Initramfs unpacking failed: Decoding failed
Feb 04 11:40:19 ubuntu kernel: [Hardware Error]: Corrected error, no action required.
Feb 04 11:40:19 ubuntu kernel: [Hardware Error]: CPU:1 (17:71:0) MC0_STATUS[Over|CE|MiscV|-|-|-|SyndV|-|-|-]: 0xd820000000100015
Feb 04 11:40:19 ubuntu kernel: [Hardware Error]: IPID: 0x000000b000000000, Syndrome: 0x000000003a036c05
Feb 04 11:40:19 ubuntu kernel: [Hardware Error]: Load Store Unit Ext. Error Code: 16, Level 2 TLB parity error.
Feb 04 11:40:19 ubuntu kernel: [Hardware Error]: cache level: L1, tx: DATA

По всей видимости, проблема аппаратная.
Даже не знаю, что еще и попробовать? Обнулить BIOS/UEFI? Но вроде я это делал.

А как по гарантии сдавать? Проблем ведь явных никаких нету.
Да и как мне несколько месяцев без проца сидеть?

Jaeger1999 ★★★
() автор топика
Ответ на: комментарий от Jaeger1999

mcelog does not support this processor.

CPU is unsupported

Please use the edac_mce_amd module instead

Ты читать умеешь? О чем это говорит? О том что надо верить сообщениям об ошибках, которые не поддерживаются? Верить неверным?

anonymous
()
Ответ на: комментарий от anonymous

Заместо Mcelog предлагают использовать https://wiki.archlinux.org/index.php/Machine-check_exception

Я запустил ее:

❯ ras-mc-ctl --error-count
ras-mc-ctl: Error: No DIMMs found in /sys or new sysfs EDAC interface not found.

❯ ras-mc-ctl --summary
No Memory errors.

No PCIe AER errors.

No Extlog errors.

No devlink errors.
Disk errors summary:
	0:0 has 25 errors
No MCE errors.
❯ ras-mc-ctl --errors
No Memory errors.

No PCIe AER errors.

No Extlog errors.

No devlink errors.

Disk errors
1 2021-02-04 15:29:29 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
2 2021-02-04 15:29:31 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
3 2021-02-04 15:29:33 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
4 2021-02-04 15:29:35 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
5 2021-02-04 15:29:37 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
6 2021-02-04 15:29:40 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
7 2021-02-04 15:29:42 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
8 2021-02-04 15:29:44 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
9 2021-02-04 15:29:46 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
[...]
80 2021-02-04 15:32:18 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
81 2021-02-04 15:32:20 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
82 2021-02-04 15:32:22 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
83 2021-02-04 15:32:24 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
84 2021-02-04 15:32:26 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
85 2021-02-04 15:32:28 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',
86 2021-02-04 15:32:30 +0300 error: dev=0:0, sector=-1, nr_sector=0, error='critical target error', rwbs='N', cmd='',

MCE events:
1 2021-02-04 15:32:27 +0300 error: Corrected error, no action required., CPU 2, bank Load Store Unit (bank=0), mcg mcgstatus=0, mci Error_overflow, mcgcap=0x0000011c, status=0xd820000000100015, misc=0xd01b0fff00000000, walltime=0x601be95b, cpu=0x00000001, cpuid=0x00870f10, apicid=0x00000001
Jaeger1999 ★★★
() автор топика
Ответ на: комментарий от Jaeger1999

Это запланированная деградация, сынок

Запроектированное саморазрушение сработало чуть раньше установленного срока

Предполагалось, что ЦА процессоросодержащих подделок никогда не посмотрит в лог и не станет разбираться в причинах

Но не волнуйся, они учтут свой промах, никакая информация об ошибках больше выводиться не будет…

anonymous
()
Ответ на: комментарий от Jaeger1999

ну поидее запрашиваешь RMA описываешь проблему, тебе говорят окей вот таой порядок действий и там либо дают проц заглушку взамен этого на время разбирательств, либо сразу меняют на новый.

Thero ★★★★★
()
Ответ на: комментарий от Thero

Так это точно является гарантийным случаем?
На что это вообще влияет? На производительность, безопасность, стабильность?
Мне _очень_ не хочется разбирать комп до проца.

Jaeger1999 ★★★
() автор топика
Ответ на: комментарий от Jaeger1999

начинаешь с продавца который выдал тебе гарантию и идёшь вверх по лесенке до производителя.

Thero ★★★★★
()
Ответ на: комментарий от Thero

Так а это точно аппаратная проблема с процом, а не мат. платой там? Оперативкой? Может ли быть такое из-за перегрева, к примеру? Неподходящего блока питания?

Jaeger1999 ★★★
() автор топика
Ответ на: комментарий от Jaeger1999

Может ли быть такое из-за перегрева, к примеру? Неподходящего блока питания?

У тебя гарантия на весь комп или на запчасти?
Если на весь комп - то какая разница, если есть гарантия?!
Если на запчасти - то тогда действительно попробуй сменить временно проц на другой.

Atlant ★★★★★
()
Последнее исправление: Atlant (всего исправлений: 1)
Ответ на: комментарий от Jaeger1999

а это точно аппаратная проблема с процом

вероятнее всего.

а не мат. платой там?

чтобы сказать наверняка, нужно сделать выемку твоего проца и протестировать в 100%-но исравном аппратном окружении. если будешь свой проц отдавать в сервис, они будут твой проц таким образом тестировать на своем оборудовании.

Оперативкой?

поэтому тебе выше вроде и рекомендовали сделать тесты памяти. хоят маловероятно, что память.

Может ли быть такое из-за перегрева, к примеру?

да, может. поэтому тебе выше опять же рекомендовали потестить проц холодным и под нагрузкой. охлади его как следует и потестируй. и поэтому тебе рекомендовали прочистить кулер и заменить термопасту. ты это сделал?

Неподходящего блока питания?

конечно. тебе опять же выше кто-то писал про вольтаж. может быть в нём дело. причин может быть масса.

а может быть вообще твой проц когда-то перегрелся и начал дегенирировать. такое тоже бывает. опять же надо тестить.

отдай проц по RMA, напиши заявку, укажи все странности и жди ответа от сервис центра.

anonymous
()
Ответ на: комментарий от anonymous

поэтому тебе выше вроде и рекомендовали сделать тесты памяти. хоят маловероятно, что память.

Да, память гонял. Никаких проблем не было.

рекомендовали потестить проц холодным и под нагрузкой

Эта ошибка возникает при запуске компа на холодную. То есть когда он всю ночь был выключен.

поэтому тебе рекомендовали прочистить кулер и заменить термопасту. ты это сделал?

Компу 9 месяцев. Покупал все новое. Перегрева никакого нету. Ни под нагрузкой, ни без нее. Играл в 3Д-игры по-многу часов — никаких проблем не было. Ни по производительности, на по стабильности.

конечно. тебе опять же выше кто-то писал про вольтаж

Гляну в биосе, но вроде все нормально там было.

а может быть вообще твой проц когда-то перегрелся и начал дегенирировать. такое тоже бывает. опять же надо тестить.

Маловероятно. Я его сильно никогда не гонял.

У меня появилась еще идея по оффтопиком проверить на эту ошибку. Какой тулзой это можно сделать? Плюс бенчмарки погонять можно.

Меня смущает что есть _только_ эта ошибка в логе. Других никаких проявлений нету.

Jaeger1999 ★★★
() автор топика

Как и оказалось, под офтопиком точно такая же проблемa. https://lostpic.net/image/y66R

Произошла устраненная аппаратная ошибка
Сообщивший компонент: ядро процессора
Источник ошибки: Unknown Error Source
Тип ошибки: Translation Lookaside Buffer Error
ИД APIC процесса: 1

И я даже нашел обсуждение ее: https://answers.microsoft.com/ru-ru/windows/forum/windows_8-update/произошл/f...

где сказано:

Вывешиваю решение для тех, кто сталкивается с таким же багом в ОС:
1. в BIOS заходите на страницу усовершенствованных вариантов технологии энергосбережения процессора.
2. Отключаете функцию CPU EIST Function
3. Отключаете функцию CPU Internal Thermal Control
4. Отключаете функцию CPU Enhanced Halt (C1E)
5. Переходите на страницу управления питанием материнской платы
6. Отключаете все C-States
7. Перезагружаетесь с сохранением настроек.

Я поотключал все что можно в настойках CPU, разгона и прочих устройств, но к успеху это не привело.

Хотя вот здесь пишут https://www.cyberforum.ru/pc-problem/thread2518684.html что мол

собственно это оказалось реально проблема с напряжением процессора , а не ПО , хотелось бы узнать как правильно настроить биос , в том числе vcore в данный момент я включил в биосе MCE , load linde calibration - extreme , load line AC DC - extreme + выключены c-state и intel shift technology

Еще идеи у кого будут?

Jaeger1999 ★★★
() автор топика

зато не интол

зато потанцевал

anonymous
()
Ответ на: комментарий от Jaeger1999

даунгрейднул биос до версии 3.60 и все ошибки пропали.

а ведь у тебя вон наверху сразу спросил аноним обновлял ли ты биос.

ты видимо из тех у кого «обновление биоса головного мозга»? зачем ты это делал? какие-то там «мифические ошибки» исправить?

пользуясь случаем ещё раз отвественно перед всем лором заявляю:

ОБНОВЛЕНИЕ БИОСА - ЭТО ЧРЕЗВЫЧАЙНОЕ ПРЕДПРИЯТИЕ И ДЕЛАТЬ ЕГО НУЖНО ТОЛЬКО ИМЕЯ ЧЕТКИЕ ПРЕДСТАВЛЕНИЯ - ЗАЧЕМ ОНО МНЕ НАДО. ТАК КАК В 99.9% НИЧЕГО ОБНОВЛЯТЬ НЕ НАДО И ЗАВОДСКОЙ ВАРИАНТ НАИЛУЧШИЙ, ТАК КАК ОН НАИБОЛЕЕ ОТТЕСТИРОВАННЫЙ, А НОВЫЕ ВЕРСИИ ЗАЧАСТУЮ НЕСУТ В СЕБЕ КУЧУ БАГОВ И НЕДОДЕЛОК.

сейчас лень искать, но где-то помню пост от интелевского инженера примерно схожего содержания.

anonymous
()
Ответ на: комментарий от anonymous

а как в твою картину мира укладывается тот факт, что та же самая матплата но выпущеная позже идёт уже с более новой версией биоса?

anonymous
()
Ответ на: комментарий от anonymous

в моей картине мира есть опыт и практика, и с каждым разом этот опыт подтверждается горе обновлятелями биосов как этот упоротый автор. заводская изначальная версия биоса может тестироваться основательнее. а последующие версии могут выпускаться уже с исправлениями, чего не скажешь о промежуточных поделках.

версия биоса 1 может быть вылизана. версия 2, 3 с багами. а версия 3а для той же матплаты так же вылизана как и версия 1, что и подтверждается на практике вот такими вот топиками. я такое вижу уже не первый раз.

anonymous
()
Ответ на: комментарий от Jaeger1999

напиши в техподдержку производителя, сделай тикет, их инженеры посмотрят, подскажут.

Thero ★★★★★
()
Ответ на: комментарий от anonymous

давно уже нифига не оттестированным выходит заводской биос. сложность и скорость вывода продукта на рынок теперь другие.

Thero ★★★★★
()
Ответ на: комментарий от anonymous

ТАК КАК В 99.9% НИЧЕГО ОБНОВЛЯТЬ НЕ НАДО И ЗАВОДСКОЙ ВАРИАНТ НАИЛУЧШИЙ, ТАК КАК ОН НАИБОЛЕЕ ОТТЕСТИРОВАННЫЙ

Это, видимо, было написано лет 20 назад. И это, конечно, сейчас полная неправда для подавляющего количества современного железа.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.