LINUX.ORG.RU

История изменений

Исправление chabapok, (текущая версия) :

думал о фене. Стремно как-то.

mce-test как-то работает. Там в нем много тестов каких то, в том числе взаимоисключающих, таких, которым надо то ли отключать модули - то ли делать особое ядро. Пока этим не занимался. Запустил - оно потестило-потестило, понаписывало логов… Какие-то тесты прошлись, какие-то пофейлились…

Типичный фрагмент лога (весь лог 11метров):

[ 4243.869613] Injecting memory failure for pfn 0x73302b at process virtual address 0x7f4410ae4000
[ 4243.869626] MCE: Killing page-poisoning:13136 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.869632] Memory failure: 0x5d9edf: recovery action for dirty LRU page: Recovered
[ 4243.869695] MCE: Killing page-poisoning:13137 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.869790] Memory failure: 0x73302b: recovery action for dirty LRU page: Recovered
[ 4243.869869] MCE: Killing page-poisoning:13138 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.870271] Injecting memory failure for pfn 0x756398 at process virtual address 0x7f4410ae4000
[ 4243.870450] Memory failure: 0x756398: recovery action for dirty LRU page: Recovered
[ 4243.870592] MCE: Killing page-poisoning:13140 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.870615] Injecting memory failure for pfn 0x672b0e at process virtual address 0x7f4410ae4000
[ 4243.870618] Injecting memory failure for pfn 0x6bfccd at process virtual address 0x7f4410ae4000
[ 4243.870637] Injecting memory failure for pfn 0x625e6e at process virtual address 0x7f4410ae4000
[ 4243.870784] Memory failure: 0x6bfccd: recovery action for dirty LRU page: Recovered
[ 4243.870852] Injecting memory failure for pfn 0x5ae516 at process virtual address 0x7f4410ae4000
[ 4243.870871] Memory failure: 0x672b0e: recovery action for dirty LRU page: Recovered

Понаписывало такого очень много. Как видно, оно что-то рекаверит, наверное это и есть работа ЕСС, предположительно. Вроде и работает - вроде и не работает. Однозначного ответа у меня нет. И непонятно, что должно проходится, а что нет.

testcase              result 
--------------------  ----------
APEI-INJ              FAIL
ERST-INJ              FAIL
PFA                   FAIL
HWPOISON-SOFT         PASS
HWPOISON-HARD         PASS
HWPOISON-HUGEPAGE     PASS
HWPOISON-THP          PASS
BSP                   FAIL
STRESS-HWPOISON-SOFT  PASS
STRESS-HWPOISON-HARD  FAIL

Но для первых трех тестов нужны какие-то модули, которых не оказалось. То есть на самом деле там не Fail, а тест не запускался. Может, если подшаманить, их и получится завести. Хотя комплект стоил на алике со всеми скидками менее 100$, и за такие деньги странно, что оно впринципе как-то работает.

Оно как-то вышло сложно все. Я хотел чтоб прям внесли ошибку - и ХОБА - какой-то счетчик сделал +1. А получилось куча тестов, которые непонятно что и непонятно как делают. Что-то явно делало, что-то явно исправляло. А например, для последнего теста написано, что там такой стрессовый стресс, что просто афанареть, и он полностью никогда не проходится - но вопрос в количестве фейлов. При этом,у меня 1140 tests failed, 0 tests pass - что явно говорит о полном его провале.

А те счетчики, которые я думал будут считать (edac-util --report=full), как были по нулям - так и стоят. Непонятно. Есть еще, кстати, прожка в репозиториях убунты - rasdaemon, вроде более новая чем edac_util+mce-inject. Но насколько я понял, принципиально это то же самое.

Исходная версия chabapok, :

думал о фене. Стремно как-то.

mce-test как-то работает. Там в нем много тестов каких то, в том числе взаимоисключающих, таких, которым надо то ли отключать модули - то ли делать особое ядро. Пока этим не занимался. Запустил - оно потестило-потестило, понаписывало логов… Какие-то тесты прошлись, какие-то пофейлились…

Типичный фрагмент лога (весь лог 11метров):

[ 4243.869613] Injecting memory failure for pfn 0x73302b at process virtual address 0x7f4410ae4000
[ 4243.869626] MCE: Killing page-poisoning:13136 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.869632] Memory failure: 0x5d9edf: recovery action for dirty LRU page: Recovered
[ 4243.869695] MCE: Killing page-poisoning:13137 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.869790] Memory failure: 0x73302b: recovery action for dirty LRU page: Recovered
[ 4243.869869] MCE: Killing page-poisoning:13138 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.870271] Injecting memory failure for pfn 0x756398 at process virtual address 0x7f4410ae4000
[ 4243.870450] Memory failure: 0x756398: recovery action for dirty LRU page: Recovered
[ 4243.870592] MCE: Killing page-poisoning:13140 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.870615] Injecting memory failure for pfn 0x672b0e at process virtual address 0x7f4410ae4000
[ 4243.870618] Injecting memory failure for pfn 0x6bfccd at process virtual address 0x7f4410ae4000
[ 4243.870637] Injecting memory failure for pfn 0x625e6e at process virtual address 0x7f4410ae4000
[ 4243.870784] Memory failure: 0x6bfccd: recovery action for dirty LRU page: Recovered
[ 4243.870852] Injecting memory failure for pfn 0x5ae516 at process virtual address 0x7f4410ae4000
[ 4243.870871] Memory failure: 0x672b0e: recovery action for dirty LRU page: Recovered

Понаписывало такого очень много. Как видно, оно что-то рекаверит, наверное оно, предположительно. Вроде и работает - вроде и не работает. Однозначного ответа у меня нет. И непонятно, что должно проходится, а что нет.

testcase              result 
--------------------  ----------
APEI-INJ              FAIL
ERST-INJ              FAIL
PFA                   FAIL
HWPOISON-SOFT         PASS
HWPOISON-HARD         PASS
HWPOISON-HUGEPAGE     PASS
HWPOISON-THP          PASS
BSP                   FAIL
STRESS-HWPOISON-SOFT  PASS
STRESS-HWPOISON-HARD  FAIL

Но для первых трех тестов нужны какие-то модули, которых не оказалось. То есть на самом деле там не Fail, а тест не запускался. Может, если подшаманить, их и получится завести. Хотя комплект стоил на алике со всеми скидками менее 100$, и за такие деньги странно, что оно впринципе как-то работает.

Оно как-то вышло сложно все. Я хотел чтоб прям внесли ошибку - и ХОБА - какой-то счетчик сделал +1. А получилось куча тестов, которые непонятно что и непонятно как делают. Что-то явно делало, что-то явно исправляло. А например, для последнего теста написано, что там такой стрессовый стресс, что просто афанареть, и он полностью никогда не проходится - но вопрос в количестве фейлов. При этом,у меня 1140 tests failed, 0 tests pass - что явно говорит о полном его провале.

А те счетчики, которые я думал будут считать (edac-util --report=full), как были по нулям - так и стоят. Непонятно. Есть еще, кстати, прожка в репозиториях убунты - rasdaemon, вроде более новая чем edac_util+mce-inject. Но насколько я понял, принципиально это то же самое.