История изменений
Исправление chabapok, (текущая версия) :
думал о фене. Стремно как-то.
mce-test как-то работает. Там в нем много тестов каких то, в том числе взаимоисключающих, таких, которым надо то ли отключать модули - то ли делать особое ядро. Пока этим не занимался. Запустил - оно потестило-потестило, понаписывало логов… Какие-то тесты прошлись, какие-то пофейлились…
Типичный фрагмент лога (весь лог 11метров):
[ 4243.869613] Injecting memory failure for pfn 0x73302b at process virtual address 0x7f4410ae4000
[ 4243.869626] MCE: Killing page-poisoning:13136 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.869632] Memory failure: 0x5d9edf: recovery action for dirty LRU page: Recovered
[ 4243.869695] MCE: Killing page-poisoning:13137 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.869790] Memory failure: 0x73302b: recovery action for dirty LRU page: Recovered
[ 4243.869869] MCE: Killing page-poisoning:13138 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.870271] Injecting memory failure for pfn 0x756398 at process virtual address 0x7f4410ae4000
[ 4243.870450] Memory failure: 0x756398: recovery action for dirty LRU page: Recovered
[ 4243.870592] MCE: Killing page-poisoning:13140 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.870615] Injecting memory failure for pfn 0x672b0e at process virtual address 0x7f4410ae4000
[ 4243.870618] Injecting memory failure for pfn 0x6bfccd at process virtual address 0x7f4410ae4000
[ 4243.870637] Injecting memory failure for pfn 0x625e6e at process virtual address 0x7f4410ae4000
[ 4243.870784] Memory failure: 0x6bfccd: recovery action for dirty LRU page: Recovered
[ 4243.870852] Injecting memory failure for pfn 0x5ae516 at process virtual address 0x7f4410ae4000
[ 4243.870871] Memory failure: 0x672b0e: recovery action for dirty LRU page: Recovered
Понаписывало такого очень много. Как видно, оно что-то рекаверит, наверное это и есть работа ЕСС, предположительно. Вроде и работает - вроде и не работает. Однозначного ответа у меня нет. И непонятно, что должно проходится, а что нет.
testcase result
-------------------- ----------
APEI-INJ FAIL
ERST-INJ FAIL
PFA FAIL
HWPOISON-SOFT PASS
HWPOISON-HARD PASS
HWPOISON-HUGEPAGE PASS
HWPOISON-THP PASS
BSP FAIL
STRESS-HWPOISON-SOFT PASS
STRESS-HWPOISON-HARD FAIL
Но для первых трех тестов нужны какие-то модули, которых не оказалось. То есть на самом деле там не Fail, а тест не запускался. Может, если подшаманить, их и получится завести. Хотя комплект стоил на алике со всеми скидками менее 100$, и за такие деньги странно, что оно впринципе как-то работает.
Оно как-то вышло сложно все. Я хотел чтоб прям внесли ошибку - и ХОБА - какой-то счетчик сделал +1. А получилось куча тестов, которые непонятно что и непонятно как делают. Что-то явно делало, что-то явно исправляло. А например, для последнего теста написано, что там такой стрессовый стресс, что просто афанареть, и он полностью никогда не проходится - но вопрос в количестве фейлов. При этом,у меня 1140 tests failed, 0 tests pass - что явно говорит о полном его провале.
А те счетчики, которые я думал будут считать (edac-util --report=full), как были по нулям - так и стоят. Непонятно. Есть еще, кстати, прожка в репозиториях убунты - rasdaemon, вроде более новая чем edac_util+mce-inject. Но насколько я понял, принципиально это то же самое.
Исходная версия chabapok, :
думал о фене. Стремно как-то.
mce-test как-то работает. Там в нем много тестов каких то, в том числе взаимоисключающих, таких, которым надо то ли отключать модули - то ли делать особое ядро. Пока этим не занимался. Запустил - оно потестило-потестило, понаписывало логов… Какие-то тесты прошлись, какие-то пофейлились…
Типичный фрагмент лога (весь лог 11метров):
[ 4243.869613] Injecting memory failure for pfn 0x73302b at process virtual address 0x7f4410ae4000
[ 4243.869626] MCE: Killing page-poisoning:13136 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.869632] Memory failure: 0x5d9edf: recovery action for dirty LRU page: Recovered
[ 4243.869695] MCE: Killing page-poisoning:13137 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.869790] Memory failure: 0x73302b: recovery action for dirty LRU page: Recovered
[ 4243.869869] MCE: Killing page-poisoning:13138 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.870271] Injecting memory failure for pfn 0x756398 at process virtual address 0x7f4410ae4000
[ 4243.870450] Memory failure: 0x756398: recovery action for dirty LRU page: Recovered
[ 4243.870592] MCE: Killing page-poisoning:13140 due to hardware memory corruption fault at 7f4410ae4000
[ 4243.870615] Injecting memory failure for pfn 0x672b0e at process virtual address 0x7f4410ae4000
[ 4243.870618] Injecting memory failure for pfn 0x6bfccd at process virtual address 0x7f4410ae4000
[ 4243.870637] Injecting memory failure for pfn 0x625e6e at process virtual address 0x7f4410ae4000
[ 4243.870784] Memory failure: 0x6bfccd: recovery action for dirty LRU page: Recovered
[ 4243.870852] Injecting memory failure for pfn 0x5ae516 at process virtual address 0x7f4410ae4000
[ 4243.870871] Memory failure: 0x672b0e: recovery action for dirty LRU page: Recovered
Понаписывало такого очень много. Как видно, оно что-то рекаверит, наверное оно, предположительно. Вроде и работает - вроде и не работает. Однозначного ответа у меня нет. И непонятно, что должно проходится, а что нет.
testcase result
-------------------- ----------
APEI-INJ FAIL
ERST-INJ FAIL
PFA FAIL
HWPOISON-SOFT PASS
HWPOISON-HARD PASS
HWPOISON-HUGEPAGE PASS
HWPOISON-THP PASS
BSP FAIL
STRESS-HWPOISON-SOFT PASS
STRESS-HWPOISON-HARD FAIL
Но для первых трех тестов нужны какие-то модули, которых не оказалось. То есть на самом деле там не Fail, а тест не запускался. Может, если подшаманить, их и получится завести. Хотя комплект стоил на алике со всеми скидками менее 100$, и за такие деньги странно, что оно впринципе как-то работает.
Оно как-то вышло сложно все. Я хотел чтоб прям внесли ошибку - и ХОБА - какой-то счетчик сделал +1. А получилось куча тестов, которые непонятно что и непонятно как делают. Что-то явно делало, что-то явно исправляло. А например, для последнего теста написано, что там такой стрессовый стресс, что просто афанареть, и он полностью никогда не проходится - но вопрос в количестве фейлов. При этом,у меня 1140 tests failed, 0 tests pass - что явно говорит о полном его провале.
А те счетчики, которые я думал будут считать (edac-util --report=full), как были по нулям - так и стоят. Непонятно. Есть еще, кстати, прожка в репозиториях убунты - rasdaemon, вроде более новая чем edac_util+mce-inject. Но насколько я понял, принципиально это то же самое.