LINUX.ORG.RU

Замена памяти и сбои при расчётах


0

1

Дано: кластер на картах Tesla. CentOS 6.2. Во время расчётов нода умирает (недоступна по ssh и с физической консоли), успев ругнуться на экран чем-то типа этого

Message from syslogd@<имя хоста> at <дата-время>

kernel:Code: 58 e4 ca a0 e8 9b f5 62 00 b8 00 00 00 00 e8 b3 f5 62 00 85 c0 74 05 e8 51 ea 65 00 b8 00 00 00 00 eb 15 8b 5f 6c e8 b6 fd ff ff <48> 89 c7 89 da 44 89 e6 e8 40 0b 00 00 48 83 c5 08 48 83 c4 08

Проверяли память - memtest86+ прошёл. Заменили память на другие планки (правда, их было немного, так что памяти стало меньше) - расчётные программы работают и не падают. Что такое может быть с памятью?


с температурой как?

aol ★★★★★
()

memtest86+ прошёл

Стандартные тесты один раз — это вообще не показатель. Не менее десяти проходов и один bit fade. А потом memtester.

anonymous
()
Ответ на: комментарий от anonymous

Температура выше 65 С не поднималась

memtest гонял десятки проходов

ZFS не использовал

система 64-битная

array
() автор топика
Ответ на: комментарий от array

Попробуй тест «bit fade» (он включается через меню memtest86+). И memtester — он может выявить проблемы, которые memtest86+ не замечает.

anonymous
()

бывает memtest не выявляет редкие проблемы, увы.

true_admin ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.