LINUX.ORG.RU
ФорумAdmin

Нарушение коммуникации в SLURM

 ,


0

2

Наш кластер из ~60 узлов внезапно стал ронять задачи и тупить, потом сказал, что не видит демоны SLURN на вычислительных узлах. При копании в логах выяснилось, что там присутствует такая ошибка:

[2013-07-31T13:05:03] error: Node n0308 appears to have a different slurm.conf than the slurmctld.  This could cause issues with communication and functionality.  Please review both files and make sure they are the same.  If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.               

Перезапустил инит-скрипт slurm на всех узлах - вроде помогло. Странно, что это было-то? Ошибка светится в логах с самого 2011 года, когда нам этот кластер собрали, но проблема такая возникла только сейчас. Странно..

★★★

Последнее исправление: cetjs2 (всего исправлений: 1)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.