LINUX.ORG.RU
решено ФорумAdmin

Две проблемы Slurm и systemd

 ,


0

1

Есть две машины: одна head, другая node в slurm.

HEAD:

● slurmctld.service - Slurm controller daemon
     Loaded: loaded (/usr/lib/systemd/system/slurmctld.service; enabled; vendor preset: disabled)
     Active: active (running) since Sat 2020-04-25 13:48:30 EEST; 11min ago
    Process: 726 ExecStart=/usr/bin/slurmctld $SLURMCTLD_OPTIONS (code=exited, status=0/SUCCESS)
   Main PID: 738 (slurmctld)
      Tasks: 7 (limit: 2361)
     Memory: 8.2M
     CGroup: /system.slice/slurmctld.service
             └─738 /usr/bin/slurmctld

Apr 25 13:48:29 ASUS-X52DE systemd[1]: Starting Slurm controller daemon...
Apr 25 13:48:30 ASUS-X52DE systemd[1]: slurmctld.service: Supervising process 738 which is not our child. We'll most likely not notice when it exits.
Apr 25 13:48:30 ASUS-X52DE systemd[1]: Started Slurm controller daemon.
NODE:

● slurmd.service - Slurm node daemon
     Loaded: loaded (/lib/systemd/system/slurmd.service; enabled; vendor preset: enabled)
     Active: active (running) since Sat 2020-04-25 13:55:43 EEST; 1s ago
       Docs: man:slurmd(8)
    Process: 1356 ExecStart=/usr/sbin/slurmd $SLURMD_OPTIONS (code=exited, status=0/SUCCESS)
   Main PID: 1358 (slurmd)
      Tasks: 2
     Memory: 1.5M
     CGroup: /system.slice/slurmd.service
             └─1358 /usr/sbin/slurmd

апр 25 13:55:43 bravo-cloud systemd[1]: Starting Slurm node daemon...
апр 25 13:55:43 bravo-cloud systemd[1]: slurmd.service: Can't open PID file /run/slurmd.pid (yet?) after start: Operation not permitted
апр 25 13:55:43 bravo-cloud systemd[1]: Started Slurm node daemon.

Впринципе оно запустилось, но такие ошибки остались. Здесь скорее проблема не в slurm, а systemd.

Давал права

chmod 777 /run/slurmd.pid
, но не решило проблему.

Ещё вопрос — как проверить работоспособность slurm?

★★★★

Ответ на: комментарий от deep-purple

Уже решил давно. Теперь на ноде такое:

error: Unable to register: Zero Bytes were transmitted or received
Постоянно повторяется.

А на хосте время слетело и

Apr 25 15:22:15 ASUS-X52DE slurmctld[10217]: DECODED: Thu Jan 01 03:00:00 1970
Apr 25 15:22:15 ASUS-X52DE slurmctld[10217]: error: slurm_unpack_received_msg: MESSAGE_NODE_REGISTRATION_STATUS has authentication error: Unspecifi>
Apr 25 15:22:15 ASUS-X52DE slurmctld[10217]: error: slurm_unpack_received_msg: Protocol authentication error
Apr 25 15:22:15 ASUS-X52DE slurmctld[10217]: error: slurm_receive_msg [10.42.0.34:45802]: Unspecified error
Apr 25 15:22:16 ASUS-X52DE slurmctld[10217]: error: Munge decode failed: Invalid credential
Apr 25 15:22:16 ASUS-X52DE slurmctld[10217]: ENCODED: Thu Jan 01 03:00:00 1970
Apr 25 15:22:16 ASUS-X52DE slurmctld[10217]: DECODED: Thu Jan 01 03:00:00 1970

/etc/munge/munge.key копировал из хоста.

Artamudo ★★★★
() автор топика
Последнее исправление: Artamudo (всего исправлений: 1)
Ответ на: комментарий от Artamudo

Решил. Теперь вот это вот.

Apr 25 15:40:47 ASUS-X52DE slurmctld[13313]: Node bravo-cloud appears to have a different version of Slurm than ours.  Please update at your earlie>
Apr 25 15:40:47 ASUS-X52DE slurmctld[13313]: error: Node bravo-cloud appears to have a different slurm.conf than the slurmctld.  This could cause i>
Apr 25 15:40:47 ASUS-X52DE slurmctld[13313]: error: Node bravo-cloud has low real_memory size (1865 < 2048)
Apr 25 15:40:47 ASUS-X52DE slurmctld[13313]: error: _slurm_rpc_node_registration node=bravo-cloud: Invalid argument
Apr 25 15:40:48 ASUS-X52DE slurmctld[13313]: Node bravo-cloud appears to have a different version of Slurm than ours.  Please update at your earlie>
Apr 25 15:40:48 ASUS-X52DE slurmctld[13313]: error: Node bravo-cloud appears to have a different slurm.conf than the slurmctld.  This could cause i>
Apr 25 15:40:48 ASUS-X52DE slurmctld[13313]: error: Node bravo-cloud has low real_memory size (1865 < 2048)
Apr 25 15:40:48 ASUS-X52DE slurmctld[13313]: error: _slurm_rpc_node_registration node=bravo-cloud: Invalid argument

Поскольку на хосте slurm из аура, я хз что делать с дебианом. Компелять не очень хочется.

Artamudo ★★★★
() автор топика
Последнее исправление: Artamudo (всего исправлений: 1)
Ответ на: комментарий от Artamudo

Всё что было не про версию пофиксил. Вроде работает. Если проблемы будут, то git clone и поехал. Спасибо за помощь.

Artamudo ★★★★
() автор топика

Окей. Вроде решил. Теперь осталось разобраться как с этим работать. Как я предполагал, что он самый нагруженный процесс отправляет как-то на ноду. Или нужно исполнять только MPI софт?

Artamudo ★★★★
() автор топика
Ответ на: комментарий от Artamudo

Уже решил давно
пофиксил
Вроде решил

Как именно? Опиши чтобы другие кто столкнётся с такой же проблемой хоть прочли.

deep-purple ★★★★★
()
Ответ на: комментарий от deep-purple

Описывать в принципе нечего, просто исправлял ошибки в правах из логов.

Кстати вот ещё одна.

fatal: Incorrect permissions on state save loc: /var/spool

Даю доступ через chmod 777, как сделать чтобы оно сохранялось после перезагрузки?

Artamudo ★★★★
() автор топика
Ответ на: комментарий от Artamudo

Запустить эту хрень от другого юзера.

Но, я не знаю что это за хрень и для чего она нужна. И даже гуглить не хочу. И рассказывать мне тут тоже не надо.

А в её доках, что, не написано от какого пользака и почему она должна запускаться?

А как насчет ресурсов, зависимостей и понижения привилегий после запуска от рута? А юниты идущие в поставке?

Ты вообще как её запускаешь то не разобравшись?

А потом наставив 777 ты прибежишь что тебя хакнули.

deep-purple ★★★★★
()
Ответ на: комментарий от deep-purple

Запускаю всё от рута через службу systemd, но оно требует своего юзера. Ну поставил, после перезагрузки отпишусь если опять сбросится. А вообще /thread. Всё что хотел, сделал. Даже нагрузку делит, только тогда интернет немного отваливается. Оно и понятно.

Artamudo ★★★★
() автор топика
Последнее исправление: Artamudo (всего исправлений: 1)
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.