LINUX.ORG.RU

workflow manager

 ,


0

1

Нагуглить не получается. Простая вроде бы вещь.

Что-то типа workflow manager'а, работающего на кластере.

Должен на входе получать граф с задачками и запускать их на отдельных нодах.

Отказоустойчиво: если задача по своим внутренним причинам упала, должна быть возможность пнуть ее еще раз. Если упала нода, manager должен сам перезапустить на соседней. Ну и естественно устойчивость к спонтанной перезагрузке всего кластера.

Нужен web интерфейс, откуда можно смотреть (глазами) за задачами и, в случае чего, пинать перезапуск.

Нужен API для создания/удаления задач и мониторинга их статусов.

Плюшки вроде наличия блокировок, владения ресурсами и т.д приветствуются, но не обязательны.

★★

О, оказалось для torque/maui тоже есть симпатичный интерфейс Force.

silw ★★★★★ ()
Ответ на: комментарий от kpanic

Apache Spark?

Я так понимаю spark это про map/reduce. Здесь речь идет о том, что над этим.

Есть граф задач. Некоторые из них — map/reduce'ы, некоторые нет. Они должны запускаться с учетом зависимостей. Если какай-то задача сбойнула, должен прийти админ, разобраться в чем дело и починить. После этого выполнение графа должно продолжиться.

ival ★★ ()
Ответ на: комментарий от silw

Посмотрел. Там вроде про другое: есть общая очередь и решается вопрос раскидывания задач по нодам.

А тут вопрос про граф. Пусть есть граф зависимостей:

A: 
B: [A]
C: [A]
D: [B,C] 

Система запускает А, затем B, или С. Нужно, чтобы если B сбойнула, С все равно выполнилась. Потом, когда что-то поправили, выполнилась B, затем таки выполнилась D.

ival ★★ ()
Последнее исправление: ival (всего исправлений: 1)
Ответ на: комментарий от ival

Про автоматический перезапуск упавших задач там тоже есть опции. Правда я со slurm сталкиваюсь исключительно как пользователь и, как правило, в чуть более простых ситуациях, так что не могу гарантировать, что прям взять и завести это будет очень легко.

silw ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.