workflow manager

0

1

Нагуглить не получается. Простая вроде бы вещь.

Что-то типа workflow manager'а, работающего на кластере.

Должен на входе получать граф с задачками и запускать их на отдельных нодах.

Отказоустойчиво: если задача по своим внутренним причинам упала, должна быть возможность пнуть ее еще раз. Если упала нода, manager должен сам перезапустить на соседней. Ну и естественно устойчивость к спонтанной перезагрузке всего кластера.

Нужен web интерфейс, откуда можно смотреть (глазами) за задачами и, в случае чего, пинать перезапуск.

Нужен API для создания/удаления задач и мониторинга их статусов.

Плюшки вроде наличия блокировок, владения ресурсами и т.д приветствуются, но не обязательны.

Ссылка

← хочу локальную функцию.

Парсинг RAW AAC →

Apache Spark?

kpanic ★★
(17.10.15 15:41:35 MSK)

slurm + slurm-web?

silw ★★★★★
(17.10.15 15:49:15 MSK)

О, оказалось для torque/maui тоже есть симпатичный интерфейс Force.

silw ★★★★★
(17.10.15 15:52:29 MSK)

Ссылка

Ответ на: комментарий от kpanic 17.10.15 15:41:35 MSK

Apache Spark?

Я так понимаю spark это про map/reduce. Здесь речь идет о том, что над этим.

Есть граф задач. Некоторые из них — map/reduce'ы, некоторые нет. Они должны запускаться с учетом зависимостей. Если какай-то задача сбойнула, должен прийти админ, разобраться в чем дело и починить. После этого выполнение графа должно продолжиться.

ival ★★
(17.10.15 18:16:35 MSK) автор топика

Ссылка

Ответ на: комментарий от silw 17.10.15 15:49:15 MSK

slurm + slurm-web?

На глаз похоже на правду. Попробую посмотреть.

Спасибо.

ival ★★
(17.10.15 18:20:08 MSK) автор топика

Ответ на: комментарий от ival 17.10.15 18:20:08 MSK

slurm, кстати, превалирует в top500.

silw ★★★★★
(17.10.15 19:25:59 MSK)

Ссылка

Ответ на: комментарий от silw 17.10.15 15:49:15 MSK

Посмотрел. Там вроде про другое: есть общая очередь и решается вопрос раскидывания задач по нодам.

А тут вопрос про граф. Пусть есть граф зависимостей:

A: 
B: [A]
C: [A]
D: [B,C]

Система запускает А, затем B, или С. Нужно, чтобы если B сбойнула, С все равно выполнилась. Потом, когда что-то поправили, выполнилась B, затем таки выполнилась D.

ival ★★
(17.10.15 19:31:16 MSK) автор топика
Последнее исправление: ival 17.10.15 19:32:13 MSK (всего исправлений: 1)

Google's Borg?

eao197 ★★★★★
(17.10.15 20:14:46 MSK)

Ссылка

https://github.com/abudnik/prun

anonymous
(17.10.15 22:58:55 MSK)

Ссылка

Ответ на: комментарий от ival 17.10.15 19:31:16 MSK

man sbatch опция -d

silw ★★★★★
(18.10.15 12:11:57 MSK)

Ответ на: комментарий от silw 18.10.15 12:11:57 MSK

man sbatch опция -d

Не приметил.

Это то, что надо.

ival ★★
(18.10.15 13:35:12 MSK) автор топика

Ответ на: комментарий от ival 18.10.15 13:35:12 MSK

Про автоматический перезапуск упавших задач там тоже есть опции. Правда я со slurm сталкиваюсь исключительно как пользователь и, как правило, в чуть более простых ситуациях, так что не могу гарантировать, что прям взять и завести это будет очень легко.

silw ★★★★★
(18.10.15 14:06:44 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← хочу локальную функцию.

Development

Парсинг RAW AAC →

Похожие темы