LINUX.ORG.RU
ФорумAdmin

Управление инцидентами на основании алертов prometheus

 ,


0

1

Выстраиваем мониторинг, весь софт выдает наружу счетчики, они уходят в прометеус.

Хочется чтобы при возникновении проблем (список правил по которым проблемы диагностируются ещё в проработке) можно было развернуть бюрократию по полной:

  • завести инцидент
  • назначить ответственного
  • написать на него донос предложить ему шаги решения
  • дать ему место для записи постмортема

Всё работает в сети без интернета, нужен on premises

alertmanager выглядит, что если и брать, то много прогать руками, потому что у него алерты больше подходят для обычных дежурств, в которых если что-то починилось, то и успокойся.

Ощущение, что я может быть хочу что-то типа заббикса/нагиоса, но не могу пересилить себя, чтобы их попробовать.

У Grafana есть подобный функционал, но глубоко его не ковырял. С Прометеусом она дружит (это юзал).

Norgat ★★★★★
()

Если без интернетов, то или Grafana On-Call, или alertmanager.

Но да, прометей - не искоробочное решение, наоборот, деталька для конструктора.

l0stparadise ★★★★★
()
Ответ на: комментарий от l0stparadise

Да, oncall выглядит вроде как то, что вполне может подойти

max_lapshin ★★★★★
() автор топика
Ответ на: комментарий от maxcom

Мне кажется, что мне нравится grafana oncall. Слегка с ней поработать, повозиться с группировкой и будет ок.

Что важно и чем оно отличается от редмайна?

  1. автоматически подсасывается календарь. Ясно кому звонить
  2. автоматическая эскалация алертов
  3. группировка

Всё это можно напрогать самому и получится самодельная oncall =)

max_lapshin ★★★★★
() автор топика

Графану уже написали. Но она тяжелая. Проще самим запилить програмульку

guyvernk
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.