LINUX.ORG.RU

Prometheus Alerts

 ,


0

0

Добрый день, Я новичок в Prometheus. Настроил мониторинг, перешел к алертам и попал в тупик.

Есть 2 группы оборудования. 1 - роутеры, 2 - серверы. Есть 2 файла с правилами. В каждом файле присутстывет правило для алерта при привышени времени отклика.

- alert: host_response_time_is_high_via_icmp
      expr: sum by (instance) (probe_icmp_duration_seconds) > 0.3
      for: 10s
      labels:
        severity: warning
      annotations:
        description: "Host {{ $labels.instance }} response time via icmp-protocol is very high ( >300ms ) for more than 1 minutes."
        summary: "Host {{ $labels.instance }} response time is {{ humanize $value}}s"

При тестировании, я меняю предел 300мс до значений чтоб алерт сработал. Когда я меняю для группы серверов, все равно обрабатывается группа с роутерами, соотвественно я получаю алерты для роутеров. Для группы серверов алерты (icmp) не приходят вообще. Что я делаю не так? Где туплю?

Прежде чем алерты настраивать, зайти в web ui и нарисуй графики тех функций которые пытаешься отслеживать.

Там есть автодополнение по имени метрик, и удобно посмотреть есть ли вообще такая метрика и для каких хостов.

Ну или можно сходить ещё в targets и там пройдя по ссылкам посмотреть на сырые данные которые получает Prometheus, и проверить как конкретно называются метрики которые отдают твои серверы и роутеры.

alpha ★★★★★ ()
Ответ на: комментарий от alpha

У меня все графики уже рисуются в Grafana. В targets метрики проверил. Метрики одинаковые для хостов.

# HELP probe_dns_lookup_time_seconds Returns the time taken for probe dns lookup in seconds
# TYPE probe_dns_lookup_time_seconds gauge
probe_dns_lookup_time_seconds 0.000904938
# HELP probe_duration_seconds Returns how long the probe took to complete in seconds
# TYPE probe_duration_seconds gauge
probe_duration_seconds 0.002229771
# HELP probe_icmp_duration_seconds Duration of icmp request by phase
# TYPE probe_icmp_duration_seconds gauge
probe_icmp_duration_seconds{phase="resolve"} 0.000904938
probe_icmp_duration_seconds{phase="rtt"} 0.001076211
probe_icmp_duration_seconds{phase="setup"} 8.8963e-05
# HELP probe_icmp_reply_hop_limit Replied packet hop limit (TTL for ipv4)
# TYPE probe_icmp_reply_hop_limit gauge
probe_icmp_reply_hop_limit 254
# HELP probe_ip_addr_hash Specifies the hash of IP address. It's useful to detect if the IP address changes.
# TYPE probe_ip_addr_hash gauge
probe_ip_addr_hash 2.96524342e+08
# HELP probe_ip_protocol Specifies whether probe ip protocol is IP4 or IP6
# TYPE probe_ip_protocol gauge
probe_ip_protocol 4
# HELP probe_success Displays whether or not the probe was a success
# TYPE probe_success gauge
probe_success 1
azubkov ()
Ответ на: комментарий от azubkov

удалось вам разделить правила алертинга по оборудованию? Попал в схожую ситуацию, не могу разделить алертинг отдельно для хоста, для бэкэнда, для базы данных и тд.

functionX ()
Ограничение на отправку комментариев: только для зарегистрированных пользователей