LINUX.ORG.RU

4
Всего сообщений: 21

Посоветуйте систему мониторинга

Всем здравствуйте.

Посоветуйте, пожалуйста, систему мониторинга, соответствующую след. набору критериев:

  1. Наличие пакетов под Debian. Собирать вручную и самостоятельно поддерживать уже надоело.
  2. Распределённая архитектура (с возможностью либо устанавливать на наблюдаемую машину агента, либо, лучше, заходить по SSH по ключу и захватывать вывод произвольной команды). Ибо хочу наблюдать 4 машины и консолидировать данные.
  3. Хранение истории метрик (желательно, в базе – MySQL или PostgreSQL).
  4. Наличие Web-интерфейса для наблюдения метрик.
  5. Наличие Web-интерфейса для настройки (это то, чего лишены Nagios и Icinga).
  6. Умение мониторить SMART-атрибуты дисков без ужимок, прыжков, необходимости запускать процесс от имени root и вручную описывать наблюдаемую сущность. Вот это ключевое, потому что XXI век на дворе, а я только что убил полчаса на настройку /usr/lib/nagios/plugins/check_ide_smart – и ловлю себя на мысли, что проще с нуля приготовить MRTG, чем иметь дело с костылями под названием Nagios и его форками.

У кого есть опыт работы с OpenNMS, Zabbix, MRTG, PRTG, Cacti – да хоть чёртом в ступе – поделитесь, пожалуйста.

 , , , ,

Bass ()

Icinga + postgresql

Существует такая проблема. Как я понимаю база данных (postgresql) не обрабатывает ни одного запроса. Делал дебаг ido2db и icinga, нет ни одной ошибки в SQL запросах. Подскажите в какую сторону смотреть и что ещё можно проверить.

 ido2db: IDO2DB proxy stats (p=0xb7bc90): left=4096 bytes, right=0 bytes; iostats=449580459 bytes
 ido2db: IDO2DB proxy stats (p=0xb7bc90): left=4096 bytes, right=0 bytes; iostats=449764611 bytes
 ido2db: IDO2DB proxy stats (p=0xb7bc90): left=4096 bytes, right=0 bytes; iostats=449949776 bytes
 ido2db: IDO2DB proxy stats (p=0xb7bc90): left=4096 bytes, right=0 bytes; iostats=450138027 bytes
 ido2db: IDO2DB proxy stats (p=0xb7bc90): left=4096 bytes, right=0 bytes; iostats=450356254 bytes
 ido2db: IDO2DB proxy stats (p=0xb7bc90): left=4096 bytes, right=0 bytes; iostats=450541440 bytes
 ido2db: IDO2DB proxy stats (p=0xb7bc90): left=4096 bytes, right=0 bytes; iostats=450714484 bytes
 ido2db: IDO2DB proxy stats (p=0xb7bc90): left=4096 bytes, right=0 bytes; iostats=450913170 bytes

 ,

whitedevil ()

icinga. переехать на agent->satellite->master.

Салам коллеги.
У меня, в друх разных и отдельных друг от друга сетевых зонах, есть два icinga-мастера со своими агентами.
Хочется сделать все более красивее. Схема описана в документации.
У меня есть несколько вопросов:

  • я смогу сменить роль с master на satellite без переустановки всех агентов ?
  • я поднимаю еще одну машинку с icinga-master, а бд на satellite-ах останутся своими ?
  • а если что-то пойдет не так, смогу все быстро откатить обратно (сменить обратно с satellite на master) ?
  • как так забекапиться, что бы быть уверенным что не придется заного устанавливать агенты.

Спасибо!

 , ,

dada ()

sla отчеты в icinga2.

Коллеги, помогите с вопросом.
К исинге подключено 10 серверов и на каждом проверяется 10 сервисов
Это большая windows ферма, так что все проверяемые сервисы одинаковые.
Есть задача:
Сделать отчет в котором указано сколько времени не работало минимум 4 сервера с 2-мя сервисами.
Т.е. мы приняли что эта ферма «жива» если работают минимум 4 сервера. «работают» - это то, что на них в статусе «OK» check_disk и check_api(самописный)
Вопрос, как все это сделать ?
Я установил модуль Reporting, он выдает SLA по своим каким-то меркам.
В данный момент пытаюсь все вытащить из мускула, но не покидает ощущение что я что-то делаю не так.
Может кто делал подобное ?
Спасибо.

 , , , ,

dada ()

Проблема в работе с Icinga в Ubuntu 14.04.5 LTS

Добого дня всем, с некотого времени возникла проблема с проверкой рутера. Icinga проверяет удаленный Router через определённое время. Раз в сутки при смене IP через провайдера, терятся Route к нему. Стандартный Nameserver прописан. Пробовал Static Route прописать. Таже ошибка при смене IP через провайдера, терятся Route. И что интересн, это случается не постоянно и не только на определённом рутере. Проверка других хостов и свитчей проходит на ура без перебоев. traceroute to 10.хх.хх.хх (хх.хх.хх.хх), 30 hops max, 28 byte packets 1 * * * 2 * * * 3 * * * После «sudo ip route flush cache» всё опять работает. Посоветуйте куда копать, так-как я в этой теме недавно.

 

bmw525 ()

icinga съедает всю оперативную память

У меня возникла такая проблема, icinga на сервере начала отъедать всю ОЗУ:

# ps aux | grep icinga

icinga 429 10.1 91.1 3633832 1910836 ? Ssl May30 1453:40 /usr/bin/icinga -d /etc/icinga/icinga.cfg

# free -h total used free shared buffers cached

Mem: 2.0G 2.0G 35M 27M 0B 127M

-/+ buffers/cache: 1.8G 163M

Swap: 4.0G 1.9G 2.1G

Такого никогда раньше не было. Хотел спросить, в какую сторону копать? Никогда такой проблемы раньше не было. Вначале нормально работает, а потом начинает занимать всю память.

На сервере стоит CentOS:

# cat /etc/redhat-release CentOS release 6.7 (Final)

 

bigboy77787 ()

Настройка сервисов в Icinga 2

Есть тут использующие Icinga 2? Никак не могу понять, вроде бы простую вещь. Где находятся конфиги сервисов? В /etc/icinga2/conf.d/ их нет.

Ситуация такая, подключил удаленный хост, критикал алерт вылетает по LA>2, я хочу изменить этот показатель например на 16, но нигде конфигов не нашел, документация у Icinga 2 не очень.

 , ,

Amet13 ()

Как запустить тестовый скрипт uwsgi?

Пытаюсь прикрутить Graphite к Icinga 2.

Для этого создал виртхост для nginx:

server {
   listen      80;
   server_name icinga;
        location /graphite {
                uwsgi_pass uwsgi://127.0.0.1:3031;
                include uwsgi_params;
        }
}

Создал конфиг для graphite:

[uwsgi]
socket = 127.0.0.1:3031
gid = uwsgi
uid = uwsgi
wsgi-file = /usr/share/graphite/graphite-web.wsgi

Порт слушается:

lsof -i :3031
COMMAND PID  USER   FD   TYPE DEVICE SIZE/OFF NODE NAME
uwsgi   915 uwsgi    3u  IPv4 337665      0t0  TCP localhost:eppc (LISTEN)
uwsgi   916 uwsgi    3u  IPv4 337665      0t0  TCP localhost:eppc (LISTEN)

В логах nginx:

2015/11/15 16:17:53 [error] 902#0: *1 upstream prematurely closed connection while reading response header from upstream, client: 91.216.240.98, server: icinga, request: "GET /graphite HTTP/1.1", upstream: "uwsgi://127.0.0.1:3031", host: "icinga"

Ну думаю ладно, что-то с uwsgi не так. Пробую тестовый скрипт запустить:

cat /tmp/test.py
def application(env, start_response):
    start_response('200 OK', [('Content-Type','text/html')])
    return [b"Hello World"]
И ничего не выходит:
uwsgi --http :3031 --wsgi-file test.py
uwsgi: option '--http' is ambiguous; possibilities: '--http-socket' '--https-socket-modifier2' '--https-socket-modifier1' '--https-socket' '--http-socket-modifier2' '--http-socket-modifier1'
getopt_long() error

Что я пропустил или делаю не так?

 , , ,

Amet13 ()

Помощь с настройкой Icinfga2

Друзья, кто-нибудь настроаивал Icinga2?

Никак не могу добавить новые хосты в файл hosts.conf, при попытке перезагрузки icinga он перестает читаться. Как это правильно сделать?

 ,

EnLate ()

Переустановка Icinga

Добрый день. Установил Icingaweb2, настраивал через вебморду, где-то видимо накосячил. Не могу залогинится говорит: «All configured authentication methods failed. Please check the system log or Icinga Web 2 log for more information.» В логах чисто. Подскажите как можно поправить настройки, либо переустановить через вебморду.

 ,

EnLate ()

мониторинг сислога с веб-интерфейсом

сейчас пользуюсь мониторингом cacti с плагином CaMM, работает в связке с syslog-ng и snmptt (на них прилетают сообщения от всех устройств сети).

плагин имеет удобную веб-морду в которой можно конструировать правила на основе выбранного сообщения. правила проверяются каждые 5 минут, при совпадении отправляется сообщение на почту.

сейчас отказываюсь от cacti в пользу icinga, встал вопрос чем заменить CaMM...

т.е. нужны инструменты для мониторинга сислога и snmpd с вебмордой. поставил logwatch для сислога, но кажется он просто делает отчеты, а нужно следить в режиме онлайн.

кто чем пользуется?

 , , , ,

maximt ()

debian как клиент для icinga.

Пытаюсь добавить дебиановскую машинку.
все редхатоподобные отрабатывают на ура, а на дебиане невозможно запустить плагины.

icinga@debian-stats:~/plugins$ ./check_http
./check_http
bash: ./check_http: cannot execute binary file
Больше никакой инфы нет.
Где более подробно просмотреть в чём дело ?
Запускал с bash -xx, выхлоп идентичен.
С правами всё ок.
icinga@debian-stats:~/plugins$ ls -ltr check_http
ls -ltr check_http
-rwxr-xr-x 1 icinga icinga 197410 Aug 11 15:00 check_http

 , ,

dada ()

nagios/icinga хочу странного - fail if ping

Hi All!
Есть icinga, есть удаленный ip, который нормально недоступен.
Т.е. его состояние инвертировано по отношению к нормальному, не пингуется=ok, начал пинговаться = стал fail.
Не пойму, неужто встроенным чеком это сделать нельзя ? - скрипт не хочется ради такой фигни довешивать.

 , ,

handbrake ()

Не работают уведомления.

Доброго дня.
Не отправляются уведомления.
Вот icinga.debug:

[1397904557.013059] [032.0] [pid=23369] ** Service Notification Attempt ** Host: 'KVM_231', Service: 'Check Disk', Type: 0, Options: 0, Current State: 2, Last Notification: Thu Jan  1 04:00:00 1970
[1397904557.013131] [032.0] [pid=23369] Notification viability test passed.
[1397904557.013147] [032.1] [pid=23369] Current notification number: 1 (incremented)
[1397904557.013162] [032.1] [pid=23369] Current warning notification number: 0 (incremented)
[1397904557.013172] [032.1] [pid=23369] Current critical notification number: 1 (incremented)
[1397904557.013182] [032.1] [pid=23369] Current unknown notification number: 0 (incremented)
[1397904557.013192] [032.2] [pid=23369] Creating list of contacts to be notified.
[1397904557.013230] [032.1] [pid=23369] Service notification will NOT be escalated.
[1397904557.013247] [032.1] [pid=23369] Adding normal contacts for service to notification list.
[1397904557.013256] [032.2] [pid=23369] Adding members of contact group 'admins' for service to notification list.
[1397904557.013269] [032.2] [pid=23369] ** Checking service notification viability for contact 'Farid'...
[1397904557.013290] [032.2] [pid=23369] ** Service notification viability for contact 'Farid' PASSED.
[1397904557.013301] [032.2] [pid=23369] Adding contact 'Farid' to notification list.
[1397904557.013313] [032.2] [pid=23369] ** Checking service notification viability for contact 'Alikhan'...
[1397904557.013329] [032.2] [pid=23369] ** Service notification viability for contact 'Alikhan' PASSED.
[1397904557.013340] [032.2] [pid=23369] Adding contact 'Alikhan' to notification list.
[1397904557.013384] [032.2] [pid=23369] ** Notifying contact 'Alikhan'
[1397904557.013440] [032.2] [pid=23369] Raw notification command: /bin/echo -e "***** Icinga *****\n\nNotification Type: $NOTIFICATIONTYPE$\n\nService: $SERVICEDESC$\nHost: $HOSTALIAS$\nAddress: $HOSTADDRESS$\nState: $SERVICESTATE$\n\nDate/Time: $LONGDATETIME$\n\nAdditional Info:\n\n$SERVICEOUTPUT$\n" | /bin/mailx -v -s "** $NOTIFICATIONTYPE$ Service Alert: $HOSTALIAS$/$SERVICEDESC$ is $SERVICESTATE$ **" farid@domain.com alikhan@domain.com
[1397904557.013511] [032.2] [pid=23369] Processed notification command: /bin/echo -e "***** Icinga *****\n\nNotification Type: PROBLEM\n\nService: Check Disk\nHost: Linux Servers\nAddress: 192.168.0.231\nState: CRITICAL\n\nDate/Time: Sat Apr 19 15:49:17 AZST 2014\n\nAdditional Info:\n\nDISK CRITICAL - free space: / 181868 MB (27% inode=99%): /dev/shm 3913 MB (99% inode=99%): /backup 0 MB (0% inode=99%):\n" | /bin/mailx -v -s "** PROBLEM Service Alert: Linux Servers/Check Disk is CRITICAL **" farid@domain.com alikhan@domain.com
[1397904557.036487] [032.2] [pid=23369] ** Notifying contact 'Farid'
[1397904557.036563] [032.2] [pid=23369] Raw notification command: /bin/echo -e "***** Icinga *****\n\nNotification Type: $NOTIFICATIONTYPE$\n\nService: $SERVICEDESC$\nHost: $HOSTALIAS$\nAddress: $HOSTADDRESS$\nState: $SERVICESTATE$\n\nDate/Time: $LONGDATETIME$\n\nAdditional Info:\n\n$SERVICEOUTPUT$\n" | /bin/mailx -v -s "** $NOTIFICATIONTYPE$ Service Alert: $HOSTALIAS$/$SERVICEDESC$ is $SERVICESTATE$ **" farid@domain.com alikhan@domain.com
[1397904557.036631] [032.2] [pid=23369] Processed notification command: /bin/echo -e "***** Icinga *****\n\nNotification Type: PROBLEM\n\nService: Check Disk\nHost: Linux Servers\nAddress: 192.168.0.231\nState: CRITICAL\n\nDate/Time: Sat Apr 19 15:49:17 AZST 2014\n\nAdditional Info:\n\nDISK CRITICAL - free space: / 181868 MB (27% inode=99%): /dev/shm 3913 MB (99% inode=99%): /backup 0 MB (0% inode=99%):\n" | /bin/mailx -v -s "** PROBLEM Service Alert: Linux Servers/Check Disk is CRITICAL **" farid@domain.com alikhan@domain.com
[1397904557.060457] [032.2] [pid=23369] Calculating next valid notification time...
[1397904557.060495] [032.2] [pid=23369] Default interval: 1.000000
[1397904557.060512] [032.2] [pid=23369] Interval used for calculating next valid notification time: 1.000000
[1397904557.060545] [032.0] [pid=23369] 2 contacts were notified.  Next possible notification time: Sat Apr 19 15:50:17 2014
[1397904557.060556] [032.0] [pid=23369] 2 contacts were notified.
Сама команда отправки почты, работает из под юзера icinga.
Подскажите в чём проблема.
Года 2 назад настраивал исингу, тогда проблем не было.

 ,

dada ()

virsh не из под рута.

как сделать так, что бы команду virsh list мог запустить не только root ?
Тыкался в /etc/group - не помогло.
Создал группу libvirt, теперь через virt-manager всё видно, но virsh list всё ещё не работает.
В офф.доках почему-то ни слова об этом.
Нужно для исинги.

 , , ,

dada ()

Несколько вопросов про icinga.

Алоха ту алл.
1) Как репендануть все сервисы на какой-то хост ?
Сейчас это делаю так:
коменчу этот хост в исинга.сфг-> далее рестарт -> анкоммент хост в исинга.сфг -> рестарт -> профит.
2) Киньте ссылку на плагин для проверки оперативки.
3)Как узнать какая версия icinga-web установлена ?
Спасибо.
cast true_admin

 ,

dada ()

nagios/icinga или zabbix?

мучаюсь с выбором

 , , , ,

xsektorx ()

Мониторинг маршрутов

Доброго времени суток всем. Хотелось бы узнать, а нельзя ли организовать мониторинг маршрута определенного (нужного мне). Желательно похожее на mtr или аналогично traceroute (если есть какие то готовые решения). Под icinga подобного не нашёл.

В общем мне нужно что-то вроде: мониторинг маршрута, с показом изменений в нём, если такое появилось, если резко увеличились потери пакетов, и высвечивалось бы, на каком хопе это началось, веб-интерфейс по возможности, и было бы неплохо отправка алертов по email.

 

bigboy77787 ()

Icinga (мнение)

Собственно, интересует мнение админов по сабжу. Встал перед выбором - либо освоить (недо)конфигурированную прошлым админом Icinga, либо ставить привычный Nagios+Nrpe+Cacti Все ревью довольно размытые, потому интересно мнение из первых рук. Цель - наблюдение, алармы, графики Среда небольшая - около 40 нодов

 , ,

daninjah ()

Nagios vs ICINGA

Народ, кто пользовался обеими системами? Что лучше для вас?

 ,

avin ()