LINUX.ORG.RU

Мониторинг

 ,


1

6

В который раз, избитая тема.

Кто чем и __главное что__ мониторит.

Сейчас у меня zabbix + python(zabbix_api) довольно много веба и кастомных проверок для бизнеса.

Пробовал Sensu, cacti, munin.

Zabbix не нравится ручной настройкой и довольно большим количеством false срабатываний(или просто руки кривые)

Не пробовал, но интересно:
http://newrelic.com/
http://okmeter.io/

★★★
Ответ на: комментарий от pinachet

Посмотрел. Это скорее продукт ориентированный на network/snmp, а мне надо с ориентацией на веб.

Например:
1. Сделать GET/POST/etc на страничку
2. Получить все ссылки на инклуды css/js. Проверить их загружаемость
3. По возможности, исполнить некоторые(которые я укажу или что-то в этом роде) js скрипты со странички и проверить их результат

trofk ★★★ ()

руки

this. Плюс, не поверишь, даже в тырпрайзе для венды на каждый чих надо писать скрипты руками. Так как модулей для мониторинга именно твоей шняги туда никто не завозит.

Алсо, в случае мониторинга 100500 одинаковых серверов, никто не мешает запихать скрипты в твой хипстсибл (или что там у тебя), а в жабиксе тупо клонировать хост одним кликом, меняя только адрес и имя. Теоретически, даже никто не мешает забить в менеджмент конфигурации автоматическое создание оного хоста (в жабиксе) без участия одмина.

svr4 ()
Последнее исправление: svr4 (всего исправлений: 4)
Ответ на: комментарий от trofk

1. Сделать GET/POST/etc на страничку

Практически любая система мониторинга. Но проверяться будет только http code ( 200, 501, 403 и т.д. )

2. Получить все ссылки на инклуды css/js. Проверить их загружаемость

Есть мнение, что это проще сделать на python + mechanize или python + urllib2

Если сделать скрипт достаточно универсальным ( проверяет не сервис А, а загружаемость css и js с произвольной страницы ), уже его можно будет прикрутить к системе мониторинга

Или пытаться найти готовый проект. Но опять же, ИМХО, это не система мониторинга, а внешнее ПО, которое можно прикрутить к системе мониторинга

3. По возможности, исполнить некоторые(которые я укажу или что-то в этом роде) js скрипты со странички и проверить их результат

Вот это уже жесть, нужен полноценный браузер. ИМХО

router ★★★★★ ()
Ответ на: комментарий от svr4

Автоматом у меня в icinga2 делается. Новый хост заносится в DNS и в записи TXT описываются какие на нем демоны и fs надо мониторить. Он появляется в icinga2 автоматом, а в ДНСе кроме прочего еще и инфа о серверах хранится. Удобно.

www.linux.org.ru/forum/admin/11787628?cid=11788391

anonymous ()
Ответ на: комментарий от svr4

Я не знаю как там с вашим энтерпрайзом и виндами в них.

Но я не могу ответить на вопрос бизнеса «модуль такой-то работает?» ответить что nginx отдаёт 200ок. Это не ответ.

router - сейчас я пункты 1 и 2 так и реализую. Пункт 3ий у меня пока в разработке.

Интересно и странно, что никто не создал такой фреймворк для веб мониторинга.

trofk ★★★ ()
Ответ на: комментарий от trofk

Но я не могу ответить на вопрос бизнеса «модуль такой-то работает?» ответить что nginx отдаёт 200ок. Это не ответ.

А это и нельзя полностью сваливать на систему мониторинга. Тут много работы для разработчика и тестировщика.

Разработка огромных боевых человекоподобных скриптов, которые полностью эмулируют действия пользователя, потребует гораздо больше времени, чем разработка бизнес-критичного сервиса.

Перед деплоем на продакшн, тестировщики должны проверить логику работы приложения - это их работа, а не мониторинга.

При разработке критичного к простою приложения разработчики должны сами продумать возможность мониторинга наиболее проблемных частей кода. API для проверки работы, получения метрик производительности, вот это всё.

http code 200 означает, что при генерации страницы проблем не было. Этого достаточно для проверки того, что а, веб-сервер и сервер приложений работают, б, контейнер с приложением тоже жив. В мониторинг добавляются все тестовые url. Если приложение отдаёт например xml, json или что там ещё с метриками производительности и результатами самотестирования, его нужно разбирать внешними скриптами

Серьёзно, добавить автоматическую проверку логики работы средствами одной системы мониторинга это здорово. Но гораздо больший эффект будет, если разработчики тоже озаботятся таким вопросом, а перед деплоем на продуктив всё проверяется на QAS'е

Вот как с разработчиками договариваться - это отдельная тема %)

router ★★★★★ ()
Последнее исправление: router (всего исправлений: 2)

Zabbix. Сетевые железки по snmp (метрики с интерфейсов, утилизация, состояние линков) + пара серверов через zabbix-agent.
Cacti не понравился ручной настройкой и помойкой из rrd-файликов, nagios мало что умеет, больше ничего не смотрел.

Lavos ★★★★★ ()

Ньюрелик для мониторинга - полная херня. Срабатывает обычно после того, как проблема уже исправлена. Для анализа производительности - да, крайне клевая штука.

По остальному тебе роутер уже разложил всё.

leave ★★★★★ ()

Кто

Аз есмь.

Чем

Icinga2

Что

Linux-серверы (пинг, LA, память/своп, нагрузка на сетевые интерфейсы, дисковое пространство/айноды, IOPSы, изменения системных файлов, системное время, аптайм - всё через SNMP, агенты sucks), состояние RAID-контроллеров, софтовых RAID-массивов, SMART-мониторинг, состояние СУБД и репликации (MySQL, PostgreSQL), веб-серверы (время до истечения сертификатов HTTPS, корректность выдачи страницы), сетевое оборудование (состояние интерфейсов + cisco/hp-специфичные SNMP MIBs), всякую прочую сетевую хрень.

nbw ★★★ ()
Последнее исправление: nbw (всего исправлений: 1)