LINUX.ORG.RU

Какой системой мониторинга пользуетесь?

 , ,


7

1

Опрос для тех, кто всё-таки какой-либо СМ пользуется, посему варианта «Не пользуюсь» здесь и не предусмотрено (иначе он просто испортит статистику).

  1. Zabbix 273 (63%)

    ********************************************************************************************************************************************************************************************************************************************************************************************************************************

  2. Nagios (и его клоны) 97 (22%)

    *****************************************************************************************************************

  3. Другая OpenSource СМ 52 (12%)

    ************************************************************

  4. Munin 44 (10%)

    ***************************************************

  5. Cacti 35 (8%)

    *****************************************

  6. Другая проприетарная СМ 31 (7%)

    ************************************

  7. Prometheus 25 (6%)

    *****************************

  8. Microsoft SCOM 10 (2%)

    ***********

  9. ZenOSS 9 (2%)

    **********

  10. OpenNMS 9 (2%)

    **********

  11. NetXMS 9 (2%)

    **********

  12. IBM Tivoli Monitoring 8 (2%)

    *********

  13. HP OpenView 8 (2%)

    *********

Всего голосов: 610, всего проголосовавших: 432

★★★★★

Проверено: beastie ()
Последнее исправление: beastie (всего исправлений: 2)

Ответ на: комментарий от Difrex

Мне казалось почему-то, что графана - это не более, чем движок для отрисовки графики. Какой ещё там алертинг может быть??

DRVTiny ★★★★★
() автор топика
Последнее исправление: DRVTiny (всего исправлений: 1)
Ответ на: комментарий от EuGeneus

У меня нет никакой любви к инструменту ZenOSS. Это просто потенциальный рабочий инструмент, ничего личного. Я люблю велосипеды Gary Fisher, язык программирования Perl и язык R, а в ZenOSS мне просто нравится архитектура приложения. Как минимум тот факт, что она вообще есть и формируется не стихийно, как это имеет место быть в Zabbix.

Сейчас я админю систему мониторинга на Zabbix, и мне уже пришлось написать не одну тысячу строк кода, чтобы это хоть как-то было похоже на систему мониторинга, а не тупо надстройку над двумерными SQL-таблицами.

DRVTiny ★★★★★
() автор топика
Ответ на: комментарий от th3m3

Даже если у тебя ровно два сервера: один с базой и один с приложением. Ты разве не хочешь заранее узнавать, что место на диске начинает заканчиваться, SSL сертификаты скоро истекут, почта не ходит, рейд массив развалился, на сетевом интерфейсе много ошибок, проц загружен 100% на всех ядрах, бекап прошёл с ошибкой? Или ты предпочтёшь сломаться в пятницу вечером, и прочитать об этом логи в понедельник утром?

Честно не понимаю, как без мониторинга жить можно.

selivan ★★★
()

По теме топика - пока заббикс, ну кроме анализа логов. Неоптимальный, но простой как топор, новые проверки добавляются просто, уведомления в зависимости от severity используют разные способы оповещения, можно в триггер достаточно сложное условие написать.

selivan ★★★
()
Ответ на: комментарий от selivan

место на диске начинает заканчиваться

У меня нет столько данных.

SSL сертификаты скоро истекут

Lets Encrypt сам обновится по крону.

почта не ходит

Использую сторонние сервисы.

рейд массив развалился

Нет. Зато есть бекапы ;)

на сетевом интерфейсе много ошибок

Ну и хрен с ним. Лишь бы работали веб-приложения :)

проц загружен 100% на всех ядрах

Маловероятно.

бекап прошёл с ошибкой

Есть ещё система контроля версий. И старые бекапы. Да и бекап, может мне сам на почту писануть, что что-то пошло не так. Свой костыль греет душу)

Честно не понимаю, как без мониторинга жить можно.

Отдавать ему лишние ресурсы. У меня так - настроил, работает - не трогай. Есть подозрения или что-то не работает - читаешь логи.

th3m3 ★★★★★
()
Ответ на: комментарий от th3m3

У меня нет столько данных.

Переглючившее приложение за час нагенерит тебе полный раздел логов

Lets Encrypt сам обновится по крону.

Или не обновился и молча упал, и так пока сертификат не истёк

рейд массив развалился

Нет. Зато есть бекапы ;)

Пока из него один диск вывалился - заменишь, а когда второй - уже потеряешь данные(зависит от порядка рейда конечно)

Маловероятно

Волшебные безглючные приложения?

Вот тебе реальный юз-кейс: редис с обычной репликацией(не кластер), сентинелы потеряли кворум. Пока мастер не упадёт, или экскаваторщик Вася по прозвищу Кривой Ковш не перекопает отптику до ДЦ - ты об этом даже не узнаешь. А узнаешь, когда оно автоматом на новый мастер не переключится и вы начнёте терять деньги из-за неработающего приложения.

Ещё большой плюс мониторинга - увеличивает скорость устранения проблемы. Не просто «у нас почему-то 500 сыпятся», а видно, какие сервера и компоненты живые, а какие не очень. Ну это если настроить нормально.

selivan ★★★
()
Последнее исправление: selivan (всего исправлений: 1)

а на работе или дома? Дома только заббикс, на работе, помимо первого, еще свой лисапед (проприетарно-закрытый) и еще чего по мелочи

arcanis ★★★★
()
Ответ на: комментарий от DRVTiny

Да. Но основе полученных данных в Grafana, ты можешь построить свои уникальные графики, например отличные от графиков того же мониторинга, и получать алерты по ним.

anonymous_sama ★★★★★
()

раньше zenoss и tivoli сейчас пишу модули под проприетарщину

xor2003
()
Ответ на: комментарий от DRVTiny

В четвертой графане появился алертинг. Очень удобно когда разраб накидал себе график и сделал сам себе алерт, в слак, например. Стандартный алерт на почту очень прикольный, как-то так выглядит письмо: https://cloud2.difrex.ru/index.php/s/TR70MRWCowVVw8U

Графана уже не просто движок для графиков.

Difrex ★★★★
()

А где пункты «Не пользуюсь» и «Что такое система мониторинга?»

torvn77 ★★★★★
()
Ответ на: комментарий от Bers666

так мегакомбайн и нужен для мегапроектов, а не чтобы дома сервер под кроватью мониторить. в телекоме использовали Заббикс. при всех своих недостатках он был, наверное, единственным приемлемым решением, когда есть тысячи разных железяк, серверов и всяких софтин, которые надо мониторить и по авралу пинать дежурных.

Iron_Bug ★★★★★
()
Последнее исправление: Iron_Bug (всего исправлений: 1)
Ответ на: комментарий от dyasny

где все облачные системы типа datadog? oчень популярная тема в наше время

Вот же:

Другая проприетарная СМ

Deleted
()
Ответ на: комментарий от Iron_Bug

так мегакомбайн и нужен для мегапроектов, а не чтобы дома сервер под кроватью мониторить. в телекоме использовали Заббикс. при всех своих недостатках он был, наверное, единственным приемлемым решением, когда есть тысячи разных железяк, серверов и всяких софтин, которые надо мониторить и по авралу пинать дежурных.

Чем бы нагиос не подошел? у меня на нем 3к серверов, 45к сервисов. Все летает.

Bers666 ★★★★★
()
Ответ на: комментарий от joy4eg

Grafana - не морда к graphite, это движок общего назначения для проектирования графических дашбордов.

DRVTiny ★★★★★
() автор топика
Ответ на: комментарий от tiandrey

Я бы добавил, но поздно уже давно... В следующий заход через год добавлю :)

DRVTiny ★★★★★
() автор топика
Ответ на: комментарий от anonymous_sama

Мне не очень понятно, кто и при каких обстоятельствах эти графики смотрит. Понятно, что смотрят изредка процента 3 всех графиков, причём каждый раз разные, но в целом... У нас на работе, например, у Операционного Департамента выведены для дежурных графики в бешенном количестве на огромной «стене мониторинга». Большинство графиков повторяют друг друга, как по форме, так и по содержанию, но по существу это не более, чем «обои рабочего стола» - без машинной аналитики даже внимательно следящий за «своими» графиками дежурный никогда не увидит целостной картины и будет по сути следить за тем, чтобы «провал не слишком сильно проваливался». К любой системе мониторинга нужна встроенная или внешняя система агрегирующей аналитики, иначе роль такой аналитики придётся выполнять людям, а учитывая в общем-то скромные возможности человеческого интеллекта по анализу большого количества данных - результат будет либо неудовлетворительным, либо неразумно дорогим. На моей работе операционщики пришли к промежуточному результату и вроде бы двигаются про пути разработки как раз агрегирующей аналитики.

Но... посмотрите на те же IT-сервисы, теги триггеров и корреляцию триггеров в Zabbix, которые по сути и есть зачатки этой агрегирующей аналитики: многие ли задумываются над тем, что без подобных вещей любая система мониторинга рано или поздно превращается в некий придаток к тем людям, которые в компании реально что-то понимают и способны это анализировать? Уйдут эти люди - и заменить их будет невозможно, поскольку по сути вместе с ними «утечёт» и огромный кусок логики якобы автоматизированной системы мониторинга.

DRVTiny ★★★★★
() автор топика

NetXMS

Выбрал, чтобы испортить статистику.

awesomebuntu
()

системы мониторинга в 2017 году

нет отдельного пункта под Datadog

ЛОР такой ЛОР.

mix_mix ★★★★★
()

collectd -> Prometheus -> Grafana; самописные скрипты алертинга из говна и палок пытают Прометея и срут в Телеграм.

ksa242
()
Ответ на: комментарий от DRVTiny

Да, я знаю. Но конкретно мы пользуемся им просто как мордой :)

joy4eg ★★★★★
()

Когда выбирал систему мониторинга для распределённой на три города сетки на три десятка серверов, три сотни рабочих станций, пробовал Cacti, Nagios, MRTG, Webmin и Zabbix.
До этого работы с системами мониторинга опыта не было.
Остановился на Zabbix.
1. Развернулась система «на раз».
2. Специальный агент требуется не всегда.
2. Есть вполне вменяемая система обнаружения устройств в сети.
3. Есть вполне вменяемая система «сработки на триггер»
4. При необходимости проверки несложно дополнять и дописывать самостоятельно. (У Nagios эта процедура сложновата).
Мне понадобилось отслеживать списки зарегистрированных баз 1С на серверах 1С. На всё-про-всё на создание динамичного отображения списка потребовалось меньше часа.
Такая же процедура пригодилась для периодического «грепанья» лога самописной програмки и отправки сообщения разработчику с извещением о появлении ошибок.

Pronin ★★★★
()

VestaCP/Netdata

Deleted
()

В списке не хватает единственной нормальной системы - collectd

annulen ★★★★★
()
Ответ на: комментарий от hbars

действительно, очень известный в кругах олдскула и костыленаписания ))))

GOD ★★★
()

Забих походу продавать собираются, кеке

TooPar
()
Ответ на: комментарий от Iron_Bug

усеришься к нему конфиги писать для такого количества счётчиков.

«если вы делаете работу, которую могут делать роботы, то вы уволены в ближайшие 5 лет»

Bers666 ★★★★★
()
Ответ на: комментарий от Bers666

а я не занимаюсь такой работой. поддержкой занимаются технические специалисты, причём не сказать чтобы слишком высокого уровня. и для них нужно простую и надёжную систему, которая будет им выдавать внятное предупреждение о том, что где-то в огромной системе из разных железяк и софта что-то сломалось. и заббикс для этого подходит идеально. они не понимают глубинных причин поломки, но должны уметь определить, какой модуль вышел из строя, чтобы его перегрузить, например.

Iron_Bug ★★★★★
()

чтобы саботировать некорректный опрос без пункта «никакой» проголосовал за все варианты

eternal_sorrow ★★★★★
()
Ответ на: комментарий от disarmer

На работе okmeter.io, лучше ничего не видел

Их цены отталкивают.
Для 100+ серверов слишком дорого получается.

v9lij ★★★★★
()

Пока в основном на работе заббикс + для некоторых простых устройств mrtg , а так смотрю в сторону librenms . Вот моё мнение об

http://0x1.tv/20150626F

pinachet ★★★★★
()
Ответ на: комментарий от disarmer

ну я как-то считал, получилось если ставить окметр на все наши сервера, то по деньгам это тоже, что нанять пару толковых админов.
И пара толковых админов смогут замутить на каком-нибудь прометее мониторинг не хуже окметр :)

v9lij ★★★★★
()

Много чего перепробовал: Zabbix, Nagios, Cacti, Munin, Monit, HP OpenView и многие другие.

Почему Zabbix такой популярный? Его интерфейс ужасен. Совсем неинтуитивный.

Использую Nagios и Cacti. Они кажутся самыми правильными для мониторинга разнородной инфраструктуры.

joe_diez
()
Ответ на: комментарий от joe_diez

ушли с кактуса на заббикс. ввиду ущербности кактуса как системы мониторинга (rrdtool - грусть-печаль, да).

NiTr0 ★★★★★
()
Ответ на: комментарий от Iron_Bug

они не понимают глубинных причин поломки, но должны уметь определить, какой модуль вышел из строя, чтобы его перегрузить, например.

monit заменит такого «специалиста» на ура... если, ессно, речь не о железе и его ребуте, а о софтовых граблях (железо - вопрос решается чуть дороже, управляемыми розетками).

NiTr0 ★★★★★
()
Последнее исправление: NiTr0 (всего исправлений: 1)

Datadog, дорого, убогий АРI, куча багов, зато есть дашборды и розовенький интерфейс.

Murg ★★★
()
Ответ на: комментарий от Iron_Bug

дык... оно же пишеться не ручками, делать нефиг, конфиги писать...

Murg ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.