netdata 1.8.0

dashboard, netdata, visualization, мониторинг

3

2

Без ненужной помпы чуть больше месяца назад состоялся релиз системы визуализации и мониторинга диагностической информации Netdata 1.8.0.

Что это:

Это система сбора метрик (различные параметры вроде потребления CPU, памяти, сетевой нагрузки) и их отображения в браузере в максимально удобном виде.

Совместимо со statsd, написано автором firehol.

Демка доступна на https://my-netdata.io.

Лицензия: GPLv3

Ключевые изменения:

исправлено несколько ошибок в конфигурации slave-master;
улучшен мониторинг контейнеров;
автоматическая установка netdata.service при обновлении;
новые плагины;
улучшения стабильности и поддержки statsd;
и ещё куча разного добра...

От себя: случайно увидел сие на железке, присланной клиентом и охренел! Оно офигенно быстрое!! До этого работал с ELK и graphana и привык к тормозам. Оно очень маленькое - помещается на встроенную железку с дохлым армом. И оно из коробки отлично выглядит — можно бежать показывать менеджерам и требовать прибавку к зарплате, пока они челюсть с пола подобрать не успели.

Народ тоже оценил, и написал такую прорву плагинов для мониторинга всего и вся, что читая вики на https://github.com/firehol/netdata/wiki я охренел повторно.

>>> Подробности

Ссылка

← Вышел новый Skype для Linux

Вышел MediaDeb 0.2 Halloween →

мне напомнило munin

~~mx__~~ ★★★★★
(30.10.17 07:15:16 MSK)

Ссылка

Вебсокеты так и не завезли? Оно клепает HTTP-запросов раза в три больше среднего их количества на всех моих сайтах

andreymal ★
(30.10.17 14:21:59 MSK)

Ссылка

Чем он лучше Glances?

~~Odalist~~ ★★★★★
(30.10.17 17:32:13 MSK)

Ответ на: комментарий от Odalist 30.10.17 17:32:13 MSK

Чем он лучше Glances?

Понятия не имею - что это?

zabbal ★★★★☆
(31.10.17 12:31:43 MSK) автор топика

Ответ на: комментарий от zabbal 31.10.17 12:31:43 MSK

что это?

Вот это.

~~Odalist~~ ★★★★★
(31.10.17 17:59:24 MSK)

Тут надо спрашивать, чем оно лучше zabbix.

Clayman ★★
(31.10.17 19:15:08 MSK)

Ответ на: комментарий от Clayman 31.10.17 19:15:08 MSK

Всё что угодно лучше вашего мышкотыкательного заббикса.

И тут надо спросить, чем оно лучше TICK стека или графаны в связке с TSDB.

PunkoIvan ★★★★
(01.11.17 11:30:40 MSK)

Ответ на: комментарий от Odalist 31.10.17 17:59:24 MSK

Glances, я так понимаю это опять отображается в grafana а в netdata свой интерфейс, надо посмотреть может он будет удобней

BillDver ★★★
(01.11.17 12:39:02 MSK)

Да нетдата это вещь, узнал о ней с приходом на новую работу, тут хоть и зоопарк со всего, типа телеграфов отдельно и в купе с TICK, ELK, aws местирики, карбоны всякие, куча самописного, но нетдату уважают больше всего. Вообще буд-то в другой реальности жил, кроме забикса и мунина то особо ничего и не знал, а тут такой пласт ПО оказываться развился.

Novell-ch ★★★★★
(01.11.17 12:56:50 MSK)

Ссылка

Ответ на: комментарий от BillDver 01.11.17 12:39:02 MSK

ну так нетдата может пихать таймсерии в инфлукс и куча всего другого, но если не нужны данные более чем за 2-3 часа то можно пользоваться и мордой нетдаты.

Novell-ch ★★★★★
(01.11.17 12:58:42 MSK)

Ссылка

это что??? бесплатно? и на линуксе?

прям неверится... точно не под макось и \ или за деньги?

смотрится как «сделано людьми для людей», а не как обычно в линуксе привычно уже «ты там сам в сырцах подправь, потому что релиз иначе ни у кого не собирается - ошибку вываливает!» :D

wisedraco ★★
(01.11.17 15:41:35 MSK)

Ссылка

Ответ на: комментарий от PunkoIvan 01.11.17 11:30:40 MSK

Объясните мне кто-нибудь, как выглядят те люди, которые сидят и неустанно пялятся в мониторы, следят, понимаешь, за графиками?

Меня всегда эта картина мира умиляла донельзя: вот сидит дежурный инженер и пялится в over 9000 графиков. Как только что-то пошло не так - он тут же начинает суетиться, но параллельно одним глазом нет-нет, да и поглядывает на 8999 оставшихся графиков - а вдруг там что-то пойдёт не так?

От любой системы мониторинга нужны всего две вещи:

1) Алертинг, который не засоряет мозги тысячами ненужных сообщений

2) Способность «отматывать историю назад» для разборок с проблемами пост-фактум и последующим «ручным обучением» системы мониторинга

Все эти «ой, блин, смотри какие графики» - это попытка заткнуть менеджменту рот, а нее решить проблему адекватной реакции на аварии и нештатные ситуации.

DRVTiny ★★★★★
(02.11.17 11:06:44 MSK)

Ответ на: комментарий от DRVTiny 02.11.17 11:06:44 MSK

★ Extensible Anything you can get a number for, can be given to netdata, using its Plugin API (anything can be a netdata plugin, BASH, python, perl, node.js, java, Go, ruby, etc).

you can get a NUMBER for

Закапывайте.

DRVTiny ★★★★★
(02.11.17 11:11:14 MSK)

Ссылка

Ответ на: комментарий от DRVTiny 02.11.17 11:06:44 MSK

https://www.dynatrace.com/capabilities/root-cause-analysis/ Вот, что действительно нужно 90% современных систем мониторинга, включая и Zabbix.

Все эти алерты по непонятным критериям на основе «автоматически созданных» метрик в бешенных количествах - это какая-то феерическая чушь собачья, для конторок, состоящих из погромистов в количестве 5-ти штук и одного изредка приходящего сисадмина.

Всё это заканчивается тысячей алертов, уходящих в /dev/null и тысячей графиков, из которых штук 5 вывешиваются на мониторы «для антуража».

DRVTiny ★★★★★
(02.11.17 11:31:49 MSK)

Ответ на: комментарий от DRVTiny 02.11.17 11:31:49 MSK

Ясно, что для менеджмента в основном графики идут.

Но и сравнить гораздо удобнее на графиках, в той же графане.

Например, была проблем с приложением в 15:06. Открываем графики и смотрим, где была утечка - проблемы с сетью, кто-то напложил зомби-процессов или своп пошёл.

Скажи, пожалуйста, в каких 10% систем мониторинга есть определение источника проблем? Интересно. И как это должно выглядеть.

По ссылке система, очень похожая на тот же kapacitor или я не понял.

А определение «root cause» возможна только парсингом логов при проблеме и их интеллектуальная обработка. И то, если логирование нормальное.

PunkoIvan ★★★★
(02.11.17 12:01:20 MSK)
Последнее исправление: PunkoIvan 02.11.17 12:03:09 MSK (всего исправлений: 1)

Ответ на: комментарий от PunkoIvan 02.11.17 12:01:20 MSK

«Определение источника» - понятие весьма неопределённое. Но в enterprise системах мониторинга и близких к ним всегда есть агрегация проблем и подавление шума. В этом плане очень удобной «фишкой» является сервисный мониторинг, когда вместо груды алертов ты можешь видеть конкрентный аффект на IT-подсистемы на разных уровнях. Это позволяет сразу понять, насколько критична проблема, на что он влияет, в принципе видеть целостную картину состояния инфраструктуры, а не просто кучу-малу каких-то предупреждений.

Мониторинг IT-сервисов есть в зачаточном виде (реализация отвратительная во всех аспектах) в Zabbix, в приличном - в ZenOSS, в удовлетворительном - Pandora FMS, эталонная по качеству - в HP OpenView. Сервисный мониторинг реализован в NetXMS. Сам не видел, не щупал, но по отзывам - тоже весьма развитый.

Относительно Root Cause в чистом виде - на уровне сетевого оборудования в том же Spectrum отлично реализован подобный функционал.

Собственно, а что в этом трудного-то? Если причинно-следственные взаимосвязи строятся вручную, а не каким-то забубёным машинным обучением, то всё сводится к довольно банальным алгоритмам на графах: проблема исключительно в том, чтобы сделать удобную визуализацию, интерактивный граф, с этим в общем-то только в крупных системах мониторинга типа того же OpenView и Tivoli справились. Например, в ZenOSS вырожденный случай такого дерева весьма примитивен: возможности обсчёта адекватные, а вот визуальщина, интерактивность на «3 с минусом».

Ну и да, я сам участвовал в написании приложения для сервис-ориентированного представления информации, поступающей от Zabbix (в виде популярных «разноцветных вложенных квадратиков») - моя часть собственно основная с точки зрения логики, поскольку писал бэкенд.

DRVTiny ★★★★★
(02.11.17 14:16:10 MSK)