LINUX.ORG.RU
решено ФорумAdmin

Zabbix agent is not available (or nodata for 30m)

 


0

1

Тестирую Zabbix в работе.

В какой то момент многие хосты стали выдавать такое сообщение.

Добавил ресурсов на Zabbix, не помогло.

top - 10:52:33 up  2:07,  1 user,  load average: 3,50, 3,35, 3,29
Tasks: 178 total,   5 running, 173 sleeping,   0 stopped,   0 zombie
%Cpu(s): 34,7 us,  2,2 sy,  0,0 ni, 62,2 id,  0,4 wa,  0,0 hi,  0,5 si,  0,0 st
MiB Mem :   7977,7 total,   5787,4 free,   1251,4 used,    938,8 buff/cache
MiB Swap:   2045,0 total,   2045,0 free,      0,0 used.   6442,2 avail Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND
 1459 zabbix    20   0  378744  18372   4376 R  94,7   0,2  58:08.96 zabbix_server
 1458 zabbix    20   0  379124  13216   4376 R  94,4   0,2  58:09.38 zabbix_server
 1460 zabbix    20   0  374844  14376   4376 R  93,7   0,2  58:07.48 zabbix_server
 1457 zabbix    20   0  744592 401352  22324 R  12,6   4,9   8:21.85 zabbix_server
  550 mysql     20   0 4278268 362352  19336 S   1,0   4,4   2:43.45 mysqld
  546 zabbix    20   0   26168   5684   4444 S   0,3   0,1   0:00.63 zabbix_agentd
  620 www-data  20   0  231932  29748  21100 S   0,3   0,4   0:02.58 apache2
 1430 zabbix    20   0  424280  83156  24252 S   0,3   1,0   0:02.09 zabbix_server
 1443 zabbix    20   0  387480  23612  10392 S   0,3   0,3   0:00.07 zabbix_server
 1469 root      20   0   11224   3912   3192 R   0,3   0,0   0:07.56 top
    1 root      20   0  169440  10120   7860 S   0,0   0,1   0:01.63 systemd
    2 root      20   0       0      0      0 S   0,0   0,0   0:00.00 kthreadd
    3 root       0 -20       0      0      0 I   0,0   0,0   0:00.00 rcu_gp
    4 root       0 -20       0      0      0 I   0,0   0,0   0:00.00 rcu_par_gp
    6 root       0 -20       0      0      0 I   0,0   0,0   0:00.00 kworker/0:0H-kblockd
    8 root       0 -20       0      0      0 I   0,0   0,0   0:00.00 mm_percpu_wq
    9 root      20   0       0      0      0 S   0,0   0,0   0:00.04 ksoftirqd/0
   10 root      20   0       0      0      0 I   0,0   0,0   0:08.65 rcu_sched
   11 root      20   0       0      0      0 I   0,0   0,0   0:00.00 rcu_bh
   12 root      rt   0       0      0      0 S   0,0   0,0   0:00.02 migration/0
   13 root      20   0       0      0      0 I   0,0   0,0   0:00.26 kworker/0:1-mm_percpu_wq
   14 root      20   0       0      0      0 S   0,0   0,0   0:00.00 cpuhp/0
   15 root      20   0       0      0      0 S   0,0   0,0   0:00.00 cpuhp/1
   16 root      rt   0       0      0      0 S   0,0   0,0   0:00.57 migration/1
   17 root      20   0       0      0      0 S   0,0   0,0   0:00.02 ksoftirqd/1

Помогает перезапуск службы, но не надолго. То есть сами агенты не останавливаются.

Куда копать, подскажите?

Ты не те ресурсы добавляешь

Смотри лог zabbix сервера на предмет лимитов. И в веб-морде на страницу мониторинга самого сервера (нужна загрузка worker’ов)

router ★★★★★ ()

Сбор идет как agent(active)? Если метрик много, а диски не очень быстрые либо перегруз по процессору/памяти, то он может просто не успевать записывать данные в базу

anonymous ()
Ответ на: комментарий от Shulman

по моему про это в конфигах ничего не было. Причина может быть в нехватке ресурсов или кривом препроцессинге (например жручие скрипты на js или многократный парсинг одного и того же)

anonymous ()
Ответ на: комментарий от anonymous
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:Databases' && @.counter_name=='Transactions/sec' && @.instance_name=='sql_svod_2017')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.free_list_stalls_sec.rate" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:Buffer Manager' && @.counter_name=='Free list stalls/sec')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.processes_blocked" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:General Statistics' && @.counter_name=='Processes blocked')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.full_scans_sec.rate" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:Access Methods' && @.counter_name=='Full Scans/sec')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.safe_autoparams_sec.rate" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:SQL Statistics' && @.counter_name=='Safe Auto-Params/sec')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.sql_compilations_sec.rate" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:SQL Statistics' && @.counter_name=='SQL Compilations/sec')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.db.transactions_sec.rate["scpitest"]" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:Databases' && @.counter_name=='Transactions/sec' && @.instance_name=='scpitest')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.db.transactions_sec.rate["sql_svod_2018"]" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:Databases' && @.counter_name=='Transactions/sec' && @.instance_name=='sql_svod_2018')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.granted_workspace_memory" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:Memory Manager' && @.counter_name=='Granted Workspace Memory (KB)')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.sql_recompilations_sec.rate" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:SQL Statistics' && @.counter_name=='SQL Re-Compilations/sec')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.table_lock_escalations.rate" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:Access Methods' && @.counter_name=='Table Lock Escalations/sec')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.index_searches_sec.rate" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:Access Methods' && @.counter_name=='Index Searches/sec')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.target_pages" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:Buffer Manager' && @.counter_name=='Target pages')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.target_server_memory" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:Memory Manager' && @.counter_name=='Target Server Memory (KB)')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.db.transactions_sec.rate["sql_svod_bak"]" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:Databases' && @.counter_name=='Transactions/sec' && @.instance_name=='sql_svod_bak')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.info_errors_sec.rate" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:SQL Errors' && @.counter_name=='Errors/sec' && @.instance_name=='Info Errors')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.total_latch_wait_time" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:Latches' && @.counter_name=='Total Latch Wait Time (ms)')].cntr_value.first()": no data matches the specified path
  4186:20201214:144849.018 error reason for "SQL:mssql.kill_connection_errors_sec.rate" changed: Preprocessing failed for: [{"object_name":"SQL","counter_name":"Uptime","instance_name":"","cntr_value":"52728"},{"object_n...
1. Failed: cannot extract value from json by path "$[?(@.object_name=='SQL:SQL Errors' && @.counter_name=='Errors/sec' && @.instance_name=='Kill Connection Errors')].cntr_value.first()": no data matches the specified path

в логах много такого

Shulman ()
Ответ на: комментарий от anonymous

Отключил мониторинг TEMPLATE MS SQL DB, и все зашевелилось

Shulman ()
Ответ на: комментарий от Shulman

cannot extract value from json by path....no data matches the specified path

Как вариант, за установленный промежуток времени, сервер не получил полного ответа от агента. То ли агент нетороплив, то ли ответ слишком громоздкий, то ли ещё невесть что.

Можно посмотреть в сторону смягчения настроек для этого агента (время отклика, количество попыток).

Если совсем тухло будет, то поднять там неподалёку zabbix-proxy, который на себя весь сбор и процессинг возьмёт.

NDfan ()
Ответ на: комментарий от julixs

был, но как выяснилось дело не столько в настройках воркеров, сколько в каком то сбое при получении данных, или вообще не верном их формате.

Я не оставляю версию что у нас SQL (2014) староват

Shulman ()
Ответ на: комментарий от Shulman

Сейчас глянул консоль. Что-то я перемудрил: те опции для веб-проверок гибко настраиваются только. А для обычных Item-ов вот это есть зато: Update interval

Можно его увеличить, и посмотреть, как изменится экран с графиками самой головы Заббикса (например, «Zabbix server perfomance»).

У меня было подобное, что просто не успевал прожёвывать тонны сложных проверок, и это было по графикам видно, и в логах подобный мат проскакивал.

BufferSend BufferSize Timeout

Прикольно, тоже вариант.

NDfan ()
Ответ на: комментарий от Shulman

возможно он тормозит из-за сбрасывания всего этого в лог. Надо проверять jsonpath’ы или попробовать в препроцессинге скипнуть ошибки задав «Custom on fail»

anonymous ()

Проблема была в перегруженности самого Zabbix. Остальное пока разбираюсь

Shulman ()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.