etc удалённых машин

6

10

Уже не первый раз возникает задача отследить причины зависов или иных проблем некоторых серверов, когда они по непонятной причине уходят в даун.

После перезагрузки мы никак не узнаем, что с ними было на момент зависа. Кроме вариантов с munin и т.п., но этого мало.

Лобовое решение, приходящее в голову — открыть на локальной машине screen (это чтобы не мешалось под рукой) и вывести там с удалённой машины через ssh постоянные top (можно сразу несколько, скажем, с сортировкой по процессору, по памяти), iotop, sensors, watch 'dmesg -T| tail -n 30' и т.п.

То есть, когда удалённая машина уйдёт в аут, ssh-сессии отвалятся, на экране останется последнее переданное состояние. Возможно, этой информации хватит для анализа.

Сейчас так и сделал, но на будущее хочется таким образом мониторить множество машин.

Можно написать скрипт, запускающий такой зоопарк автоматически.

Но не велосипедостроение ли это? Может, есть готовое и более удобное решение?

Ссылка

← Объединить два/три инет канала в один, для мелкого провайдинга..как проще?

Объясните нубу различия VPN и SSH →

← 1 2 →

Может, просто, настроить центральный сервер логирования и пусть машины шлют туда логи. Для сбора printk messages ядра настой netconsole.

Состояние системы можно например nagios'ом или icinga, настроив так, чтобы делал запросы чаще.

hope13 ★★★
(28.08.13 02:00:40 MSK)

Ссылка

почему не использовать Zabix c использованием фильтров на том же bash для нестандартных вещей вроде top а sensors может спокойно писать в logger который агрегировать и просматривать удобным способом опять таки с возможностью фильтровать?
по моему это очень логичное решение.

system-root ★★★★★
(28.08.13 02:15:07 MSK)

интересный вопрос. подписался на комменты. надеюсь увидеть решение.

А чем не устраивает collectd/munin ? Если статистика (rrd) хранится на центральном сервере, то она не потеряется в файловом кэше при зависоне\рестарте. Например, в collectd есть возможность увидеть disk IO per process (для выбранных процессов) и общий disk IO.

Имхо, принимать syslog/dmesg сообщения имеет смысл только на физ.серверах. Виртуалки мрут молча.

Bers666 ★★★★★
(28.08.13 02:16:51 MSK)

Ответ на: комментарий от system-root 28.08.13 02:15:07 MSK

Ну, для sensors Zabbix пойдёт. Вот для портянок логов — это же явно не его профиль. Не говоря уже про то, что нужно контролировать часто, буквально каждые секунду-две, процесс облома можнт развиваться стремительно. А вот логгировать те же top или iotop как раз нафиг не нужно. Достаточно последнего состояния.

По той же причине не подходит упомянутый позже munin.

~~KRoN73~~ ★★★★★
(28.08.13 03:05:54 MSK) автор топика

Ответ на: комментарий от Bers666 28.08.13 02:16:51 MSK

Имхо, принимать syslog/dmesg сообщения имеет смысл только на физ.серверах.

Естественно, речь о физических серверах.

~~KRoN73~~ ★★★★★
(28.08.13 03:06:11 MSK) автор топика
Последнее исправление: KRoN73 28.08.13 03:06:25 MSK (всего исправлений: 1)

Ссылка

Недавно вжная виртуалка зависла - top, dmesg, iotop не дают эффекта - avg 70. Сходил покурить - avg 27 - вот и верь мин. здраву после этого.

bug
(28.08.13 03:07:19 MSK)

Ссылка

netconsole

zolden ★★★★★
(28.08.13 04:07:32 MSK)

Ответ на: комментарий от zolden 28.08.13 04:07:32 MSK

This module logs kernel printk messages over UDP

Совсем не та задача.

~~KRoN73~~ ★★★★★
(28.08.13 04:11:38 MSK) автор топика

плюсую вопрос.
разве до сих пор нет легковесного решения, которое мне после критичной нагрузки расскажет:
1. какой процесс вызвал проблему
2. во что уперся этот процесс
? хочу поставить такое на пачку вдс и выкинуть munin.

~~xtraeft~~ ★★☆☆
(28.08.13 04:47:56 MSK)
Последнее исправление: xtraeft 28.08.13 04:48:43 MSK (всего исправлений: 1)

Ссылка

Тоже подпишусь.

pekmop1024 ★★★★★
(28.08.13 04:51:47 MSK)

Ответ на: комментарий от pekmop1024 28.08.13 04:51:47 MSK

а похоже нет такого.
все советы упираются в «сиди и смотри перед падением, что грузит систему».
ищу уже давно :)

~~xtraeft~~ ★★☆☆
(28.08.13 05:16:58 MSK)

Ссылка

Ну, раз такого нет, давайте коллективным разумом ещё подумаем, что полезно контролировать по моему методу, кроме top/iotop/sensors/dmesg?

Ну, наверное, syslog можно добавить. Хотя с ним сложно — если на машине куча виртуальных контейнеров, это ж с каждого смотреть надо, фиг знает, откуда может полезть :)

Что ещё?

~~KRoN73~~ ★★★★★
(28.08.13 05:21:52 MSK) автор топика

Ответ на: комментарий от KRoN73 28.08.13 05:21:52 MSK

Ну, раз такого нет, давайте коллективным разумом ещё подумаем, что полезно контролировать по моему методу, кроме top/iotop/sensors/dmesg?

ну вот у меня допустим на пачке вдс какой то процесс (php, вебсервер или что-то еще) отжирает уйму памяти и потом оом-киллер убивает все вплоть до sshd.

насколько помню, даже в syslog нельзя найти тот процесс, который был критической точкой.

а как это все контролировать для пачки вдс/серверов - непонятно.
самописные костыли использовать очень не хочу, и удивлен, что нет ничего готового.

~~xtraeft~~ ★★☆☆
(28.08.13 05:25:20 MSK)

Ответ на: комментарий от KRoN73 28.08.13 05:21:52 MSK

Еще есть sa (system accounting). Продвинутый top.

Bers666 ★★★★★
(28.08.13 05:36:08 MSK)

Ссылка

Ответ на: комментарий от xtraeft 28.08.13 05:25:20 MSK

какой то процесс (php, вебсервер или что-то еще) отжирает уйму памяти

А ulimit?

~~KRoN73~~ ★★★★★
(28.08.13 05:37:29 MSK) автор топика

Ответ на: комментарий от KRoN73 28.08.13 05:37:29 MSK

Через ulimit не отрегулировать пожирание процессами пахапе памяти. Попробуйте лучше механизм cgroup.

AnDoR ★★★★★
(28.08.13 05:44:43 MSK)

1. nmon -f
2. sar
+pmap

windusjatnik ★
(28.08.13 05:53:35 MSK)

Ссылка

1) по перечисленным объектам мониторинга.

Всё кроме dmesg можно прикрутить к системе мониторинга. Для dmesg - настроить rsyslog/syslog-ng на удалённый сервер.

когда они по непонятной причине уходят в даун.

я бы предположил что на них случается kernel panic, и настроил kdump на слив дампа на удалённый ssh. Цена вопроса - 256 Мб памяти и один ребут на каждый сервер

Как выглядит «уходят в даун»?

3) а в логах ilo/rsa есть что? Может там аппаратная проблема.

router ★★★★★
(28.08.13 06:24:57 MSK)

Ответ на: комментарий от router 28.08.13 06:24:57 MSK

Как выглядит «уходят в даун»?

Текущий вариант такой: http://www.balancer.ru/g/p3226122

а в логах ilo/rsa есть что?

iLo — это ж чисто HP-шная штука? И что конкретно по rsa понимается?

~~KRoN73~~ ★★★★★
(28.08.13 06:38:00 MSK) автор топика

Ответ на: комментарий от KRoN73 28.08.13 06:38:00 MSK

iLo — это ж чисто HP-шная штука?

Ок, тогда так - «в логах management module» :)

И что конкретно по rsa понимается?

А это чисто ibm'ная штука :\

router ★★★★★
(28.08.13 06:42:00 MSK)

Ответ на: комментарий от router 28.08.13 06:42:00 MSK

Ок, тогда так - «в логах management module» :)

Один фиг, нет такого :)

~~KRoN73~~ ★★★★★
(28.08.13 06:44:42 MSK) автор топика

Ссылка

Ответ на: комментарий от KRoN73 28.08.13 03:05:54 MSK

агрегировать и просматривать удобным способом

имелось ввиду logstash, graylog2 - хоть каждую секунду по фильтру смори что происходит

А вот логгировать те же top или iotop как раз нафиг не нужно. Достаточно последнего состояния

когда произойдёт перезагрузка или зависание ты увидишь на сводном графике вообще всё что нужно. именно для этого и создавали zabbix и вбухнули туда миллионы на разработку. всё на одном экране браузера, смотришь корреляцию и вперёд.
короче говоря top/iotop/iftop/sockstat/syslog/sensors/dmesg решают две системы, это logstash и zabbix

потом оом-киллер убивает
даже в syslog нельзя найти тот процесс

киллер говорит кого убил и когда.
http://habrahabr.ru/post/165059/#comment_5763777
люди пользуются логоми и находят проблемы.
с ситуациями чтоб оом-киллер убивал ssh потому что в виртуалке ПХП - из области фантастики

так же есть очень важная вещь - это DTrace чтоб понять какого хрена происходит с приложением (в виртуалке из хост системы например)
но это не для линукс наверное, скорее фряха.

system-root ★★★★★
(28.08.13 06:59:44 MSK)
Последнее исправление: system-root 28.08.13 07:01:48 MSK (всего исправлений: 1)

Ссылка

atop'ом пиши логи, потом прокручивай, там много данных, по сравнению с обычным top'ом, очень много.

/usr/bin/atop -a -w /var/log/atop/atop_20130828 $INTERVAL [$SAMPLES]

~~sdio~~ ★★★★★
(28.08.13 08:51:14 MSK)

Ссылка

У меня рсислоги аккуратненько отправляются на один сервачок.
Дабы не получилась каша, была установлена вэб-морда.
Плюс настроена icinga.

dada ★★★★★
(28.08.13 08:51:27 MSK)

Ссылка

Ответ на: комментарий от KRoN73 28.08.13 05:37:29 MSK

мне надо знать, какой процесс отожрался и привел к зависанию.

~~xtraeft~~ ★★☆☆
(28.08.13 13:30:41 MSK)

Ссылка

Если задача возникает не впервые, то рекомендую озадачиться более глобально, поставив систему мониторинга. И уже в ней настроить периодический сбор максимального количества параметров как OC, так и железа. Все современные мониторинги поддерживают custom-скрипты, поэтому снимать показатели можно с чего-угодно.

И потом можно будет отслеживать даже долгосрочные тенденции к падению того или иного сервера.

Chumka ★★★
(28.08.13 15:11:58 MSK)

Ссылка

Года два назад мне, где-то тут, подсказали про http://www.xymon.com/,
как про свободный аналог Big Brother. В общем-то, логи он пасти может.

AS ★★★★★
(28.08.13 16:04:04 MSK)

Ответ на: комментарий от AnDoR 28.08.13 05:44:43 MSK

Через ulimit не отрегулировать пожирание процессами пахапе памяти

это решается через лимит памяти на процесс php (memory_limit) и лимитом на количество одновременно запущенных пыхпыхов (реализация зависит от метода, которым запускается пыхпых).

В качестве централизованной собиралки и анализатора логов очень рекомендую Graylog2 как сервер, на клиентах настраиваешь rsyslog для передачи сообщений на удаленный хост с грейлогом. чтобы слать грейлогу выводы команд, можно юзать это: http://logstash.net/docs/1.1.13/inputs/exec

Komintern ★★★★★
(28.08.13 18:38:37 MSK)
Последнее исправление: Komintern 28.08.13 18:43:56 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от AS 28.08.13 16:04:04 MSK

как про свободный аналог Big Brother. В общем-то, логи он пасти может.

Имея большой опыт работы с xymon, вполоть до изучения исходников, могу с уверенностью сказать - удалённый syslog он не заменит. Хотя бы потому, что

а) клиент шлёт данные раз в 5 минут ( запускать чаще можно, но этот интервал много где захардкоден и работать не всё будет как ожидалось. А крону нужно чуть ли не realtime

б) если данные в лог поступают быстро ( ЕМНИП, больше 10 кбайт за эти же пять минут ), то на сервер будет отправлено не всё ( только последние 10 кб ). Можно шаманить с ignore и trigger в client-local.cfg, но абсолютно надёжного мониторинга логов не получить.

router ★★★★★
(28.08.13 18:48:34 MSK)

Ответ на: комментарий от router 28.08.13 18:48:34 MSK

Это понятно, но, во-первых, можно на нужный хост ставить тоже сервер, который уже готовое сливать будет (если я тут не ошибаюсь), во-вторых, ignore таки рабочий вариант. А про отмену удалённого syslog я не говорил. Одно другому не мешает.

AS ★★★★★
(28.08.13 23:49:05 MSK)

Ссылка

Можно настроить kdump + kexec (на редхате это делает очень просто) чтобы в момент зависона дампалось ядро и опционально производился авторебут. В итоге ты получишь файл-стек, который можно будет потом разбирать по кусочкам.

Минус решения: потеря производительности.

~~gh0stwizard~~ ★★★★★
(28.08.13 23:58:53 MSK)
Последнее исправление: gh0stwizard 28.08.13 23:59:44 MSK (всего исправлений: 1)

Ответ на: комментарий от KRoN73 28.08.13 04:11:38 MSK

Это и есть dmesg по сети, причём без userspace, что увеличивает шансы получить сообщения о панике ядра.

ИМХО, нет смысла собирать и анализировть информацию о процессах (top) и дисковой активности в случае таких зависаний, когда система не реагирует на внешние воздействия. Лучше уж нагружать её по многу часов тестами, добиваясь её зависания.

mky ★★★★★
(29.08.13 01:05:01 MSK)

Ответ на: комментарий от mky 29.08.13 01:05:01 MSK

ИМХО, нет смысла собирать и анализировть информацию о процессах (top) и дисковой активности в случае таких зависаний, когда система не реагирует на внешние воздействия.

странноватая мысль от адекватного человека.
если не трудно, почитай мои комментарии в треде выше и ответь на них.

резюмирую вкратце: как узнать, какой процесс сожрал все ресурсы и убил сервер?

~~xtraeft~~ ★★☆☆
(29.08.13 03:46:51 MSK)

ТС амиго, пиши удаленный лог либо средствами syslog либо другими средствами НО никак ты не сможешь увидеть последнее сообщение которое появилось уже после падения сети, то которое на экране появилось. Это только в живую. что бы это видеть обычно машины подключают в IP-KVM в ДЦ

MikeDM ★★★★★
(29.08.13 05:24:56 MSK)

Ответ на: комментарий от MikeDM 29.08.13 05:24:56 MSK

Это только в живую

Вот как раз практика показывает, что на экране ты вживую увидишь меньше, чем успеет последнего уйти по сети :D Это ж не BSOD… Большинство «наводящих» данных на экран вообще никогда не выводится.

~~KRoN73~~ ★★★★★
(29.08.13 05:28:08 MSK) автор топика

Ответ на: комментарий от KRoN73 29.08.13 05:28:08 MSK

когда падает в корку ядро, то иной раз только там видно.

MikeDM ★★★★★
(29.08.13 05:33:15 MSK)

Ответ на: комментарий от MikeDM 29.08.13 05:33:15 MSK

Увы, у меня обычно причины были всегда другие :)

~~KRoN73~~ ★★★★★
(29.08.13 05:51:37 MSK) автор топика

Ответ на: комментарий от KRoN73 29.08.13 05:51:37 MSK

мониторь статистику заббиксом.

MikeDM ★★★★★
(29.08.13 06:01:18 MSK)

Ссылка

Ответ на: комментарий от xtraeft 29.08.13 03:46:51 MSK

Похоже, вы не совсем правильно поняли мой пост, он был адресован Крону и не охватывал все случае жизни:

в случае таких зависаний

С другой стороны — комп дважды уже странно выключался. Что утром сегодня, что сейчас. Просыпаюсь — индикатор питания на корпусе не горит, индикатор на матери светится, кулер процессора крутится на малых оборотах, ни на что не отзывается. Кнопкой питания не запускается. Долгое нажатие на кнопку питания, машина выключается целиком, включаешь — работает как ни в чём ни бывало.

Хотел бы я посмотреть на процесс в userspace, который способен так сожрать все ресурсы, в том числе и питание для индикаторе на корпусе :-)

В случаях разбушевавшегося OOM-killer, или зашкаливающего LA, система всё равно подаёт признаки жизни, (NumLock, ping) и там данные top'а имеют смысл. Готовой такой системы я не знаю, раньше что-то велосипедил (скрипты), сейчас у меня фактически один сервер, не так актуально.

Почему нет готовой системы не знаю. Так, с точки зрения работы при большом LA и активном swap´е один статически слинкованый бинарник должен быть надёжнее скриптов.

mky ★★★★★
(29.08.13 16:55:40 MSK)

Ссылка

Есть вис. Чёрный экран, отсутствие всякого видео вывода. В логах, оставшихся в screen'е, ничего подозрительного кроме 100% загрузки CPU в последнюю секунду (или какой там интервал обновления у nmon).

~~KRoN73~~ ★★★★★
(29.08.13 20:44:33 MSK) автор топика

Ссылка

Собрать ядро с отладкой и заюзать netconsole пробовали?

Pinkbyte ★★★★★
(30.08.13 18:59:14 MSK)

Ссылка

1) НОРМАЛЬНЫЙ МОНИТОРИНГ
2) отправка логов по сети на вебморду, не помню как она называется.

tazhate ★★★★★
(30.08.13 19:01:29 MSK)

Ответ на: комментарий от tazhate 30.08.13 19:01:29 MSK

1) НОРМАЛЬНЫЙ МОНИТОРИНГ

какой легковесный посоветуешь?

~~xtraeft~~ ★★☆☆
(30.08.13 20:03:40 MSK)

Ответ на: комментарий от xtraeft 30.08.13 20:03:40 MSK

Monit/mmonit или munin

tazhate ★★★★★
(30.08.13 20:30:53 MSK)

Ответ на: комментарий от tazhate 30.08.13 20:30:53 MSK

или munin

«Кроме вариантов с munin и т.п., но этого мало.» :)

munin везде установлен. Но он под имеющуюся задачу совсем не подходит. Он для другого. По нему можно увидеть, что винты, там, перегрелись, или в своп машина ушла и умерла. Но мгновенный отказ того же контроллера HDD ты на нём никак не обнаружишь.

~~KRoN73~~ ★★★★★
(30.08.13 20:37:47 MSK) автор топика

Ссылка

Ответ на: комментарий от tazhate 30.08.13 20:30:53 MSK

munin

к нему есть плагин, который покажет какой процесс привел к умиранию сервера?

~~xtraeft~~ ★★☆☆
(30.08.13 20:39:21 MSK)

Ответ на: комментарий от xtraeft 30.08.13 20:39:21 MSK

к нему есть плагин, который покажет какой процесс привел к умиранию сервера?

Если предусмотреть все варианты, то, с элементами ИИ такой написать можно, наверное. Осталась мелочь — реализовать возможность агенту прожить ещё до 5 минут на умершем сервере, чтобы он смог отдать данные по запросу наружу :)

~~KRoN73~~ ★★★★★
(30.08.13 20:44:09 MSK) автор топика

Ответ на: комментарий от KRoN73 30.08.13 20:44:09 MSK

прожить ещё до 5 минут на умершем сервере

а в munin, что, этот интервал нельзя уменьшить? В collectd, например, это называется heartbeat и его можно выставить хоть 5 сек. И да, клиент отсылает UDP центру, а не центр запрашивает.

Bers666 ★★★★★
(01.09.13 00:25:49 MSK)

Ответ на: комментарий от Bers666 01.09.13 00:25:49 MSK

а в munin, что, этот интервал нельзя уменьшить?

назови пожалуйста плагин для munin, который покажет, какой процесс вызвал «смерть» сервера.
это если даже мы отбросим тот пункт, что мунин сдохнет вместе со всей системой.

~~xtraeft~~ ★★☆☆
(01.09.13 04:39:32 MSK)

Ссылка

Ответ на: комментарий от Bers666 01.09.13 00:25:49 MSK

а в munin, что, этот интервал нельзя уменьшить?

Можно. Только он тогда все ресурсы машины сожрёт :) Раз в 5 минут десяток-другой секунд обработки потерпеть можно, но если хотя бы два раза в минуту — то это песец будет. И всё равно слишком редко будет обновлять записи.

Ну и придётся ручками RRD-базы переконфигурировать. Они по дефолту настроены на минимальную гранулярность в 5 минут.

~~KRoN73~~ ★★★★★
(01.09.13 17:28:08 MSK) автор топика

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← Объединить два/три инет канала в один, для мелкого провайдинга..как проще?

Admin

Объясните нубу различия VPN и SSH →

Похожие темы