Огромные и маленькие показатели loadaverage с определенной периодичностью. Поиск причин.

debian, load average, администрирование linux

1

1

Добрый день.
Есть сервер:
Intel(R) Core(TM) i7 CPU 950@3.07GHz
RAM 1024
Xen
Debian GNU/Linux 6.0
Apache/2.2.16 (Debian)
PHP 5.3.3-7+squeeze14 with Suhosin-Patch (cli) (built: Aug 6 2012 20:08:59)
nginx/0.7.67
mysql Ver 5.1.66-0+squeeze1-log for debian-linux-gnu on i486 ((Debian))

Стоит на сервере monit с правилом перезагрузки при показателях la>10 5 раз подряд.
Правило это срабатывает обязательно каждую ночь (GMT+3 (4)).
Вот так выглядит суточный график загрузки памяти
http://my.jetscreenshot.com/2772/20130824-wpiu-65kb.jpg
CPU
http://my.jetscreenshot.com/2772/20130824-hh75-45kb.jpg
Процессы
http://my.jetscreenshot.com/2772/20130824-xw9j-49kb.jpg
Apache
http://my.jetscreenshot.com/2772/20130824-ikr1-39kb.jpg
LA
http://my.jetscreenshot.com/2772/20130824-q873-39kb.jpg
Top
http://my.jetscreenshot.com/2772/20130825-azvu-158kb.jpg

Все графики в одном файле
http://img829.imageshack.us/img829/3175/sr85.jpg

Если днем сервер перезагрузить, то до ночи он будет иметь нормальный la (по графику видно). Но ночью как с цепи срывается, LA подскакивают до 30 и потом уже не входит в стабильное состояние, несмотря на почти нулевую нагрузку, la колеблется от 3 до 10. Стоит сделать полный ребут и все приходит в норму опять же до ночи.

Ссылка

← centos mount

Импорт volume group без export →

А в логах ничего нет, прямо?

Может, io посмотреть ещё?

Hokum_new ★
(25.08.13 10:52:26 MSK)

Ответ на: комментарий от Hokum_new 25.08.13 10:52:26 MSK

io примерно такой всегда
http://my.jetscreenshot.com/2772/20130825-h0of-179kb.jpg
В syslog иногда
/USR/SBIN/CRON[14438]: (CRON) error (grandchild #14443 failed with exit status 134)
И апач пару раз просил увеличить MaxClients
На какой именно лог внимание обратить? Есть debug но он 2мб за сутки. Анализировать его сложно просмотром.

artlayers
(25.08.13 11:03:02 MSK) автор топика

а в чем вопрос? что не понятно?

uspen ★★★★★
(25.08.13 11:41:18 MSK)

Ответ на: комментарий от uspen 25.08.13 11:41:18 MSK

Почему возникает la=30 и при этом потом сервер не приходит в нормальное состояние (если думать что это ыбла такая пиковая нагрузка)? Только после полной перезагрузки. Перезагрузка отдельно апача, mysql, nginx результатов не дает.

artlayers
(25.08.13 11:45:57 MSK) автор топика

Ответ на: комментарий от artlayers 25.08.13 11:03:02 MSK

Я бы тщательно посмотрел состояние системы в моменты, когда выстраивается большая очередь, определил бы, чем собственно система занята и от этого плясал бы дальше. sar/nmon, top в критическое время и всё такое, наверное

Hokum_new ★
(25.08.13 11:46:15 MSK)

Ссылка

Ответ на: комментарий от artlayers 25.08.13 11:45:57 MSK

по-моему ты не то диагностируешь.

«нормальное состояние» - это что?

uspen ★★★★★
(25.08.13 14:23:10 MSK)

Ответ на: комментарий от uspen 25.08.13 14:23:10 MSK

la до 2

artlayers
(25.08.13 14:25:05 MSK) автор топика

Ответ на: комментарий от artlayers 25.08.13 14:25:05 MSK

с чего ты взял, что la должно быть до 2?

когда ты убиваешь процессы, которые подозреваются и la не уменьшается, сделай вывод всех процессов и их состояний, ищи особенно в состоянии D, про R я думаю ты в курсе. Также смотри внимательно, если юзаешь сетевые fs.

uspen ★★★★★
(25.08.13 14:28:39 MSK)

Ответ на: комментарий от uspen 25.08.13 14:28:39 MSK

А какое значение la считать нормой? Ясно, что чем меньше процессов ждёт в очереди тем лучше. Для данной системы я принял что меньше 2 - норма.
За 3 недели среднее число процессов в статусе:
R - 4,57 (max - 76)
S - 100,06 (max - 213)
D - 0 (max - 0)

artlayers
(25.08.13 15:34:40 MSK) автор топика

Ответ на: комментарий от artlayers 25.08.13 15:34:40 MSK

вот ты и решаешь выдуманную задачу, которой нет.

uspen ★★★★★
(25.08.13 15:36:42 MSK)

Ответ на: комментарий от uspen 25.08.13 15:36:42 MSK

То есть? Считаете что это норма периодически la до 30, а потом постоянная очередь минимум на 5 до ближайшей перезагрузки. Средний WA менее 1,34% по выборке в три недели.

artlayers
(25.08.13 15:43:54 MSK) автор топика

Ссылка

Ответ на: комментарий от artlayers 25.08.13 15:34:40 MSK

Вообще говоря, для каждой системы свой нормальный load average. Если она нормально выполняет функции, т.е. продолжает обслуживать клиентов, задержки сервиса нет, iowait не приводит к ощутимым service time, то почему нужно считать большой la проблемой?

Другое дело, если при этом всё-таки есть проблемы с сервисом. Тогда надо искать, какого именно ресурса не хватает, что и приводит к большим цыфирям.

Hokum_new ★
(25.08.13 16:02:56 MSK)

Ответ на: комментарий от Hokum_new 25.08.13 16:02:56 MSK

Как понять объективно что задержки сервиса нет? Померить 100 раз в час время загрузки конкретной страницы с разных машин, ос, браузеров и вывести среднее время на каждый час. Построить график и посмотреть насколько он ровный в течение суток. Ну субъективно её нет, когда я загружаю страницу сайта, но измерений таких не проводил, трудоёмко и всё равно не объективно. Вот я и мерил задержку в процессах в очереди на обработку, которые мне показывает система.

artlayers
(25.08.13 16:26:56 MSK) автор топика

Ответ на: комментарий от artlayers 25.08.13 16:26:56 MSK

Увы, с методикой объективной оценки производительности вебового фронта под нагрузкой я не знаком. Мне субъективного метода всегда хватало, для моих скромных нужд, так что тут нужны гуру веб хайлоада :)

Hokum_new ★
(25.08.13 16:41:58 MSK)