LINUX.ORG.RU
ФорумAdmin

Огромные и маленькие показатели loadaverage с определенной периодичностью. Поиск причин.

 , ,


1

1

Добрый день.
Есть сервер:
Intel(R) Core(TM) i7 CPU 950@3.07GHz
RAM 1024
Xen
Debian GNU/Linux 6.0
Apache/2.2.16 (Debian)
PHP 5.3.3-7+squeeze14 with Suhosin-Patch (cli) (built: Aug 6 2012 20:08:59)
nginx/0.7.67
mysql Ver 5.1.66-0+squeeze1-log for debian-linux-gnu on i486 ((Debian))

Стоит на сервере monit с правилом перезагрузки при показателях la>10 5 раз подряд.
Правило это срабатывает обязательно каждую ночь (GMT+3 (4)).
Вот так выглядит суточный график загрузки памяти
http://my.jetscreenshot.com/2772/20130824-wpiu-65kb.jpg
CPU
http://my.jetscreenshot.com/2772/20130824-hh75-45kb.jpg
Процессы
http://my.jetscreenshot.com/2772/20130824-xw9j-49kb.jpg
Apache
http://my.jetscreenshot.com/2772/20130824-ikr1-39kb.jpg
LA
http://my.jetscreenshot.com/2772/20130824-q873-39kb.jpg
Top
http://my.jetscreenshot.com/2772/20130825-azvu-158kb.jpg

Все графики в одном файле
http://img829.imageshack.us/img829/3175/sr85.jpg

Если днем сервер перезагрузить, то до ночи он будет иметь нормальный la (по графику видно). Но ночью как с цепи срывается, LA подскакивают до 30 и потом уже не входит в стабильное состояние, несмотря на почти нулевую нагрузку, la колеблется от 3 до 10. Стоит сделать полный ребут и все приходит в норму опять же до ночи.

Ответ на: комментарий от Hokum_new

io примерно такой всегда
http://my.jetscreenshot.com/2772/20130825-h0of-179kb.jpg
В syslog иногда
/USR/SBIN/CRON[14438]: (CRON) error (grandchild #14443 failed with exit status 134)
И апач пару раз просил увеличить MaxClients
На какой именно лог внимание обратить? Есть debug но он 2мб за сутки. Анализировать его сложно просмотром.

artlayers
() автор топика
Ответ на: комментарий от uspen

Почему возникает la=30 и при этом потом сервер не приходит в нормальное состояние (если думать что это ыбла такая пиковая нагрузка)? Только после полной перезагрузки. Перезагрузка отдельно апача, mysql, nginx результатов не дает.

artlayers
() автор топика
Ответ на: комментарий от artlayers

Я бы тщательно посмотрел состояние системы в моменты, когда выстраивается большая очередь, определил бы, чем собственно система занята и от этого плясал бы дальше. sar/nmon, top в критическое время и всё такое, наверное

Hokum_new
()
Ответ на: комментарий от artlayers

с чего ты взял, что la должно быть до 2?

когда ты убиваешь процессы, которые подозреваются и la не уменьшается, сделай вывод всех процессов и их состояний, ищи особенно в состоянии D, про R я думаю ты в курсе. Также смотри внимательно, если юзаешь сетевые fs.

uspen ★★★★★
()
Ответ на: комментарий от uspen

А какое значение la считать нормой? Ясно, что чем меньше процессов ждёт в очереди тем лучше. Для данной системы я принял что меньше 2 - норма.
За 3 недели среднее число процессов в статусе:
R - 4,57 (max - 76)
S - 100,06 (max - 213)
D - 0 (max - 0)

artlayers
() автор топика
Ответ на: комментарий от uspen

То есть? Считаете что это норма периодически la до 30, а потом постоянная очередь минимум на 5 до ближайшей перезагрузки. Средний WA менее 1,34% по выборке в три недели.

artlayers
() автор топика
Ответ на: комментарий от artlayers

Вообще говоря, для каждой системы свой нормальный load average. Если она нормально выполняет функции, т.е. продолжает обслуживать клиентов, задержки сервиса нет, iowait не приводит к ощутимым service time, то почему нужно считать большой la проблемой?

Другое дело, если при этом всё-таки есть проблемы с сервисом. Тогда надо искать, какого именно ресурса не хватает, что и приводит к большим цыфирям.

Hokum_new
()
Ответ на: комментарий от Hokum_new

Как понять объективно что задержки сервиса нет? Померить 100 раз в час время загрузки конкретной страницы с разных машин, ос, браузеров и вывести среднее время на каждый час. Построить график и посмотреть насколько он ровный в течение суток. Ну субъективно её нет, когда я загружаю страницу сайта, но измерений таких не проводил, трудоёмко и всё равно не объективно. Вот я и мерил задержку в процессах в очереди на обработку, которые мне показывает система.

artlayers
() автор топика
Ответ на: комментарий от artlayers

Увы, с методикой объективной оценки производительности вебового фронта под нагрузкой я не знаком. Мне субъективного метода всегда хватало, для моих скромных нужд, так что тут нужны гуру веб хайлоада :)

Hokum_new
()

Проверь SMART дисков. Своп, логи и контент апача на одном физическом диске?

Лимиты на память для юзера, под которым запускаются php скрипты выставлены?

Shadow ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.