LINUX.ORG.RU

Нормально. У них «скорость спадания» разная. Пятиминутный спадает быстрее.

anonymous
()
Ответ на: комментарий от t184256

Я наблюдаю уже целый день эту картину. 15-и минутный лоад все время больше 10и и 5и минутных:

08:30:01 AM   runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15   blocked
08:40:01 AM         5      1557      1.56      3.09      6.63         0
08:50:01 AM         2      1529      1.78      2.87      6.27         0
09:00:01 AM         2      1589      3.17      3.89      6.63         0
09:10:01 AM         1      1533      2.92      4.27      6.99         0
09:20:01 AM         1      1593      2.60      3.77      6.89         0
09:30:01 AM         3      1556      2.32      3.61      6.79         0
09:40:01 AM         1      1580      2.83      3.79      6.83         0
09:50:01 AM         1      1554      2.62      3.88      6.90         0
10:00:01 AM         2      1515      2.79      4.20      7.11         0
10:10:01 AM         1      1581      2.32      3.77      7.01         0
10:20:01 AM         3      1553      2.03      3.71      7.00         0
10:30:01 AM         1      1662      1.55      3.66      6.97         0
10:40:01 AM         0      1653      0.54      1.92      5.89         0
10:50:01 AM         0      1624      0.45      1.65      5.32         0
11:00:01 AM         1      1567      0.78      1.76      5.10         0
11:10:01 AM         0      1583      1.73      2.20      5.15         0
11:20:01 AM         1      1600      0.57      1.93      5.06         0
11:30:01 AM         2      1537      0.41      1.74      4.95         1
11:40:01 AM         0      1560      0.32      1.70      4.90         0
11:50:01 AM         1      1569      0.47      1.71      4.86         0
12:00:01 PM         1      1591      0.42      1.68      4.83         0
12:10:01 PM         0      1568      0.35      1.56      4.74         0
12:20:01 PM         0      1581      0.43      1.56      4.68         0
12:30:01 PM         1      1560      0.32      1.63      4.72         0
12:40:01 PM         0      1601      0.45      1.63      4.73         0
12:50:01 PM         1      1603      0.43      1.59      4.70         0
01:00:01 PM         2      1524      0.54      1.68      4.74         0
01:10:01 PM         0      1617      0.40      1.74      4.84         0
01:20:01 PM         0      1581      0.37      1.57      4.72         0
Average:            1      1520      1.48      2.68      5.82         0
Igorek
() автор топика
Ответ на: комментарий от t184256

И еще я заметил, что очень очень много следующих процессов:

всего 1255

из них:

217	oracle
111	bioset
110	kdmflush
60	fdd_worklist_th
60	odm_tsk_daemon
33	vx_worklist_thr
32	vxiod
26	vx_worklist_ded
10	dmpdaemon
10	sshd
9	llt_rdlv
7	vxfs_workerthre
6	bash
4	vx_cache_copy_t
4	vx_naio_worker
3	dbus-daemon
3	vxnotify
3	ssh
3	lltdlv
2	avahi-daemon
2	vxfen
2	lltd
2	amDaemon
2	vxrelocd

Что это за процессы, как уменьшить их количество?

RHEL7

Igorek
() автор топика
Ответ на: комментарий от t184256

ай молодец. «в течении часа» теперь объясни.

А ты в интегрировании и дифференцировании шаришь или вместо вышки пиво пил? Если вышку не учил как я тебе объясню накопление коротких перегрузок в больших накопителях типа 15 мин

anonymous
()
Ответ на: комментарий от Igorek

Что это за процессы, как уменьшить их количество?

Нагруженный оракл в веритасовском кластере... Если эти слова ничего не говорят, то отойдите от этого сервера подальше, пока что-то важное не упало.

Bebop ★★
()
Ответ на: комментарий от Bebop

До этого был RHEL5 и VCS5, те же базы - все работало отлично На выходных установили RHEL7 и VCS6 и вот такая вот история случилась, с теми же инстанциями.

У сервера 16 ядер, так что как я понимаю эти значения не критичны, но все же... Я пытаюсь разобраться в чем дело, куда посмотреть.

Заметил, что появились какие то новые процессы bioset, kdmflush и т д, которые в количестве >100 сейчас работают. Думаю, это с этим что то связано может быть?

Igorek
() автор топика
Ответ на: комментарий от Igorek

Мне кажется мы чего-то не видим на той системе. И sar с шагом в 10 минут тому доказательство.

Я бы предположил, что это оракл логами «гадит». К примеру, архивирует раз в 14 минут. Это порождает пиковое IO, которое считается в среднюю загрузку. Но эти пики раз в 14 минут быстренько пропадают из одно и пяти минутных интервалов.

Надо бы на sar с другим интервалом посмотреть.

У веритаса ещё во всякие vxstat можно заглянуть.

Bebop ★★
()
Ответ на: комментарий от Igorek

Честно, я с 7-й шапкой и её нововведениями в device mapper не разбирался. Просто не знаю.

Но и kdmflush и bioset обслуживают его. Первое буферы, а второе какие-то процессы blocking IO.

Я бы сравнил, а что изменилось при переезде - фс, структура томов, настройки ввода-вывода. А там можно и покопать.

Bebop ★★
()
Ответ на: комментарий от Bebop

Мне кажется, я нашел откуда взялись эти все bioset'ы и kdmflush'ы. После установки загружается multipathd и количество этих процессов равно количеству дисков, которые видит система. Если я отключаю multipathd при загрузке, то имею всего три bioset'а и kdmflush'а и все работает, так как у veritas свой dmp.

Как это связано с load'ом, трудно сказать, может быть просто от количества процессов? Сейчас их больше 1200...

Проблемка только в том, что нужно будет перезагрузиться в прод среде.

Igorek
() автор топика
Ответ на: комментарий от anonymous

Пива никогда не пил, но вышка есть. Если объяснить не можешь, так может в тебе дело? Хоть примерно накидай график функции, где час среднее по 15 минутам будет в разы больше среднего по 5и.

t184256 ★★★★★
()
Ответ на: комментарий от Igorek

DMP штука хорошая и стабильная (хотя и она бывало крошилась). Если протипоказаний нет, то на неё можно смело съезжать.

Вот только для проверки тестовая система быть должна...

А насчёт load-а, если дело было тупо в кол-ве процессов, то поможет. Но мне кажется, что есть неравномерности в IO. Иначе как объяснить 15-минутную загрузку?

Я бы NMON-ы (для линукса тоже был) отстроил по 30 секунд. Оно потом красиво так в графики разбирается. Без самопальных костылей.

Bebop ★★
()
Ответ на: комментарий от t184256

Ну там есть ссылка на Bug 45471, где в конце написано:

By looking at vmstat output, it seems in retrospect that old kernels had calculated the load average incorrectly (or differently). With 40 tasks running, load average was reported in the single digits. Latest kernel versions (3.6, at least) seems to average out number of tasks running over time period and reports that as load average.

Ещё упоминается: ″5167e8d5417b sched/nohz: Rewrite and fix load-avg computation — again″, правда это для случая ″CONFIG_NO_HZ″.

Ещё гуглится баги, что LA всё время около 1.

Ну и случай ТС гуглится http://www.reddit.com/r/kernel/comments/2k02s7/how_is_this_load_average_patte... , что типа в таких странных цифрах виноват модуль VCS GAB.

Я, кроме бага в ядре, не вижу других варантов, объясняющих почему 15 минутный LA заметно больше 1 минутного. По моей последней ссылке дан этот странный LA с 1 минутным интервалом, это более наглядно, чем 10 мин., приведённый ТС'ом.

mky ★★★★★
()
Ответ на: комментарий от mky

именно так и оказалось! попробовал не грузить этот модуль и все сразу стало нормально. Написал в symantec support и получил ответ, что это баг и вот вам патч. Сейчас загружаю и попробую установить

Igorek
() автор топика
Ответ на: комментарий от mky

Я, кроме бага в ядре, не вижу других варантов, объясняющих почему 15 минутный LA заметно больше 1 минутного.

Этот анонимус утверждает, что умеет интегрировать. Как бы его уговорить снизойти и рассказать нам, неучам, что он там придумал?

t184256 ★★★★★
()
Ответ на: комментарий от mky

Спасибо за советы и помощь, в моем случае оказалось баг в Veritas (gab) и patch 6.2.1 все поправил.

Еще раз спасибо!

Igorek
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.