LINUX.ORG.RU
решено ФорумAdmin

[память] ошибки при запуске


0

2

Приветствую.

Сервер с rhel6 и nginx(frontend) - в /var/log/messages появляются ошибки, например:

Feb 28 00:08:01 lb39 kernel: crond[27949] trap invalid opcode ip:7ff0e77eddfa sp:7fff3360a150 error:0 in libpam.so.0.82.2[7ff0e77e7000+c000]
Feb 28 00:30:01 lb39 kernel: crond[31216] trap invalid opcode ip:7ff0e77eddfa sp:7fff3360a150 error:0 in libpam.so.0.82.2[7ff0e77e7000+c000]

Feb 28 00:43:17 lb39 kernel: wget[701] trap invalid opcode ip:7f052c0b6445 sp:7fffd8bfa880 error:0 in libc-2.12.so[7f052c016000+197000]
Feb 28 00:43:26 lb39 kernel: wget[719] trap invalid opcode ip:7f3c4fad3445 sp:7fff47205a10 error:0 in libc-2.12.so[7f3c4fa33000+197000]

Периодически при попытке зайти по ssh:

Feb 28 03:36:12 lb39 kernel: sshd[26589]: segfault at 7f17061fa705 ip 00007f16d6961600 sp 00007fffef642148 error 6 in libc-2.12.so[7f16d6880000+197000]

При выполнении некоторых сприптов:

Feb 28 05:08:01 lb39 kernel: killall[16120] general protection ip:4017fa sp:7fff98b8c328 error:0 in killall[400000+4000]
Feb 28 05:08:02 lb39 kernel: killall[16124] general protection ip:4017fa sp:7fff6f4d6cc8 error:0 in killall[400000+4000]

Все уже запущенные программы/скрипты (тот же nginx или collectd) работают стабильно, никто не падает. Проблемы появляются только при запуске или форке и то, сегодня оно запускается нормально а завтра - перестает запускаться и просто падает при запуске с уведомлением в /var/log/messages. Память тестировалась memtest86+ пару дней - проблем не обнаружилось.


помню, гонял я федору — та же фигня была. комп исправен (до сих пор пашет), другие дистры работали. ты понел

anonymous ()
Ответ на: комментарий от anonymous

Это один из 3х идентичных серверов с одинаковым железом, дистрибутивом и прочим софтом с конфигами. Ну и федора не рахат. Тут ынтырпрайз как бы.

Но да, идею я понял.

fjoe ()

протесть память мемтестом для начала

xpahos ★★★★★ ()
Ответ на: комментарий от anykey_mlya

Было дело. Вот что добавлял в /etc/security/limits.conf:

nginx           soft    nofile  131072
nginx           hard    nofile  131072
Маловероятно, что из-за этого, но убрал.

fjoe ()
Ответ на: комментарий от fjoe

да вы правы не из-за этого, и для демонов оно не работает т.к. limits.conf - configuration file for the pam_limits module, короче только для тех кто проходит авторизацию

anykey_mlya ()

сторонние репы для nginx итп не юзал?

true_admin ★★★★★ ()
Ответ на: комментарий от true_admin

Только официальные + epel. Неужели nginx всё ломает?

fjoe ()
Ответ на: комментарий от true_admin

Там почти ничего нет - входной сервер с nginx для распределения нагрузки. Ну и по мелочи есть - htop и collectd вроде из epel.

fjoe ()
Ответ на: комментарий от fjoe

у тебя rhel со всеми апдейтами? Видел мельком что проблемы были у старых версий. Правда, народ на xen domU жаловался, но вдруг...

true_admin ★★★★★ ()
Ответ на: комментарий от true_admin

у тебя rhel со всеми апдейтами?

Как только увидел ошибки - первым делом накатил свежайшие апдейты, ибо были прецеденты с кривыми драйверами в одной из версий официального ядра. Не помогло.

Правда, народ на xen domU жаловался

В гугле видел. На KVM, кстати, тоже подобный жалобы встречал. Но у меня железка без всяких виртуализаци.

fjoe ()
Ответ на: комментарий от true_admin

Пофиксили. Что бы сделано:

1) отсоединены и воткнуты обратно все процы и вся память.

2) процессоры и радиаторы были обильнее вымазаны теплопроводящей пастой.

Похоже, специально обученный сборщик криво собрал сервер - втыкал процессоры наспех. Кстати, температура хоть и была повыше остальных, но оставалсь в пределах нормы - ~50 градусов под нагрузкой. На двух других серверах такие же процессоры с рабочей температурой 40-45. Сейчас температура процессоров на всех серверах одинакова и ощибок в логах пару дней не видать. Такие дела.

fjoe ()
Ответ на: комментарий от fjoe

супер, буду знать. А логов сервер не ведёт? Может что-то подозрительное было типа ecc errors?

true_admin ★★★★★ ()
Ответ на: комментарий от true_admin

Есть ipmi с его event log. Но там только intrusion (вскрытие сервера, физический доступ) было залогировано - это когда его собирали. А потом еще раз то же самое, когда смазывали процы, но больше ничего, т.е. по сабжу всё чисто. В messages только се ошибки с первого поста в разных вариациях(segfault, opcode,...) и только при старте программы. Вобщем хуже нету, когда комп, а тем более сервер собирает офисная планктонина.

fjoe ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.