LINUX.ORG.RU
ФорумAdmin

Сервак падает - я в отчаянии. :(((


0

0

Есть удаленный сервак. Ядро 2.4.26 с патчами openwall, bcm5700 и 2.4.26-rc1-libata3. На нем работают apache, nginx, postfix, tpop3d, inn, named, socks (для внутр. использования) и nfs (для локалки - две сетевушки). Все что не нужно выставлять наружу прикрыто через ipchains.

В последнее время довольно часто (раз в 1-2 суток) сервак начал падать. Что было на экране посмотреть нет возможности. По симптомам - вроде как кернел паник (сервак пингуется, нужные порты открыты, но обращение ни на один невозможно). Однако, у меня в /proc/sys/kernel/panic стоит 1, т.е. сервак при кернел паник вроде как сам должен перезагрузиться. В логах все чисто - ничего подозрительного. :(

Подскажите, плиз - могут-ли быть подобные симптомы (пинги, открытые порты) не при кернел паник? Что вообще можно сделать в этой ситуации хотя-бы что-бы диагностировать проблему?

это не кернел паник, когда случается кернел паник -- вообще ничего не работает

возможно hdd в системе сбоит

возможно кто-то DoS'ит машину

возможно переполнилась таблица ip_conntrack

вообщем, предлагаю повесить какой-нибуть системный монитор типа atop, чтоб писал в лог состояние системы каждую минуту и когда система в очередной раз упадет -- анализировать логи

Cosmicman ★★
()

У меня alpha up1000 падал на ядрах от 2.4.21 до 2.4.27. Период - от дня до 2-х недель. Причин не нашёл, просто гас монитор и никаких симптомов жизни. От 2.4.27 всё выровнялось.

diavolo
()
Ответ на: комментарий от diavolo

може у тя место кончилось ? ...

anonymous
()

Больше на "железные" проблемы похоже.

Vlad_Ts ★★★★★
()
Ответ на: комментарий от anonymous

Мониторинг идет почти постоянно. В момент падения никаких сильно уж резких всплесков в ОЗУ, свопе и дисках не набюдается. Хотя, возможно просто частоты мониторинга 1 раз в минуту не хватает.

UncleAndy ★★★
() автор топика
Ответ на: комментарий от fagot

Не очень давно мы туда кучу дополнительных кулеров наставили, так что вряд-ли из-за этого проблема.

UncleAndy ★★★
() автор топика
Ответ на: комментарий от anonymous

Пока только локализовал скрипт при запуске которого происходит зависание. Сейчас основное продозрение на ffmpeg (разбирает большие видео файлы) и ImageMagick (делает превью). Главные планы сейчас - обновить весь этот софт и связаные с ним библиотеки.

UncleAndy ★★★
() автор топика
Ответ на: комментарий от UncleAndy

> Не очень давно мы туда кучу дополнительных кулеров наставили, так что вряд-ли из-за этого проблема.

Блок питания тянет?

anonymous
()
Ответ на: комментарий от anonymous

Насколько я помню там то-ли 400, то-ли 500 ватный БП. Так что должен тянуть.

UncleAndy ★★★
() автор топика
Ответ на: комментарий от Cosmicman

Поставил atop с логированием.
Обновил софт ffmpeg.
После очередного падения последняя нормальная страница atop:

PRC | sys 260 ms | user 1770 ms | #thr 218 | #exits 22 | #zombie 0 |
CPU | sys 9% | user 40% | nice 19% | idle 32% | cs 1106 |
MEM | tot 3.6G | free 9.0M | cache 2.5G | buff 209.7M | slab 0.0M |
SWP | tot 2.0G | free 2.0G | vmcom 0.0M | swin 0 | swout 0 |
NET | transport | tcpi 1291 | tcpo 1215 | udpi 1 | udpo 1 |
NET | network | ipi 1304 | ipo 1217 | ipfrw 0 | deliv 1270 |
NET | dev eth1 | pcki 864 | pcko 799 | in 1259K | out 54K |
NET | dev eth0 | pcki 465 | pcko 281 | in 161K | out 186K |
NET | dev lo | pcki 134 | pcko 134 | in 753K | out 753K |

Вроде ничего особо подозрительного кроме снижения ОЗУ до 9М.

UncleAndy ★★★
() автор топика
Ответ на: комментарий от Obidos

> Память кончается -- повис.
А это интересно чего так ? Разве при нехватке памяти не должны убиваться процессы ? Как тогда поможет swap, он ведь тоже может закончиться, и снова будет аналогичная ситуация ?

spirit ★★★★★
()
Ответ на: комментарий от spirit

> Разве при нехватке памяти не должны убиваться процессы? Как тогда поможет swap

А у него же аж 2 гига свопа свободно. Типа, память ещё есть. Я не понимаю, почему в него не лезет. Что-то где-то перемудрил.

Obidos ★★★★★
()
Ответ на: комментарий от Obidos

Еще ньюанс обнаружился.
В скрипте сделал логирование - после очередного падения в конце скрипта мусор. Вот так примерно:

parseart: ...finish
FINISH parseart
<4222595e66j .t.╡.═ uсz!CМ>Х?PЯ% ╡ыъi А?

Тут видно, что началось выдавать id сообщения, которое нужно обработать. После этого идет забирание у innd заголовка Xref. Может быть это в innd какая-то уязвимость? Может это он падает?

UncleAndy ★★★
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.