Повис сервер...

Собственно ситуация в следующем. Вчера вечером сервер перестал отвечать на запросы по ссш. Вернее отвалилось всё кроме днски и nginx. Сегодня с утра при попытке залогиниться на сервер с локальной консоли, выдал, что не может зафоркать процесс и залогиниться не дал. После чего был отправлен на ребут. После ребута поднялся успешно, но в логах появились такого рода сообщения:

kernel: EDAC i5000 MC0: NON-FATAL ERRORS Found!!! 1st NON-FATAL Err Reg= 0x20000
EDAC i5000:     NORTHBOUND CRC  Error, bits= 0x20000

И такие

kernel: hda: irq timeout: status=0xd0 { Busy }
kernel: ide: failed opcode was: unknown
kernel: hda: ATAPI reset complete

Но эти сообщения появились за 3 часа до падения сервера.

В тот момент, когда сервер же перестал отвечать на запросы в логах появились следующие сообщения

expire_proc: expire thread create for /net failed
expire_proc: expire thread create for /misc failed

и сыпались в логи до момента перезагрузки.

в dmesg так же появились сообщения после ребута

EXT3-fs: sda1: orphan cleanup on readonly fs                                                                                               
ext3_orphan_cleanup: deleting unreferenced inode 59017304                                                                                  
ext3_orphan_cleanup: deleting unreferenced inode 58729280                                                                                  
ext3_orphan_cleanup: deleting unreferenced inode 41910355                                                                                  
ext3_orphan_cleanup: deleting unreferenced inode 58731245

Вопрос, как изежать этого в дальнейшем и что союственно произошло?

система стоит Центось 5.4 Linux 2.6.18-164.15.1.el5xen #1 SMP Wed Mar 17 12:53:17 EDT 2010 i686 i686 i386 GNU/Linux

Ссылка

← [postfix] перенаправить всю исходящую почту на локальный ящик

[apache2] vhost не работает >_< →

Дохнет винт. Скажи smarctl -a /dev/hda и посмотри результаты.

z2v ★
(29.03.10 16:09:03 MSK)

Ответ на: комментарий от z2v 29.03.10 16:09:03 MSK

избежать - резервирование.

z2v ★
(29.03.10 16:10:05 MSK)

Ссылка

Срочно бэкапь данные

И покупай новый винт

nnz ★★★★
(29.03.10 16:10:59 MSK)

Ссылка

Согласен с верхними ораторами - бекапься срочно и новый винт.

Zhbert ★★★★★
(29.03.10 16:12:44 MSK)

Ссылка

Ответ на: комментарий от z2v 29.03.10 16:09:03 MSK

так /dev/hda это вообще dvd-rom, Притом на сервере 4 жёстких диска, и собран рэйд миррор из 2 дисков. а диск на котором удалялись inode это /dev/sda1

EXT3-fs: sda1: orphan cleanup on readonly fs

pahan40
(29.03.10 16:16:40 MSK) автор топика

Ссылка

Покажи вывод mount

Nao ★★★★★
(29.03.10 16:26:01 MSK)

Ответ на: комментарий от Nao 29.03.10 16:26:01 MSK

/dev/sda1 on / type ext3 (rw)
proc on /proc type proc (rw)
sysfs on /sys type sysfs (rw)
devpts on /dev/pts type devpts (rw,gid=5,mode=620)
tmpfs on /dev/shm type tmpfs (rw)
none on /proc/sys/fs/binfmt_misc type binfmt_misc (rw)
sunrpc on /var/lib/nfs/rpc_pipefs type rpc_pipefs (rw)
none on /var/lib/xenstored type tmpfs (rw)

pahan40
(29.03.10 16:50:02 MSK) автор топика

Ответ на: комментарий от pahan40 29.03.10 16:50:02 MSK

Вообщем, нашёл в чём причина. Действительно умирает диск, вчера вечером развалился рейд и до ребута сервер не отвечал. После ребута рэйд начал ребилдиться.

pahan40
(29.03.10 17:24:06 MSK) автор топика

Ответ на: комментарий от pahan40 29.03.10 17:24:06 MSK

Выводи срочно из рейда поломанный диск. При ребилде MD девайса вполне возможен сценарий, когда некоторые блоки с данными на дохнущем винте будут испорчены, и при ребилде он может восстановить порченные блоки именно с подыхающего диска (тем самым перезаписав еще живые корретные данные и превед).

BigAlex ★★★
(29.03.10 17:58:38 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← [postfix] перенаправить всю исходящую почту на локальный ящик

Admin

[apache2] vhost не работает >_< →

Срочно бэкапь данные

Похожие темы