LINUX.ORG.RU
ФорумAdmin

Повис сервер...


0

0

Собственно ситуация в следующем. Вчера вечером сервер перестал отвечать на запросы по ссш. Вернее отвалилось всё кроме днски и nginx. Сегодня с утра при попытке залогиниться на сервер с локальной консоли, выдал, что не может зафоркать процесс и залогиниться не дал. После чего был отправлен на ребут. После ребута поднялся успешно, но в логах появились такого рода сообщения:

kernel: EDAC i5000 MC0: NON-FATAL ERRORS Found!!! 1st NON-FATAL Err Reg= 0x20000
EDAC i5000:     NORTHBOUND CRC  Error, bits= 0x20000
И такие
kernel: hda: irq timeout: status=0xd0 { Busy }
kernel: ide: failed opcode was: unknown
kernel: hda: ATAPI reset complete
Но эти сообщения появились за 3 часа до падения сервера.

В тот момент, когда сервер же перестал отвечать на запросы в логах появились следующие сообщения

expire_proc: expire thread create for /net failed
expire_proc: expire thread create for /misc failed
и сыпались в логи до момента перезагрузки.

в dmesg так же появились сообщения после ребута

EXT3-fs: sda1: orphan cleanup on readonly fs                                                                                               
ext3_orphan_cleanup: deleting unreferenced inode 59017304                                                                                  
ext3_orphan_cleanup: deleting unreferenced inode 58729280                                                                                  
ext3_orphan_cleanup: deleting unreferenced inode 41910355                                                                                  
ext3_orphan_cleanup: deleting unreferenced inode 58731245                            

Вопрос, как изежать этого в дальнейшем и что союственно произошло?

система стоит Центось 5.4 Linux 2.6.18-164.15.1.el5xen #1 SMP Wed Mar 17 12:53:17 EDT 2010 i686 i686 i386 GNU/Linux



Последнее исправление: pahan40 (всего исправлений: 1)

Срочно бэкапь данные

И покупай новый винт

nnz ★★★★
()

Согласен с верхними ораторами - бекапься срочно и новый винт.

Zhbert ★★★★★
()
Ответ на: комментарий от z2v

так /dev/hda это вообще dvd-rom, Притом на сервере 4 жёстких диска, и собран рэйд миррор из 2 дисков. а диск на котором удалялись inode это /dev/sda1

EXT3-fs: sda1: orphan cleanup on readonly fs                                         

pahan40
() автор топика
Ответ на: комментарий от Nao
/dev/sda1 on / type ext3 (rw)
proc on /proc type proc (rw)
sysfs on /sys type sysfs (rw)
devpts on /dev/pts type devpts (rw,gid=5,mode=620)
tmpfs on /dev/shm type tmpfs (rw)
none on /proc/sys/fs/binfmt_misc type binfmt_misc (rw)
sunrpc on /var/lib/nfs/rpc_pipefs type rpc_pipefs (rw)
none on /var/lib/xenstored type tmpfs (rw)
pahan40
() автор топика
Ответ на: комментарий от pahan40

Вообщем, нашёл в чём причина. Действительно умирает диск, вчера вечером развалился рейд и до ребута сервер не отвечал. После ребута рэйд начал ребилдиться.

pahan40
() автор топика
Ответ на: комментарий от pahan40

Выводи срочно из рейда поломанный диск. При ребилде MD девайса вполне возможен сценарий, когда некоторые блоки с данными на дохнущем винте будут испорчены, и при ребилде он может восстановить порченные блоки именно с подыхающего диска (тем самым перезаписав еще живые корретные данные и превед).

BigAlex ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.