имеем достаточно древнуюю систему на PIII, c 512 мегами под CRUX, работающую до недавного времени прекрасно (в такой конфе в течение года). Система питается от сети через Line-Interactive ИБП.
Система начала зависать сама по себе где то в среднем 1-3 раза в сутки, с активностью на харде перед этим. В логи пишется:
===============
May 8 10:23:28 mycomp kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
May 8 10:23:28 mycomp kernel: hda: dma_intr: error=0x84 { DriveStatusError BadCRC }
May 8 10:23:28 mycomp kernel: ide: failed opcode was: unknown
May 8 10:45:22 mycomp -- MARK --
May 8 11:05:22 mycomp -- MARK --
May 8 11:13:22 mycomp kernel: Unable to handle kernel paging request at virtual address bf3fad67
May 8 11:13:22 mycomp kernel: printing eip:
May 8 11:13:22 mycomp kernel: c0126cca
May 8 11:13:22 mycomp kernel: *pde = 00000000
May 8 11:13:22 mycomp kernel: Oops: 0000 [#1]
May 8 11:13:22 mycomp kernel: Modules linked in: nls_koi8_r snd_pcm_oss nvidia agpgart snd_mixer_oss ndiswrapper snd_via82xx snd_ac97_codec snd_ac97_bus snd_pcm snd_timer snd_page_alloc snd_mpu401_uart snd_rawmidi snd_seq_device snd supermount
May 8 11:13:22 mycomp kernel: CPU: 0
May 8 11:13:22 mycomp kernel: EIP: 0060:[find_get_pages+42/69] Tainted: P VLI
May 8 11:13:22 mycomp kernel: EFLAGS: 00013093 (2.6.16.1 #1)
May 8 11:13:22 mycomp kernel: EIP is at find_get_pages+0x2a/0x45
May 8 11:13:22 mycomp kernel: eax: 0000000e ebx: 00000000 ecx: d94ebe60 edx: bf3fad67
May 8 11:13:22 mycomp kernel: esi: 0000000e edi: 00000000 ebp: 00000000 esp: d94ebe18
May 8 11:13:22 mycomp kernel: ds: 007b es: 007b ss: 0068
May 8 11:13:22 mycomp kernel: Process X (pid: 941, threadinfo=d94ea000 task=c15a95d0)
========
или так:
===========
May 8 16:53:18 mycomp kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
May 8 16:53:18 mycomp kernel: hda: dma_intr: error=0x84 { DriveStatusError BadCRC }
May 8 16:53:18 mycomp kernel: ide: failed opcode was: unknown
May 8 16:57:12 mycomp kernel: ------------[ cut here ]------------
May 8 16:57:12 mycomp kernel: kernel BUG at lib/radix-tree.c:378!
May 8 16:57:12 mycomp kernel: invalid opcode: 0000 [#1]
May 8 16:57:12 mycomp kernel: Modules linked in: sg nls_koi8_r snd_pcm_oss nvidia agpgart snd_mixer_oss ndiswrapper snd_via82xx snd_ac97_codec snd_ac97_bus snd_pcm snd_timer snd_page_alloc snd_mpu401_uart snd_rawmidi snd_seq_device snd supermount
May 8 16:57:12 mycomp kernel: CPU: 0
May 8 16:57:12 mycomp kernel: EIP: 0060:[radix_tree_tag_set+90/114] Tainted: P VLI
May 8 16:57:12 mycomp kernel: EFLAGS: 00013046 (2.6.16.1 #1)
May 8 16:57:12 mycomp kernel: EIP is at radix_tree_tag_set+0x5a/0x72
May 8 16:57:12 mycomp kernel: eax: 00000000 ebx: 00000000 ecx: dffca4d4 edx: 00000000
May 8 16:57:12 mycomp kernel: esi: 00000006 edi: 00000002 ebp: 00000000 esp: d96f1e84
May 8 16:57:12 mycomp kernel: ds: 007b es: 007b ss: 0068
May 8 16:57:12 mycomp kernel: Process X (pid: 917, threadinfo=d96f0000 task=c15985d0)
==========
процессы могут быть разные, строчки в radix-tree.c тоже.
Проверил память мемтестом. 24 часа, 20 проходов, все чисто.
Проверил хард Mhdd - поверхность без бурых блоков, SMART нормальный.
Температура харда и процессора до 45С в худшем случае.
Ядро 2.6.16.1.
Кто скажет куда копать, или как определить проблемное железо?