LINUX.ORG.RU

Linux начал зависать


0

0

имеем достаточно древнуюю систему на PIII, c 512 мегами под CRUX, работающую до недавного времени прекрасно (в такой конфе в течение года). Система питается от сети через Line-Interactive ИБП.

Система начала зависать сама по себе где то в среднем 1-3 раза в сутки, с активностью на харде перед этим. В логи пишется:
===============
May 8 10:23:28 mycomp kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
May 8 10:23:28 mycomp kernel: hda: dma_intr: error=0x84 { DriveStatusError BadCRC }
May 8 10:23:28 mycomp kernel: ide: failed opcode was: unknown
May 8 10:45:22 mycomp -- MARK --
May 8 11:05:22 mycomp -- MARK --
May 8 11:13:22 mycomp kernel: Unable to handle kernel paging request at virtual address bf3fad67
May 8 11:13:22 mycomp kernel: printing eip:
May 8 11:13:22 mycomp kernel: c0126cca
May 8 11:13:22 mycomp kernel: *pde = 00000000
May 8 11:13:22 mycomp kernel: Oops: 0000 [#1]
May 8 11:13:22 mycomp kernel: Modules linked in: nls_koi8_r snd_pcm_oss nvidia agpgart snd_mixer_oss ndiswrapper snd_via82xx snd_ac97_codec snd_ac97_bus snd_pcm snd_timer snd_page_alloc snd_mpu401_uart snd_rawmidi snd_seq_device snd supermount
May 8 11:13:22 mycomp kernel: CPU: 0
May 8 11:13:22 mycomp kernel: EIP: 0060:[find_get_pages+42/69] Tainted: P VLI
May 8 11:13:22 mycomp kernel: EFLAGS: 00013093 (2.6.16.1 #1)
May 8 11:13:22 mycomp kernel: EIP is at find_get_pages+0x2a/0x45
May 8 11:13:22 mycomp kernel: eax: 0000000e ebx: 00000000 ecx: d94ebe60 edx: bf3fad67
May 8 11:13:22 mycomp kernel: esi: 0000000e edi: 00000000 ebp: 00000000 esp: d94ebe18
May 8 11:13:22 mycomp kernel: ds: 007b es: 007b ss: 0068
May 8 11:13:22 mycomp kernel: Process X (pid: 941, threadinfo=d94ea000 task=c15a95d0)
========
или так:
===========
May 8 16:53:18 mycomp kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
May 8 16:53:18 mycomp kernel: hda: dma_intr: error=0x84 { DriveStatusError BadCRC }
May 8 16:53:18 mycomp kernel: ide: failed opcode was: unknown
May 8 16:57:12 mycomp kernel: ------------[ cut here ]------------
May 8 16:57:12 mycomp kernel: kernel BUG at lib/radix-tree.c:378!
May 8 16:57:12 mycomp kernel: invalid opcode: 0000 [#1]
May 8 16:57:12 mycomp kernel: Modules linked in: sg nls_koi8_r snd_pcm_oss nvidia agpgart snd_mixer_oss ndiswrapper snd_via82xx snd_ac97_codec snd_ac97_bus snd_pcm snd_timer snd_page_alloc snd_mpu401_uart snd_rawmidi snd_seq_device snd supermount
May 8 16:57:12 mycomp kernel: CPU: 0
May 8 16:57:12 mycomp kernel: EIP: 0060:[radix_tree_tag_set+90/114] Tainted: P VLI
May 8 16:57:12 mycomp kernel: EFLAGS: 00013046 (2.6.16.1 #1)
May 8 16:57:12 mycomp kernel: EIP is at radix_tree_tag_set+0x5a/0x72
May 8 16:57:12 mycomp kernel: eax: 00000000 ebx: 00000000 ecx: dffca4d4 edx: 00000000
May 8 16:57:12 mycomp kernel: esi: 00000006 edi: 00000002 ebp: 00000000 esp: d96f1e84
May 8 16:57:12 mycomp kernel: ds: 007b es: 007b ss: 0068
May 8 16:57:12 mycomp kernel: Process X (pid: 917, threadinfo=d96f0000 task=c15985d0)
==========
процессы могут быть разные, строчки в radix-tree.c тоже.
Проверил память мемтестом. 24 часа, 20 проходов, все чисто.
Проверил хард Mhdd - поверхность без бурых блоков, SMART нормальный.
Температура харда и процессора до 45С в худшем случае.
Ядро 2.6.16.1.

Кто скажет куда копать, или как определить проблемное железо?


May 8 10:23:28 mycomp kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error } May 8 10:23:28 mycomp kernel: hda: dma_intr: error=0x84 { DriveStatusError BadCRC }

если с хардом все хорошо, то значит надо начать с замены мамы.

fghj ★★★★★
()

М.б. шлейф битый?

seiken ★★★★★
()

ИМХО, копать в сторону пылесоса или чего покруче... У меня P-120 зависал, пылесосил, но не помогло, пришлось спиртом промыть чипсеты, каким то образом была куча грязи под одной из микросхем. Сейчас уже пару лет работает замечательно...

P.S. Посмотри конденсаторы (электролиты) если хоть один вздуты (хоть немного), надо перепаивать все.

mky ★★★★★
()
Ответ на: комментарий от mky

>P.S. Посмотри конденсаторы (электролиты) если хоть один вздуты (хоть немного), надо перепаивать все.

Зачем все, если остальные в порядке?

seiken ★★★★★
()
Ответ на: комментарий от fghj

я б ради интереса посмотрел бы что говорит SMART, а потом бы такие далекоидущие предположения строил

smartctl /dev/hda -s on && smartctl /dev/hda -a

Doom3r
()

Диск битый или шлейф отошел. Проверь диск утилитой от производителя.

grob ★★★★★
()
Ответ на: комментарий от seiken

Конденсаторы из одной партии / одного производителя. Совсем не обязательно, что если конденсатор не вздулся, то его емкость соответствует номинальной. Кроме того, перепаивать по одному кондеру, это, ИМХО, извращение --- раз в месяц разбирать комп, ехать в магазин, покупать один конденсатор, паять, потом собирать...

mky ★★★★★
()

Попробуй жесткий СМАРТом прогнать, может в нем дело. А вообще у меня аналогичная ситуация была, когда на материнке кандеры опухли.

aspell
()
Ответ на: комментарий от seiken

Т.к. эти конденсаторы стоят в цепи питания процессора. Если они вздуваются, то по этой цепи идёт импульсная помеха, и комп начинает беспричинно глючить, виснуть и перезагружаться. Я так месяц разбирался, что с машиной творится, пока это вздутие не стало явным.

dn2010 ★★★★★
()

Косяк ядра 2.6.16, обновись до чего-нибудь приличного, типа 2.6.18.

Gharik
()
Ответ на: комментарий от dn2010

Из того что посоветовали: 1)Сменил шлейф - не помогло. 2)Проверил маму - конденсаторы нормальные. 3)Скачал пару утилит самсунговских - клянутся что все ок. 4)Смарт - нормальный 5)Я на этом ядре уже год сижу - раньше этого не было. Обновлять - там много слишком патчей на него наложено мной.

Осталось маму поменять. :( Единственное что есть под рукой - со встроенным видео. В игры не поиграю ;(((

StF
() автор топика
Ответ на: комментарий от StF

> Обновлять - там много слишком патчей на него наложено мной.

Ну вот сам и признался в причине глюков. Небось reiser4 на корне и всё такое.

Gharik
()
Ответ на: комментарий от seiken

>>P.S. Посмотри конденсаторы (электролиты) если хоть один вздуты (хоть немного), надо перепаивать все.

>Зачем все, если остальные в порядке?

Тоже были фокусы такого плана, описано сдесь: http://www.linux.org.ru/jump-message.jsp?msgid=1809127

Оказалось конденсаторы (было 11 вздутых/лопнувших :)) - ну что вы хотите старая мамка), перепаял - все, проблема исчезла.

fifajan
()
Ответ на: комментарий от StF

Может проблема в блоке питания?
Под нагрузкой перестал тянуть, когда диск активно работает питание скачет.

sdio ★★★★★
()
Ответ на: комментарий от sdio

Я даж не помню какая у меня файловая система %) Посмотрел по логам ReiserFS 3.6 пишет )

Не там патчи для Iriver'a, потом украшательства во время загрузки, сумермаунт и еще какая то муть =)

Все оказалось просто- мамо сдохло =)) Поставил маму другую , тож гигабайт, и таки работает вот уже полдня и никаких проблем. Конденсаторы на маме нормальные. Возможно проблема в том, что она мне досталась с горелыми портами USB, и видимо сие событие не прошло для нее даром - через полгода работы она мне вот такую свинью подложила труднодиагностируемую =) Ну тем же лучше - для апгрейда оставлю старый винт, сделав из него внешний USB носитель.

Всем спасибо за помощь! ;)

StF
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.