LINUX.ORG.RU

Зависает система: помогите определить проблему

 , ,


0

4


Сталкиваюсь со странной и трудноуловимой проблемой: иногда намертво зависает система. Причем, сама по себе, без видимых на то причин. Это не зависит от каких-либо конкретных действий. По крайней мере, я не могу отследить закономерность. В такие моменты проц уходит в 100%. Это все, что я вижу в коньках на рабочем столе, так как открыть терминал или даже переключиться в другую консоль по Ctrl+Alt+F1,2,3 я не могу. Только ресет, только хардкор...

Дистр: Debian 10. Но, что самое интересное, до десяточки такого не было от слова «вообще» :(

Имею старенькое, но вполне вменяемое рабочее железо, прекрасно выполняющее свои функции: ASUS M2N68 Plus, AMD Athlon II X2 245 (2,9 ГГц), 4 Гб памяти. И несколько винтов, на которых стоит такой же Debian (только 32-битный) и Void Linux. Система зависала и в этих дистрах тоже. То есть, грешить на один какой-то винт нет смысла, я так понимаю.

И вот сегодня снова происходит такая фигня, когда я проверял обновления (apt update). Но вдруг магическим образом через минуту это отпустило. Я бегом в dmesg и вот, что вижу:

[21034.382913] ata3.00: exception Emask 0x10 SAct 0x0 SErr 0x3950000 action 0xe frozen
[21034.382919] ata3: SError: { PHYRdyChg CommWake Dispar LinkSeq TrStaTrns UnrecFIS }
[21034.382922] ata3.00: failed command: READ DMA
[21034.382926] ata3.00: cmd c8/00:00:00:b2:16/00:00:00:00:00/e0 tag 0 dma 131072 in
                        res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x14 (ATA bus error)
[21034.382929] ata3.00: status: { DRDY }
[21034.382933] ata3: hard resetting link
[21034.382934] ata3: nv: skipping hardreset on occupied port
[21035.262936] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[21035.323171] ata3.00: configured for UDMA/133
[21035.323193] sd 2:0:0:0: [sda] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[21035.323196] sd 2:0:0:0: [sda] tag#0 Sense Key : Illegal Request [current] 
[21035.323198] sd 2:0:0:0: [sda] tag#0 Add. Sense: Unaligned write command
[21035.323200] sd 2:0:0:0: [sda] tag#0 CDB: Read(10) 28 00 00 16 b2 00 00 01 00 00
[21035.323202] print_req_error: I/O error, dev sda, sector 1487360
[21035.323243] ata3: EH complete

Кто-то что-то подскажет/посоветует? Что еще глянуть, пока я не перегрузился/выключил комп.

★★★★★

Глянул в syslog, а там такое:

Jan 18 16:37:46 host smartd[503]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 100 to 253
Jan 18 16:37:46 host smartd[503]: Device: /dev/sda [SAT], SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 124 to 130
Jan 18 16:37:46 host smartd[503]: Device: /dev/sda [SAT], SMART Usage Attribute: 194 Temperature_Celsius changed from 124 to 130

Gonzo ★★★★★
() автор топика

Вообще, смотрю, сообщения SMART в системном журнале - это нормально. Там постоянно мониторится температура.

Gonzo ★★★★★
() автор топика

До этого днем вот такая запись была. Система не зависала в тот момент:

Jan 18 16:07:47 satex smartd[503]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 70 to 69
Jan 18 16:07:47 satex smartd[503]: Device: /dev/sdd [SAT], SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 70 to 69

Gonzo ★★★★★
() автор топика
Ответ на: комментарий от Vsevolod-linuxoid

Кстати, вопрос: такое может быть, если напруга в сети падает изредка?

Gonzo ★★★★★
() автор топика

Кто-то что-то подскажет/посоветует?

Проблема с контроллером/накопителем sda. Обычно, советует смотреть еще кабель, питание. Но, думаю, здесь это не поможет.

покажите

smartctl -a /dev/sda

int13h ★★★★★
()

То есть, грешить на один какой-то винт нет смысла, я так понимаю.

ИМХО, имеет смысл грешить на контроллер.

Binkledum
()
Ответ на: комментарий от Vsevolod-linuxoid

Вообще, странная штука. Смарт существенно не менялся, и был таким всегда +/- (слежу за этим делом время от времени). В Debian 9 и раньше такого не наблюдалось никогда. Может какая-то регрессия дурацкая в ядре, хз, в общем. Опять таки, в посте я писал уже, что такое наблюдается и на других винтах. Всего у меня их 3 штуки (2 SATA и 1 IDE).

Gonzo ★★★★★
() автор топика
Ответ на: комментарий от Binkledum

Грешу, скорее всего, на напряжение в сети, т.к. смотри мой комментарий выше (над этим).

Gonzo ★★★★★
() автор топика
Последнее исправление: Gonzo (всего исправлений: 1)

netconsole и какой-нибудь хост для логов.

anonymous
()
Ответ на: комментарий от Binkledum

Для этого надо пересобрать 4.9 (или какое там было в Debian 9, уже и не помню). Времени не особо на это пока что, но идея такая была.

Gonzo ★★★★★
() автор топика
Ответ на: комментарий от Vsevolod-linuxoid

Hardware_ECC_Recovered

Хм, коррекция ошибок может быть и, в том числе, из-за кабеля. А у вас разгонов ПК нет? Какое напряжение на шинах?

int13h ★★★★★
()
Ответ на: комментарий от int13h

Разгонов нет, Все дефолтное и не менялось.

Gonzo ★★★★★
() автор топика
Ответ на: комментарий от int13h

А вот кабели проверю, может даже поменяю, давно ведь уже стоят.

Gonzo ★★★★★
() автор топика

Попробуй заменить шлейф SATA. Но и проблемы на двух дисках одновременно исключать нельзя.

до десяточки такого не было от слова «вообще»

А может, в ядре что-то сломали. Попробуй ядро поновее.

намертво зависает

Но вдруг магическим образом через минуту это отпустило

А ещё может быть что у тебя две разные проблемы.

pinus_nigra
()
Ответ на: комментарий от pinus_nigra

Да, ты прав. Не исключаю. Буду пробовать разные варианты, конечно.

Gonzo ★★★★★
() автор топика

Ну, очевидно проверка диска как тут исоветовали.

Но до кучи возможно стоит проверить оперативку мемтестом.

kirill_rrr ★★★★★
()

Я с 10-ки дебиана переехал на тестинг (по другим причинам), доволен. Попробуй, мб поможет. Совет не очень, но вдруг.

simd0264
()
Последнее исправление: simd0264 (всего исправлений: 1)

Два варианта:

  1. Помести в трей индикатор занятого объема ОЗУ и если он в момент повисания 100% то причина в исчерпании объёма ОЗУ, исправляешь так: по индикатору следишь чтобы всё ОЗУ не забивалось(своевременно закрывай вкладки браузера, особенно с видеохостингами).
  2. Открой корпус и держась за него одной рукой(!) пощупай южный мост, если он очень тёплый или вообще горячий то покупаешь дискретную плату с sata портом и подключив к ней винчестер отключаешь в биос контроллер диска(вообще отключаешь) и всю переферию,включая звуковую и сетевые карты, которые так же заменяешь на дискретные платы, а так же снижаешь частоту южного моста до 1гГц и системной шины до 600 мГц, а то и до 400 мГц.
    Если после этого температура южного моста не упала до приемлемых значений то думай о покупке новой материнки, ну эта ещё поживёт годик или два, если будешь держать южный мост полностью отключенным(USB работает аккуратно, его можно оставить)
torvn77 ★★★★★
()
Последнее исправление: torvn77 (всего исправлений: 4)
Ответ на: комментарий от kirill_rrr

Оперативка тут не при чем. Ругань на ATA в логах, причем на разных дисках. У меня просто их 4 штуки висит (2 SATA и 2 IDE). Хз, может кейс такой вышел чисто специфический (два IDE - на одном шлейфе, как ты понимаешь) и проявляется какой-то баг в ядре. Но memtest таки прогнал. Результата ноль, как и ожидалось.

Gonzo ★★★★★
() автор топика
Ответ на: комментарий от torvn77

1. ОЗУ заполнена у меня максимум на половину. От силы две трети. Гуглохромами не страдаю, а в мозилле открыто не более трех вкладок (без видео/аудио). Да и в моменты фризов у меня браузер не был запущен, либо с одной вкладкой типа ЛОРа :)
2. Южный мост еле теплый.

Gonzo ★★★★★
() автор топика
Ответ на: комментарий от Vsevolod-linuxoid

Тю, ну было два старых винта по 160 гигов. Не выбрасывать же. Юзаю там линухи разные для экспериментов на «потыкать».

Gonzo ★★★★★
() автор топика
Ответ на: комментарий от simd0264

У меня всегда были только стабильные выпуски, и все было нормально. В принципе, достаточно только ядра разных версий погонять. А тестинг мне не нравится тем, что оттуда в какие-то моменты пропадают нужные пакеты (вероятно на стадиях заморозки). Где-то год назад хотел потестить это дело, а там не оказалось синаптика и еще чего-то, уже не помню.

Gonzo ★★★★★
() автор топика
Ответ на: комментарий от Gonzo

Это говорит в пользу косяка оперативки или материнки. Косяки дисков практически всегда стабильные и повторяемые. Просадка по питанию почти наверняка нет, в случае просадок диск выключается и пытается стартовать по новой, это трудно не заметить.

kirill_rrr ★★★★★
()
Ответ на: комментарий от Gonzo

два старых винта по 160

Тогда первый и очевидный совет - выброси этот хлам из компа.

Не выбрасывать же.

Ну сделай зеркальце и пепельницу.

pinus_nigra
()

Raw_Read_Error_Rate changed from 100 to 253
failed command: READ DMA
I/O error, dev sda, sector 1487360

причина в исчерпании объёма ОЗУ

Лор такой лор.

slowpony ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.