LINUX.ORG.RU

Debian виснет на мертво

 ,


1

2

Собственно, сабж.
Debian 8. Виснет раз в 1.5 суток +-. В логах на момент и перед моментом зависания ничего нет. Обычная штатная работа и дальше все как всегда.
Что пробовал - обновлял ядро (ставил разные линейки 3.x и 4.x) - эффекта 0. На данный момент использую версию 4.9.0-0.bpo.11-amd64 из репозитория.
Обновил биос на последнюю доступную версию. Что изменилось:
Были предупреждения на старте системы:
[ 1.770171] ACPI Error: Method parse/execution failed [\_SB_.PCI0.SAT0.SPT2._GTF] (Node ffff88081acd0e20), AE_NOT_FOUND (20110623/psparse-536)
[ 1.770563] ACPI Error: [DSSP] Namespace lookup failure, AE_NOT_FOUND (20110623/psargs-359)
Так вот, они исчезли.
Пробовал на этом фоне вообще выключать в ядре acpi - опция в загрузчике noacpi. Итог - не помогло.
Материнка: MSI MS-7823/B85M-G43 (MS-7823), BIOS V3.9 03/30/2015
Процессор: Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz
Показатели нагрузки на cpu, потребляемой памяти, и дисковой подсистемы на момент зависания в норме - т.е. в пределах погрешности от средних показателей в течении дня.
Что настораживает:
cat /sys/firmware/acpi/interrupts/sci_not
23200
И постоянно растет - примерно со скоростью секундомера. Я не очень понимаю смысл этого прерывания. Но на остальных системах этот показатель, если не равен нулю,. то немногим его больше и не растет. Мне кажется где-то тут нужно копать, только не пойму в какую сторону.
И да, хостер уверяет, что железо исправно. Проводили, или якобы проводили, нагрузочное тестрирование несколько раз по 4 часа.
Прошу помощи ^_^

Был выключен kernel.nmi_watchdog, после его включения в логе появляются редкие сообщения вида:
perf: interrupt took too long (3129 > 3128)1, lowering kernel.perf_event_max_sample_rate to 63750.
kernel.perf_event_max_sample_rate иногда все снижается и снижается.

lasthappy
() автор топика
Ответ на: комментарий от lasthappy

Это обычное сообщение, которое вылезает, если запускать утилиту perf.

anonymous
()
Ответ на: комментарий от lasthappy

Сочувствую, если серьезно то скорее всего проблема в железе, и заверения хостера что они все проверили ничего не гарантирует. Надо смотреть логи.

Wind ★★★
()

Диск не переполнен?
Если да, то это самое простой выход.
Если нет, то контроллер на диске может помирать.
Что тут делать, думаю, ты и так понимаешь.

TomBOY ★★
()
Ответ на: комментарий от TomBOY

Диск не переполнен - тут все в порядке. Железо менялось - диски переставлялись на аналогичную платформу.

lasthappy
() автор топика
Ответ на: комментарий от lasthappy

диски переставлялись на аналогичную платформу

Оно аналогично на словах. А по электрическим параметрам может быть +- и железо в дамках.
Особенно рейд контролеры капризничать любят. Чуть что не понраву - диски начинают колбасить или сами помирают.
Не стоит так сильно полагаться на однородность качества. Тем более неизвестно какую дешманскую железку там могли поставить с Авито.

TomBOY ★★
()
Ответ на: комментарий от lasthappy

В строке загрузчика в конец строки добавь irqpoll.
Попробуй, посмотри, как оно жить будет с этим знанием.

TomBOY ★★
()

Я тоже голосую за проблему с железом.

turtle_bazon ★★★★★
()
Ответ на: комментарий от lasthappy

Опять гадание на гуще кофейной. Я же уже писал — crashkernel. Ну обычное же дело: завис сервак, крешим его, потом анализируем собранное после ребута.

Vsevolod-linuxoid ★★★★★
()
Последнее исправление: Vsevolod-linuxoid (всего исправлений: 1)

Поставь UPS. Если уже стоит, то что запущено? Может, у тебя твоё приложение течёт? Ели всё штатно и ты обновил BIOS и kernel, то поменяй дистр. Нет возможности? Переставь другую железку.

Если вообще нет возможности, расширь запись логов.

naked_joe
()
Ответ на: комментарий от naked_joe

не знает, ведь он не на кухню пришёл, а на лор

anonymous
()
Ответ на: комментарий от TomBOY

Это проверено, - не живет абсолютно также, как и без нее

lasthappy
() автор топика
Ответ на: комментарий от funky

- Перегрева нет
- Память без ECC. Сервер арендуем на базе десткоп железа (лоукост) =(
- Мемтест прогонялся, - все ок...

lasthappy
() автор топика
Ответ на: комментарий от lasthappy

- Память без ECC. Сервер арендуем на базе десткоп железа (лоукост) =(

Может тебе сдать за недорого серверок с ECC? тыщи так за 4 рублей, двухпроцессорный, 24 гига ECC, всё как надо. Не молодой, правда, но исправный.

Deleted
()
Последнее исправление: Deleted (всего исправлений: 1)

У меня тоже висла одна тачка. Фриз мог произойти и через пару дней, и несколько раз в день. Правда железо там было на амуде. Проблема оказалась в железе, что именно там проблемное хз, повесил оффтопик, на нём синий экран также время от времени. Поборол подбором драйвера на чипсет матери. Дальше экспериментировать с линуксом на этой тачке не стал

achilles_85
()
Ответ на: комментарий от lasthappy

Использую софтверный рейд

«Дебилы бл**ь...» (c)

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.