LINUX.ORG.RU
решено ФорумAdmin

Периодическое зависание сервера. HP ProLiant DL380 G4 под Debian.

 , ,


0

1

Добрый день, господа. Регистрация и обращение к вам это уже крик о помощи.. Я сразу прошу прощения, сам я линксойдом не являюсь и посему у меня очень большие проблемы. Мне по «наследству» достался сервер HP ProLiant DL380 G4. Установлен на нем Linux debian 3.16.0-4-amd64 #1 SMP Debian 3.16.43-2+deb8u3 (2017-08-15) x86_64. Собственно сервер был поднят в свое время для установки на него Cacti. Мне поставили задачу установить и запустить Cacti, это я сделал при помощи какой то матери и google. И все как не странно заработало. Но практически сразу начались проблемы с зависанием сервера. Зависания рандомные, временами он работает неделю, иногда пару часов. Серевер откликается только после ребута по питанию либо через ILO. Я понимаю что описание скудное. Доступ до su у меня есть. Прошу сильно камнями не кидать, буду рад любой помощи хотя-бы подскажите куда копать и с чего начинать.

Начни c просмотра /var/log/syslog и проверь свободное место на диске.

bass ★★★★★ ()

Смотри /var/log/syslog от прошлой загрузки на предмет строк, указывающих на проблемы в работе драйверов или оборудования, возможно там происходит падение какого-либо драйвера и это вызывает падение ядра (kernel panic).

Лог прошлой загрузки, скорее всего будет записан в файл с некоторым индексом, т.е. что-то вроде /var/log/syslog.1.gz, посмотри по датам:

ls -ls /var/log/syslog*

Если ничего странного найти не можешь, то тебе придётся в начале изменить уровень журналирования.

Просматривать большой файл лога удобно утилитой less:

less /var/log/syslog
проматывать можно стрелками вверх и вниз, pgup, pgdown, home, end, выход из программы посредством клавиши q.

Если для вас совсем непонятно, то можете загрузить на pastebin содержимое файла журнала, а сюда разместить ссылку.

Только тот файл загружайте лога загрузки, где возникла проблема, посмотрите по дате.

.gz - это архив, поэтому что бы открыть его как текстовый файл в системе, отличное от Linux его нужно распаковать, например 7z вам подойдёт.

Файл можете скопировать на флешку, то как монтировать флешки посмотрите в Internet, это не сложно.

Удачи.

kostik87 ★★★★★ ()
Последнее исправление: kostik87 (всего исправлений: 1)

Что значит завис, не пингуется, не открывается сайт на нём, недоступен сервис на нём?

Может зависает только консоль?

Если настроено ssh подключение, то скачайте ssh клиент для Windows - putty и попробуйте подключиться к серверу.

Ответы на эти вопросы важны, поэтому ответьте на них.

После чего просмотрите файл журнала и выложите его на pastebin, а сюда поместите ссылку.

kostik87 ★★★★★ ()

это уже крик о помощи.

Не надо кричать - просто сядь и тихонько поплачь. А потом найми специалиста.

anonymous ()
Ответ на: комментарий от kostik87

Спасибо за ответ. Файлы логов скачал выложить смогу лишь вечером ибо политика безопасности на работе не позволяет. Просмотреть лог пока нет времени. Беглым взглядом ничего не увидел.

mnogik ()
Ответ на: комментарий от mnogik

Беглым взглядом ничего не увидел.

Надо не беглым, а вчитываться и лог нужен именно тот, когда произошла проблема.

Ответа о том как вы диагностировали зависание и что под этим понимаете я так и не увидел, прочтите ещё раз внимательно сообщение.

Если вы будете игнорировать рекомендации и запросы данных от вас, то к сожалению вам придётся самостоятельно разбираться с проблемой.

Жду ответа.

Удачи.

kostik87 ★★★★★ ()
Ответ на: комментарий от kostik87

При зависании сервер не пингуется и не доступен по Putty Доступным остается лишь через ILO. Вот что выдает последним сообщением консоль после зависания сервера


INFO: task jdb2/cciss!c0d0:136 blocked for more than 120 seconds.
Not tainted 3.16.0-4-amd64 #1
«echo 0> /proc/sys/kernel/hung_task_timeout_secs» disable this message.


INFO: task kworker/u16:0:6 blocked for more than 120 seconds.
Not tainted 3.16.0-4-amd64 #1
«echo 0> /proc/sys/kernel/hung_task_timeout_secs» disable this message.

ну и в таком же духе сообщения меняется только названия после task

mnogik ()
Ответ на: комментарий от mnogik

Спасибо за ответ. Файлы логов скачал выложить смогу лишь вечером ибо политика безопасности на работе не позволяет.

А выкладывать логи политика позволяет? Ты ущерба не нанесешь этим? (себе, прежде всего).

Zubok ★★★★★ ()
Ответ на: комментарий от mnogik

Попробуйте вот это:
Добавьте в файл /etc/sysctl.conf вот эти две строки:

vm.dirty_background_ratio = 5
vm.dirty_ratio = 10
после чего перезагрузите систему.

За подробностями вот сюда: https://www.blackmoreops.com/2014/09/22/linux-kernel-panic-issue-fix-hung_tas...

Эта проблема почему-то возникает в основном на серверах HP Proliant.

kostik87 ★★★★★ ()
Ответ на: комментарий от mnogik

cciss

Эта проблема почему-то возникает в основном на серверах HP Proliant.

похоже на проблемы с паккардовским рэйд-контроллером

xfilx ★★ ()
Последнее исправление: xfilx (всего исправлений: 1)
Ответ на: комментарий от kostik87

это я уже попробовал не помогло
sysctl -p
vm.dirty_background_ratio = 5
vm.dirty_ratio = 10

пробовал все варианты описанные в этой теме.

mnogik ()
Ответ на: комментарий от xfilx

похоже на проблемы с паккардовским рэйд-контроллером

к сожалению я не понимаю о чем вы.
Если возможно более развернуто для чайника так сказать.Спасибо

mnogik ()
Ответ на: комментарий от mnogik

Давайте логи. А так, скорее всего, решением проблемы будет обновление ядра вашего Linux.

Но ввиду того, что у вас там Debian 8, а не Debian 9, скорее всего это будет проблемой.

Хотя нет, для Debian Jessie в репозитории jessie backports есть ядро 4.9:

https://packages.debian.org/jessie-backports/linux-image-amd64

Вам нужно подключить этот репозиторий на сервере, обновить списки пакетов и установить эту версию ядра.

Перед выполнением установки внимательно посмотрите какие пакеты устанавливаются, обновляются и что удаляется.

В идеале хорошо, если будет только установлено новое ядро, с которым вы попробуете загрузиться.

Удачи.

kostik87 ★★★★★ ()
Ответ на: комментарий от mnogik

Проблемы с поддержкой железа, самого RAID контроллера или аппаратная проблема этого контроллера, а не программная.

Но попробуйте, в начале обновить ядро.

kostik87 ★★★★★ ()
Ответ на: комментарий от kostik87

Была в логах ошибка ILO Management Log:

Caution POST Message 09/25/2017 09:13 09/25/2017 09:13 1 POST Error: 1794-Drive Array - Array Accelerator Battery Charge Low
Вычитал что это батарейка контроллера, после чего не нашел оригинал заменил на самопальную. Ошибка ушла.
Последнее сообщение которое есть в логе ILO:

Caution POST Message 10/12/2017 10:01 10/12/2017 10:01 1 POST Error: 1792-Drive Array Reports Valid Data Found in Array Accelerator

На сегодня времени уже к сожалению не осталось,вечером внимательно гляну логи, завтра попробую обновить ядро следуя вашим рекомендациям.

mnogik ()
Ответ на: комментарий от mnogik

1. Скачать spp 17.04. Это последний, который может содержать обновления для G4. Прогнать его. 2. Установить hpacucli. Загуглить hpacucli+debian. 3. посмотреть hpacucli ctrl all show config detail . Что там с кешами и вообще. При ошибке батареи отключается write cache, хотя это не должно вести к таймаутам диска в нормальном состоянии. 4. Если с контроллером все ок, драйвера последние, батарею вы поменяли, значит, пора менять диск(и).

anonymous ()
Ответ на: комментарий от mnogik

INFO: task jdb2/cciss!c0d0:136 blocked for more than 120 seconds.

Вот и конечная причина, видимо. cciss - это драйвер RAID-контроллера, который в некоторых Пролеантах стоит. Надо понять, почему это происходит. Может быть просто проблема с драйвером и обновление/откат ядра помогут, а может что-то происходит с контроллером, или дисками. В лог это записаться уже не успевает, очевидно.

Ещё компьютеры с Linux (или чем-то, где есть syslog) есть ? Можно сделать слив логов по сети, тогда больше шансов отловить предсмертные сообщения будет.

AS ★★★★★ ()
Ответ на: комментарий от xfilx

похоже на проблемы с паккардовским рэйд-контроллером

когда отваливается контроллер, система пингуется и реагирует на ssh, но зайти не получится. Есть у меня один такой HP proliant сервер (лет 10 точно работает уже) в последний год раз в месяц-два зависает описанным выше способом, лечится жестким ребутом.

futurama ★★★★★ ()
Последнее исправление: futurama (всего исправлений: 2)
Ответ на: комментарий от anonymous

4. Если с контроллером все ок, драйвера последние, батарею вы поменяли, значит, пора менять диск(и).

Батарея, по идее, на это влиять никак не должна. Не знаю, как у этого контроллера, а вообще она у многих влияет только на возможность включения кэша на запись.

Про диски контроллер должен бы куда-то писать.

AS ★★★★★ ()
Ответ на: комментарий от futurama

когда отваливается контроллер, система пингуется и реагирует на ssh

Тут вопрос в течение какого времени. Зависит от разных условий и может быть не вечно.

AS ★★★★★ ()
Ответ на: комментарий от AS

я и говорю, что без батареи деградация записи будет, но не настолько чтобы диск зависал на 120 сек.

Скорее всего тут умер умирает диск. Ну и прошивки тоже надо финально поднять. они уже не обновляются.

anonymous ()
Ответ на: комментарий от anonymous

Скорее всего тут умер умирает диск

Если и умирает то своеобразно, при критичных атрибутах смарта сообщил бы при ребуте, сообщение бы было с просьбой F1 нажать т.е. не заметить нельзя.

И не обязательно что диск умирает, может и контроллер, редкость но все-таки бывает.

Вобщем я как и большинство за: либо грабли с дровами контроллера либо железо. :)

anc ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.