LINUX.ORG.RU
ФорумAdmin

Падает сервак


0

4

Доброй ночи! Иногда падает сервер, приходиться перезагружать через панель дц. Смотрю по syslog все чисто, никаких ошибок. Оперативку проверил сразу же, но проблема оказалась не в ней. В чем еще может быть или что включить еще дополнительно можно?


Может быть что угодно: диск, материнка. Давным давно попадался видюлник (AGP 2x), который примерно через двое суток работы вешал систему. Можно попробовать настроить netconsole, может успеет какое сообщение прилететь.

Память сколько проходов/времени тестировали?

mky ★★★★★
()
Ответ на: комментарий от mky

Там тест через панель дц, но вроде как по стандартному. В syslog еще нашел по AGP:

No AGP bridge found

LinuxUs
() автор топика
Ответ на: комментарий от mky

sda

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   136   136   054    Pre-fail  Offline      -       80
  3 Spin_Up_Time            0x0007   100   100   024    Pre-fail  Always       -       403
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       9
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   145   145   020    Pre-fail  Offline      -       24
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       1541
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       9
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       9
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0002   200   200   000    Old_age   Always       -       30 (Min/Max 16/37)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

sdb

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   137   137   054    Pre-fail  Offline      -       77
  3 Spin_Up_Time            0x0007   100   100   024    Pre-fail  Always       -       406
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       9
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   142   142   020    Pre-fail  Offline      -       25
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       1541
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       9
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       9
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0002   181   181   000    Old_age   Always       -       33 (Min/Max 17/38)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

# 4 Short offline Completed without error 00% 1 -

LinuxUs
() автор топика

как вариант, у тебя может случаться OOM и падать syslog и ssh из-за этого. Выход: прикрутить к своему серверу мониторинг, и смотреть, что происходит до падения.

Prius
()

Ошибок может и нет в syslog, но посмотри от каких программ были последние сообщения, вдруг это одна и та же программа?

PS: память, имхо, все дело в ней, но установить это может оказаться сложной задачей. Впрочем, для начала посмотри напряжение на ней (sensors) и сравни с техн.документацией.

PPS: сервер новый?

PPPS: если лень ставить netconsole не закрывай ssh соединение, по нему тебе тоже некоторые сообщения могут прилететь.

soomrack ★★★★
()
Ответ на: комментарий от soomrack

1) Выводит только температура проца. 2) Этого знать не могу, читал что практически невозможно определить состояние железа и срок его эксплуатации, если не так, прошу поправить.

LinuxUs
() автор топика
Ответ на: комментарий от xtraeft

Проверил, есть. Обновил, посмотрим что будет. Добавлю чтобы сервер при kernel panic перезагружался автоматически и буду следить за аптаймом и логами.

Спасибо.

LinuxUs
() автор топика
Ответ на: комментарий от xtraeft
Apr  5 14:43:34 ns401143 kernel: [ 6015.747312] generic-usb 0003:0557:2221.0002: can't reset device, 0000:00:1a.0-1.6/input1, status -110
Apr  5 14:43:37 ns401143 kernel: [ 6018.599675] usb 2-1.1: new low-speed USB device number 3 using ehci_hcd
Apr  5 14:43:37 ns401143 kernel: [ 6018.697500] usb 2-1.1: New USB device found, idVendor=04b4, idProduct=8081
Apr  5 14:43:37 ns401143 kernel: [ 6018.697506] usb 2-1.1: New USB device strings: Mfr=1, Product=2, SerialNumber=0
Apr  5 14:43:37 ns401143 kernel: [ 6018.697511] usb 2-1.1: Product: Thinnet TM
Apr  5 14:43:37 ns401143 kernel: [ 6018.697514] usb 2-1.1: Manufacturer: Cypress
Apr  5 14:43:37 ns401143 kernel: [ 6018.704408] input: Cypress Thinnet TM as /devices/pci0000:00/0000:00:1d.0/usb2/2-1/2-1.1/2-1.1:1.0/input/input5
Apr  5 14:43:37 ns401143 kernel: [ 6018.704592] generic-usb 0003:04B4:8081.0003: input,hidraw2: USB HID v1.00 Keyboard [Cypress Thinnet TM] on usb-0000:00:1d
.0-1.1/input0
Apr  5 14:43:37 ns401143 kernel: [ 6018.708434] input: Cypress Thinnet TM as /devices/pci0000:00/0000:00:1d.0/usb2/2-1/2-1.1/2-1.1:1.1/input/input6
Apr  5 14:43:37 ns401143 kernel: [ 6018.708625] generic-usb 0003:04B4:8081.0004: input,hidraw3: USB HID v1.00 Mouse [Cypress Thinnet TM] on usb-0000:00:1d.0-
1.1/input1
Apr  5 14:44:01 ns401143 /USR/SBIN/CRON[7932]: (root) CMD (/usr/local/rtm/bin/rtm 37 > /dev/null 2> /dev/null)
Apr  5 14:44:10 ns401143 shutdown[7973]: shutting down for system reboot
Apr  5 14:44:10 ns401143 init: Switching to runlevel: 6
Apr  5 14:44:12 ns401143 named[2548]: received control channel command 'stop -p'
Apr  5 14:44:12 ns401143 named[2548]: shutting down: flushing changes
Apr  5 14:44:12 ns401143 named[2548]: stopping command channel on 127.0.0.1#953
Apr  5 14:44:12 ns401143 named[2548]: stopping command channel on ::1#953
Apr  5 14:44:12 ns401143 named[2548]: no longer listening on 127.0.0.1#53
Apr  5 14:44:12 ns401143 named[2548]: no longer listening on ::1#53
Apr  5 14:44:12 ns401143 named[2548]: exiting
Apr  5 14:44:13 ns401143 acpid: exiting
LinuxUs
() автор топика
Ответ на: комментарий от AS

Смотрите, какая красота :)
https://www.google.com/search?q=/usr/local/rtm/bin/rtm&ie=utf-8&oe=ut...

Терпеть не могу дц, которые ставят свое ядро/софт на клиентские сервера.

xtraeft ★★☆☆
()
Последнее исправление: xtraeft (всего исправлений: 1)
Ответ на: комментарий от LinuxUs
Apr  5 14:44:01 ns401143 /USR/SBIN/CRON[7932]: (root) CMD (/usr/local/rtm/bin/rtm 37 > /dev/null 2> /dev/null)
Apr  5 14:44:10 ns401143 shutdown[7973]: shutting down for system reboot

Ну почти очевидно.

anonymous
()
Ответ на: комментарий от xtraeft

Ну не знаю - ребут через 9 секунд после вызова этого скрипта.

Ну если предложить, что это что-то подсунутое... Только после «shutting down for system reboot» должно бы запуститься, а написано, что «приходиться перезагружать через панель дц.

А, может, и вариант. bin/rtm кладёт, скажем, сеть, а „shutting down for system reboot“ - результат воздействия через панель дц.

AS ★★★★★
()
Ответ на: комментарий от AS

Ну если предложить, что это что-то подсунутое...

Ну если это действительно OVH, то проблема очевидна. Я бы свалил оттуда подальше.

xtraeft ★★☆☆
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.