LINUX.ORG.RU
ФорумAdmin

Помогите разобраться


0

2

Есть VDS, на котором установлена CentOS 6, крутятся апач, postgresql и пара виртуалок в VirtualBox. Периодически подвисает сетевой доступ к нему по ssh и rdp к виртуалкам. Если запускаю dstat через ssh, то периодически он зависает выводя: 1-30 missed ticks. В /var/log/messages было замечено:

Sep 25 19:15:40 track kernel: ata1.00: status: { DRDY }
Sep 25 19:15:40 track kernel: ata1: hard resetting link
Sep 25 19:16:00 track kernel: vmstat[23417] trap divide error ip:402880 sp:7fffe7cda950 error:0 in vmstat[400000+5000]
Sep 25 19:16:00 track kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Sep 25 19:16:00 track kernel: ata1.00: configured for UDMA/133
Sep 25 19:16:00 track kernel: ata1: EH complete
Sep 26 03:40:09 track kernel: md: data-check of RAID array md2
Sep 26 03:40:09 track kernel: md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
Sep 26 03:40:09 track kernel: md: delaying data-check of md1 until md2 has finished (they share one or more physical units)
Sep 26 03:40:09 track kernel: md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
Sep 26 03:40:09 track kernel: md: delaying data-check of md0 until md2 has finished (they share one or more physical units)
Sep 26 03:40:09 track kernel: md: delaying data-check of md1 until md2 has finished (they share one or more physical units)
Sep 26 03:40:09 track kernel: md: using 128k window, over a total of 730202368 blocks.
Sep 26 03:40:09 track kernel: md: md2: data-check done.
Sep 26 03:40:09 track kernel: md: delaying data-check of md0 until md1 has finished (they share one or more physical units)
Sep 26 03:40:09 track kernel: md: data-check of RAID array md1
Sep 26 03:40:09 track kernel: md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
Sep 26 03:40:09 track kernel: md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
Sep 26 03:40:09 track kernel: md: using 128k window, over a total of 264960 blocks.
Sep 26 03:40:14 track kernel: md: md1: data-check done.
Sep 26 03:40:14 track kernel: md: data-check of RAID array md0
Sep 26 03:40:14 track kernel: md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
Sep 26 03:40:14 track kernel: md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check.
Sep 26 03:40:14 track kernel: md: using 128k window, over a total of 2102464 blocks.
Sep 26 03:40:41 track kernel: md: md0: data-check done.
Sep 26 03:52:10 track kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x6 frozen
Sep 26 03:52:10 track kernel: ata1.00: failed command: READ FPDMA QUEUED
Sep 26 03:52:10 track kernel: ata1.00: cmd 60/08:00:8f:c5:01/00:00:02:00:00/40 tag 0 ncq 4096 in
Sep 26 03:52:10 track kernel:         res 40/00:04:f7:52:09/00:00:35:00:00/40 Emask 0x4 (timeout)
Sep 26 03:52:10 track kernel: ata1.00: status: { DRDY }
Sep 26 03:52:10 track kernel: ata1: hard resetting link
Sep 26 03:53:07 track kernel: vmstat[3144] trap divide error ip:402880 sp:7fff138a5cd0 error:0 in vmstat[400000+5000]
Sep 26 03:53:07 track kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Sep 26 03:53:07 track kernel: ata1.00: configured for UDMA/133
Sep 26 03:53:07 track kernel: ata1: EH complete
Sep 26 05:17:17 track kernel: sd 0:0:0:0: [sda] Unhandled error code
Sep 26 05:17:17 track kernel: sd 0:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT
Sep 26 05:17:17 track kernel: sd 0:0:0:0: [sda] CDB: Write(10): 2a 00 4c 64 51 7f 00 00 10 00
Sep 26 05:17:17 track kernel: end_request: I/O error, dev sda, sector 1281642879
Sep 26 05:17:17 track kernel: Buffer I/O error on device md2, logical block 159612963
Sep 26 05:17:17 track kernel: lost page write due to I/O error on md2
Sep 26 05:17:17 track kernel: Buffer I/O error on device md2, logical block 159612964
Sep 26 05:17:17 track kernel: lost page write due to I/O error on md2

...

Sep 26 07:26:04 track kernel: sd 0:0:0:0: [sda] Unhandled error code
Sep 26 07:26:04 track kernel: sd 0:0:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT
Sep 26 07:26:04 track kernel: sd 0:0:0:0: [sda] CDB: Write(10): 2a 00 3b c5 3b c7 00 00 10 00
Sep 26 07:26:04 track kernel: end_request: I/O error, dev sda, sector 1002781639
Sep 26 07:26:04 track kernel: JBD: Detected IO errors while flushing file data on md2
Sep 26 07:54:50 track kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Sep 26 07:54:50 track kernel: ata1.00: failed command: FLUSH CACHE EXT
Sep 26 07:54:50 track kernel: ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Sep 26 07:54:50 track kernel:         res 40/00:04:f7:52:09/00:00:35:00:00/40 Emask 0x4 (timeout)
Sep 26 07:54:50 track kernel: ata1.00: status: { DRDY }
Sep 26 07:54:50 track kernel: ata1: hard resetting link
Sep 26 07:55:15 track kernel: __ratelimit: 32 callbacks suppressed
Sep 26 07:55:15 track kernel: vmstat[7244] trap divide error ip:402880 sp:7fff33705d80 error:0 in vmstat[400000+5000]
Sep 26 07:55:15 track kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Sep 26 07:55:15 track kernel: ata1.00: configured for UDMA/133
Sep 26 07:55:15 track kernel: ata1: EH complete
Sep 26 08:26:20 track kernel: ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x6 frozen
Sep 26 08:26:20 track kernel: ata1.00: failed command: READ FPDMA QUEUED
Sep 26 08:26:20 track kernel: ata1.00: cmd 60/08:00:6f:51:68/00:00:4c:00:00/40 tag 0 ncq 4096 in
Sep 26 08:26:20 track kernel:         res 40/00:04:f7:52:09/00:00:35:00:00/40 Emask 0x4 (timeout)
Sep 26 08:26:20 track kernel: ata1.00: status: { DRDY }
Sep 26 08:26:20 track kernel: ata1: hard resetting link
Sep 26 08:27:17 track kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Sep 26 08:27:17 track kernel: ata1.00: configured for UDMA/133
Sep 26 08:27:17 track kernel: ata1: EH complete

Это сыпятся винтчестеры? Может ли быть зависания из-за этого?

Запусти smartctl -t long /dev/sda и через время посмотри, что он напишет в логах винта

YAR ★★★★★ ()

Вот ещё увидел (730202368 blocks [2/1] [U_]), это вывалился винт из raid ?

cat /proc/mdstat

Personalities : [raid1]
md2 : active raid1 sda3[0]
      730202368 blocks [2/1] [U_]

md1 : active raid1 sda2[0] sdb2[1]
      264960 blocks [2/2] [UU]

md0 : active raid1 sda1[0] sdb1[1]
      2102464 blocks [2/2] [UU]

unused devices: <none>
Nekto13 ()
Ответ на: комментарий от YAR

А то что отвалился только один раздел из raid - повод менять диск?
Выполнить smartctl -a /dev/sda пока нет возможности, ssh подвис.

Nekto13 ()
Ответ на: комментарий от Nekto13

> А то что отвалился только один раздел из raid - повод менять диск?

Ты пока не знаешь, почему он отвалился. С одной стороны предполагаю бэды на sda (I/O error, dev sda, sector 1002781639), с другой - отвалился-то sdb. Прогони тесты, а там посмотришь. Думаю, таки стоит готовиться менять диски.

Выполнить smartctl -a /dev/sda пока нет возможности, ssh подвис.

Еще рано вроде как, ты ж писал, что окончание в 15:00? Хотя если наткнется на бэд, то вылетит раньше

YAR ★★★★★ ()
Ответ на: комментарий от Nekto13

Выполнил smartctl -a /dev/sda В выводе:

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA
# 1  Extended offline    Interrupted (host reset)      70%      1622         -

Я так понимаю тест прерван. Можно ли было запускать «smartctl -a /dev/sda» до окончания теста, т.е. он из за этого прервался или по другим причинам? Запустил тест ещё раз.

Nekto13 ()
Ответ на: комментарий от Nekto13

> Я так понимаю тест прерван.

Да

Можно ли было запускать «smartctl -a /dev/sda» до окончания теста

Да

по другим причинам?

Да, скорее всего, система снова ресетила винт, поэтому тест прервался.

Как вариант - раз уж у тебя все равно один винт (sdb) наполовину заведен в RAID'ы - т.е., меньше нагружен - то выполни тест на нем, если все ок - заведи его назад в массив, нагрузка на sda снизится и он перестанет вылетать.

YAR ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.