LINUX.ORG.RU
ФорумAdmin

Падают VM на KVM

 , ,


2

2

Всем привет!

Подскажите куда копать, кто в KVM шарит?

Падают VM, куда смотреть не знаю. Точнее знаю что в логи но там много всего.

В логе qemu просто

2017-05-02 15:09:56.247+0000: shutting down

Куча вот такого (/var/log/messages)

May 03 18:08:50 kvm1.local virtlogd[3108]: End of file while reading data: Input/output error 
May 03 18:08:54 kvm1.local virtlogd[3108]: End of file while reading data: Input/output error 
May 03 18:08:56 kvm1.local virtlogd[3108]: End of file while reading data: Input/output error 
May 03 18:08:59 kvm1.local libvirtd[2246]: End of file while reading data: Input/output error 

И такого (/var/log/messages)

May  3 18:09:20 kvm1 kernel: kvm_get_msr_common: 4 callbacks suppressed 
May  3 18:09:20 kvm1 kernel: kvm [5513]: vcpu0 unhandled rdmsr: 0x345 
May  3 18:09:20 kvm1 kernel: kvm [5513]: vcpu0 unhandled rdmsr: 0x1c9 
May  3 18:09:20 kvm1 kernel: kvm [5513]: vcpu0 unhandled rdmsr: 0x1a6 
May  3 18:09:20 kvm1 kernel: kvm [5513]: vcpu0 unhandled rdmsr: 0x1a7 
May  3 18:09:20 kvm1 kernel: kvm [5513]: vcpu0 unhandled rdmsr: 0x3f6 
May  3 18:09:20 kvm1 kernel: kvm [4812]: vcpu0 unhandled rdmsr: 0x345 
May  3 18:09:22 kvm1 kernel: kvm [4318]: vcpu0 unhandled rdmsr: 0x1c9 
May  3 18:09:22 kvm1 kernel: kvm [4318]: vcpu0 unhandled rdmsr: 0x1a6 
May  3 18:09:22 kvm1 kernel: kvm [4318]: vcpu0 unhandled rdmsr: 0x1a7 
May  3 18:09:22 kvm1 kernel: kvm [4318]: vcpu0 unhandled rdmsr: 0x3f6 
May  3 18:09:25 kvm1 kernel: kvm_get_msr_common: 1 callbacks suppressed 
May  3 18:09:25 kvm1 kernel: kvm [6286]: vcpu0 unhandled rdmsr: 0x345 
May  3 18:09:27 kvm1 kernel: kvm [4289]: vcpu0 unhandled rdmsr: 0x1c9 
May  3 18:09:27 kvm1 kernel: kvm [4289]: vcpu0 unhandled rdmsr: 0x1a6 
May  3 18:09:27 kvm1 kernel: kvm [4289]: vcpu0 unhandled rdmsr: 0x1a7 
May  3 18:09:27 kvm1 kernel: kvm [4289]: vcpu0 unhandled rdmsr: 0x3f6 
May  3 18:09:27 kvm1 kernel: kvm [6160]: vcpu0 unhandled rdmsr: 0x1c9 
May  3 18:09:27 kvm1 kernel: kvm [6160]: vcpu0 unhandled rdmsr: 0x1a6 
May  3 18:09:27 kvm1 kernel: kvm [6160]: vcpu0 unhandled rdmsr: 0x1a7 
May  3 18:09:27 kvm1 kernel: kvm [6160]: vcpu0 unhandled rdmsr: 0x3f6 
May  3 18:09:27 kvm1 kernel: kvm [6096]: vcpu0 unhandled rdmsr: 0x1c9 
May  3 18:09:32 kvm1 kernel: kvm_get_msr_common: 26 callbacks suppressed 

Есть конечно подозрения что это связано с сильной нагрузкой на ноду, но она в разумных пределах.



Последнее исправление: mdrive2k (всего исправлений: 1)

нужны логи либвирта

обычно, они лежат в этом каталоге /var/log/libvirt/

если только не меняли путь в конфиге

nebraska_edu
()
Ответ на: комментарий от mdrive2k

повысьте уровень логирования в конфиге

echo «log_level = 1» | sudo tee -a /etc/libvirt/libvirtd.conf

после чего скиньте сюда секцию лога, на котором машина уходит в даун, весь лог постить не надо

nebraska_edu
()
Ответ на: комментарий от mdrive2k

по вашему логу qemu киляет какой-то процесс

qemu: terminating on signal 15 from pid 1759

можно узнать, что это такое

ps -ef |grep 1759

вы как машины создаете? шаблоном? если да, то проверьте их целостность, возможно что причина в них.

nebraska_edu
()

а машина падает сама? что внутри ее собственных логов?

dyasny ★★★★★
()
Ответ на: комментарий от nebraska_edu

После ребута хост-машины уже не узнать что это за PID :(

Шаблоном, но там разные шаблоны и в разное время создавались. Но все равно проверю эту версию.

Вот по одной из машинок:

[root@kvm1 ~]# grep -B 1 'shutting down' /var/log/libvirt/qemu/v1009.log 
qemu: terminating on signal 15 from pid 1759 
2017-04-08 07:12:35.901+0000: shutting down 
-- 
qemu: terminating on signal 15 from pid 1 
2017-04-24 10:27:51.411+0000: shutting down 
-- 
Domain id=16 is tainted: host-cpu 
2017-04-25 09:01:50.463+0000: shutting down 
-- 
error: kvm run failed Bad address 
2017-05-02 15:09:56.247+0000: shutting down

Получается каждый раз она падала по разной причине?

mdrive2k
() автор топика
Ответ на: комментарий от Ien_Shepard

Запускается и с винтом вроде все ок. Общались с саппортом Virtualizor (это такой GUI типа ProxMox, только с обычным ядром CentOS), у других их клиентов тоже самое и на их тестовой хост-машине тоже эта ошибка появляется, как они с сказали только на CentOS 7.

mdrive2k
() автор топика
Ответ на: комментарий от nebraska_edu

Изучив последнии падения VM (после ребута ноды) выяснилось что signal 15 шлет: /usr/sbin/libvirtd

mdrive2k
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.