LINUX.ORG.RU
решено ФорумAdmin

oVirt не видит guest-agent'а на госте

 ,


0

1

Привет, ЛОР.

Есть oVirt, который хромает при попытках снять снапшот. Веб-морда ругается «Could not detect Guest Agent on the VM». На госте запущен qemu-guest-agent, для гостя включено «Enable VirtIO serial console». Куда еще смотреть?

Хост и гость - центось 7.2, овирт 4.0, чистая установка, всё на одном хосте.

РЕШЕНО: я сам себе буратино, ставил qemu-guest-agent, а надо было ovirt-guest-agent.

★★★★★

Последнее исправление: thesis (всего исправлений: 1)

Ответ на: комментарий от dyasny

Я смотрел в него довольно долго, но так ничего и не понял.
Там вот такое. За этот период времени я запустил гостя, залогинился в него, убедился, что агент запущен и тыцнул «снять снапшот».
Что-то куда-то подключается, что-то от чего-то отваливается по таймауту. Что-то ругается на схему... Не понимаю.

thesis ★★★★★
() автор топика
Ответ на: комментарий от dyasny

чего то пишется?

Не умею снифать сокет... Завтра strace'ом попробую, сегодня уже не до того.

на госте selinux?

Да, enforcing, молчит.

откуда взят агент?

Родной qemu-guest-agent из центосовых реп.

thesis ★★★★★
() автор топика
Ответ на: комментарий от dyasny

Да, так-то все работает: virsh domsfthaw|domfsfreeze отрабатывает при запущенном агенте и ругается при остановленном.

thesis ★★★★★
() автор топика
Ответ на: комментарий от dyasny

Вот же я балбес.
Решил с чего-то, что qemu-guest-agent - это именно то, что надо. А сейчас поставил ovirt-guest-agent'а, запустил, и он отлично увиделся.

Осталось только понять, почему снапшоты не работают. То есть, сниматься (с работающего гостя, с памятью) - снимаются, а восстановиться не дает - задизаблены пункты preview и commit при включенном госте.
Если же гостя выключить, то preview становится активным, но на попытку восстановить состояние ругается «The selected snapshot's memory can't be properly restored since it was created in different cluster version», и восстанавливает криво.
Это так надо?

thesis ★★★★★
() автор топика
Ответ на: комментарий от thesis

qemu-guest-agent отвечает за операции qemu, а это как раз fsfreeze и товарищи. а ovirt-guest-agent отвечает за сбор данных о машине и передачу их vdsm демону на хосте, которого в свою очередь опрашивает engine.

The selected snapshot's memory can't be properly restored since it was created in different cluster version

вроде все сказано, снепшоты создавались на старых версиях кластеров (3.х?)

вообще, снепшоты с памятью это проблематичная хреновина, и лучше их использовать только по быстрому, ad hoc, а не городить на них долгоиграющие цепочки снепшотов

dyasny ★★★★★
()
Ответ на: комментарий от dyasny

Снапшоты создавались там же, весь «кластер» - это единственный хост с 4.0, и compatibility level у него тоже 4.0. Т.е. создаю снапшот и тут же пытаюсь на него откатиться, и никак.

снепшоты с памятью это проблематичная хреновина

Странно. Вроде вполне базовая штука (имею в виду потребность, а не простоту реализации), а до сих пор проблематичная. Сам же либвирт вроде нормально умеет «живые» снапшоты? Недавно на федоре игрался - вроде работало, с полным восстановлением состояния гостя.

не городить на них долгоиграющие

Фигово, но мне пока что получить бы хоть какие-то.

thesis ★★★★★
() автор топика
Ответ на: комментарий от thesis

Снапшоты создавались там же, весь «кластер» - это единственный хост с 4.0, и compatibility level у него тоже 4.0. Т.е. создаю снапшот и тут же пытаюсь на него откатиться, и никак.

а вот это уже похоже на баг, я бы открыл багрепорт, или как минимум сбросил инфу в users@ovirt.org

Странно. Вроде вполне базовая штука (имею в виду потребность, а не простоту реализации), а до сих пор проблематичная. Сам же либвирт вроде нормально умеет «живые» снапшоты? Недавно на федоре игрался - вроде работало, с полным восстановлением состояния гостя.

базовая но с кучей проблем во время отката - что делать со сдвигом во времени? что делать если откат сделан позже, на другом железе, а регистры в сохраненной памяти ведь остались. Если делать снимок только дисков, то все намного проще - поднялась машина на данном железе, с диском на котором лежат какие то файлы, и никаких проблем.

Фигово, но мне пока что получить бы хоть какие-то.

долгоиграющие снепшоты это вообще проблема по определению, вне зависимости от гипервизора. в проде машины должны иметь плоский диск без снепшотов, а если снепшот создается то надо закончить с ним {играться|бекапить|etc} как можно скорее и слить его в один диск.

dyasny ★★★★★
()
Ответ на: комментарий от dyasny

базовая но с кучей проблем во время отката

Пацаны же как-то справляются с ними. Виртуящик умеет, варины продукты умели еще тыщу лет назад. Opennebula с квмом умеет, proxmox емнип умеет. Я бы, кстати, так на виртуящике и сидел бы, но что-то он тормозит, а с квм-вебмордами, как оказывается, творится какой-то адъ и зоопарк для особо крупных слонов. Неделю убил, унываю.

что делать если откат сделан позже, на другом железе

По идее, виртуализируемое железо - часть снапшота, а хостовое железо гостя не волнует же.

Если делать снимок только дисков, то все намного проще

Да это понятно. Но ведь другие пацаны же справляются! И либвирт, опять же, дает такую возможность, если я все правильно понимаю.

Насчет багрепорта попозже посмотрим. Я сейчас совсем не уверен, что к тому времени, как на мой репорт кто-нибудь обратит внимание, у меня еще будет установленный экземпляр овирта, чтобы предоставить хоть какую-то дополнительную информацию.

thesis ★★★★★
() автор топика
Последнее исправление: thesis (всего исправлений: 1)
Ответ на: комментарий от thesis

Пацаны же как-то справляются с ними. Виртуящик умеет, варины продукты умели еще тыщу лет назад. Opennebula с квмом умеет, proxmox емнип умеет. Я бы, кстати, так на виртуящике и сидел бы, но что-то он тормозит, а с квм-вебмордами, как оказывается, творится какой-то адъ и зоопарк для особо крупных слонов. Неделю убил, унываю.

пацаны не заморачиваются, получай функционал, а как он себя в реале ведет всем пофиг, главное в фичерсете галочка стоит.

По идее, виртуализируемое железо - часть снапшота, а хостовое железо гостя не волнует же.

еще как волнует - особенно вариации на тему разных процессоров, о пробросах я вообще молчу

Да это понятно. Но ведь другие пацаны же справляются! И либвирт, опять же, дает такую возможность, если я все правильно понимаю.

см/ выше. есть фича которая есть и работает, а есть ее использование IRL. Это как вмваревый FT - на бумаге и в рекламе очень круто и гламурно, а IRL никто толком эту гадость не трогает

Насчет багрепорта попозже посмотрим. Я сейчас совсем не уверен, что к тому времени, как на мой репорт кто-нибудь обратит внимание, у меня еще будет установленный экземпляр овирта, чтобы предоставить хоть какую-то дополнительную информацию.

Ну, репорт не помешает, есть QA, они попробуют воссоздать проблему у себя, в крайнем случае

dyasny ★★★★★
()
Ответ на: комментарий от dyasny

как он себя в реале ведет всем пофиг

Отлично ведет. Уж точно лучше, чем никак.

главное в фичерсете галочка стоит

Дык и у РХЕВМа тоже галочка стоит. А оказывается, оно еще даже на передовом крае разработки не работает толком. Ну, то есть, _снять_-то снапшот еще можно, а вот откатиться...

особенно вариации на тему разных процессоров, о пробросах я вообще молчу

Если гостю отдается реальный хостовой тип процессора, то это частный случай, о котором должен помнить, задавая план миграции, сам одмин. Если одмин может выстрелить себе в ногу, то это ведь не повод резать фичу?

есть фича которая есть и работает, а есть ее использование IRL

Наблюдаю, как народ гоняет снапшоты в виртуящике и в esxi в хвост и в гриву, причем годами. Один маниак мог, невзирая на тормоза, настрелять больше десятка снапшотов на гостя. И ничего, работало.

С багом поковыряюсь попозже еще на своей стороне, может опять чего-нибудь сам упорол, или хотя бы внятную ругань в логах найду.

thesis ★★★★★
() автор топика
Ответ на: комментарий от thesis

Отлично ведет. Уж точно лучше, чем никак.

я имею ввиду уже перечисленные проблемы. дать фичу клиенту можно, а дальше клиент уже сам волен ломать об нее ноги.

Дык и у РХЕВМа тоже галочка стоит. А оказывается, оно еще даже на передовом крае разработки не работает толком. Ну, то есть, _снять_-то снапшот еще можно, а вот откатиться...

это скорее всего просто баг, который решить не так уж и сложно. на то оно и bleeding edge

Если гостю отдается реальный хостовой тип процессора, то это частный случай, о котором должен помнить, задавая план миграции, сам одмин. Если одмин может выстрелить себе в ногу, то это ведь не повод резать фичу?

не реальный а baseline, как с EVC. Ты ведь заметил что тип кластера выставляется как наислабейший из доступных железок, т.е. если у тебя 10 sandybridge и один nehalem, чтоб работать в одном кластере, aka migration domain, кластер должнен быть настроен как nehalem, и все новые навороты до sandybridge виртуалки тупо не увидят и не получат. про интел/амд я вообще молчу, там и ежу понятно. так вот представь себе, снял ты снепшот на интеле, а запускаешь откат на амд, причем не с нуля, где command line для qemu-kvm создается с нуля, а с готовыми настройками и system state. единственное на что тут можно жаловаться, так это на то что в ovirt слишком стараются оградить пользователя от стреляния себе в ногу.

Наблюдаю, как народ гоняет снапшоты в виртуящике и в esxi в хвост и в гриву, причем годами. Один маниак мог, невзирая на тормоза, настрелять больше десятка снапшотов на гостя. И ничего, работало.

когда я пришел в кумранет, еще не было rhev, а у нас уже были кленты с цепочками на 40 снепшотов, и оно работало. Тормозило нещадно, но работало. Я же говорю как надо работать, а не как можно работать. Колеса к машине тоже можно квадратные прибить, и если движок мощный, можно даже уехать на них.

dyasny ★★★★★
()
Ответ на: комментарий от dyasny

это скорее всего просто баг, который решить не так уж и сложно.

Я в данном случае имел в виду даже не свой частный баг, а твои слова «снепшоты с памятью это проблематичная хреновина» и то, что «живого» гостя овирт откатить не дает в принципе, только выключенного, что неудобно.

Ты ведь заметил что тип кластера выставляется как наислабейший из доступных железок

Не заметил конечно, у меня ж одинокий тестовый хост. А если так, то это и тем более уменьшает возможность стрельбы в ногу АКА «ты снял снапшот на интеле и вкатываешь его на амд». БОльшая степень ограждения уже попросту не нужна, имхо.

у нас уже были кленты с цепочками на 40 снепшотов, и оно работало

Вооооот. Ведь если такие цепочки создаются, значит, кому-то это нужно? И к тому же было реализовано и успешно работало еще черт знает сколько лет назад.

Колеса к машине тоже можно квадратные прибить, и если движок мощный, можно даже уехать на них.

Именно. И если к полному счастью можно приехать только на квадратных колесах АКА live snapshots - народу дают квадратные колеса, и он радостно скачет на них куда ему надо.
Другое дело, как я понимаю, что эта фича может сломать какие-то другие фичи, нужные большим пацанам с их датацентрами, поэтому её реализовали кое-как и отодвинули на задний план. Скорблю, что ж делать.

thesis ★★★★★
() автор топика
Последнее исправление: thesis (всего исправлений: 1)
Ответ на: комментарий от thesis

Я в данном случае имел в виду даже не свой частный баг, а твои слова «снепшоты с памятью это проблематичная хреновина» и то, что «живого» гостя овирт откатить не дает в принципе, только выключенного, что неудобно.

ну, во первых то что я сказал проблематично в плане использования, а не в плане технической реализации, реализация у всех одна. А вот то что не дают делать живой откат в принципе не должно быть проблемой вообще - все равно актуальный system state отбрасывается, так в чем проблема убить гостя? простой лишний клик и проблема на уровне UX? если так то можно открыть feature request и объяснить что именно неудобно.

Не заметил конечно, у меня ж одинокий тестовый хост. А если так, то это и тем более уменьшает возможность стрельбы в ногу АКА «ты снял снапшот на интеле и вкатываешь его на амд». БОльшая степень ограждения уже попросту не нужна, имхо.

гостей можно двигать между кластерами, и запуститься просто с нуля они смогут без проблем где угодно, проблема будет при попытке загрузить снимок памяти на другой архитектуре. Ты забываешь что oVirt рассчитан на большие установки, сотни и тысячи хостов, которые не обязательно идентичны

Вооооот. Ведь если такие цепочки создаются, значит, кому-то это нужно? И к тому же было реализовано и успешно работало еще черт знает сколько лет назад.

еще раз, они могут быть нужны, но это не повод использовать заведомо ущербную архитектуру и стрелять себе в ногу. если перед тобой лежат грабли, ты ведь не обязан на них наступать, так?

Именно. И если к полному счастью можно приехать только на квадратных колесах АКА live snapshots - народу дают квадратные колеса, и он радостно скачет на них куда ему надо.

вот и я о том же, так что народу не стоит удивляться когда селезенка через ухо выскакивает на ходу, мы ведь предупреждали что будет трясти.

Другое дело, как я понимаю, что эта фича может сломать какие-то другие фичи, нужные большим пацанам с их датацентрами, поэтому её реализовали кое-как и отодвинули на задний план. Скорблю, что ж делать.

живой снимок в первую очередь нужен для бекапов - сняли, забекапили base image, слили снимок с базовым образом, и поехали дальше на плоском имидже до следующего бекапа. игры с длинными цепочками снепшотов - для тестовых стендов и мазохистов.

dyasny ★★★★★
()
Ответ на: комментарий от dyasny

проблематично в плане использования, а не в плане технической реализации

Нет, ты говорил именно о реализации - сдвиг времени, смена архитектуры «на лету» при миграции.

простой лишний клик и проблема на уровне UX?

Ага. Даже интересно, неужели никому не пришло в голову сделать автоматическое гашение гостя.

Ты забываешь что oVirt рассчитан на большие установки

Не забываю, а говорю о том, что одмин, запланировавший миграцию между разнородными кластерами, и сам должен понимать, что он делает. КМК, не надо его слишком уж сильно опекать.

вот и я о том же, так что народу не стоит удивляться когда селезенка через ухо выскакивает на ходу, мы ведь предупреждали что будет трясти.

Так ведь не выскакивала до сих пор. И ты сам выше упоминал 40 снапшотов на гостя еще в черт знает каком году, все как-то ехали и в ус не дули, а тут вдруг в 2016м выясняется, что колеса квадратные и вообще ужас-ужас.

игры с длинными цепочками снепшотов - для тестовых стендов и мазохистов

Вот мне как раз для стендов.

thesis ★★★★★
() автор топика
Ответ на: комментарий от thesis

Нет, ты говорил именно о реализации - сдвиг времени, смена архитектуры «на лету» при миграции.

наверное ты меня не понял. реализация это то как выполнена фича технически. А я говорил о проблемах с фичей как таковой. На самом деле, все что касается system state проблематично в той же степени что проблематична живая миграция, но без проблем синхронизации страниц памяти. Остаются как раз те самые архитектуры и time drift. Опять же - вне зависимости от гипервизора

Ага. Даже интересно, неужели никому не пришло в голову сделать автоматическое гашение гостя.

наверное были более важные задачи, а это уже так - обработка напильником. Но открыть RFE не помешает, пусть у них на учете будет запрос от клиента а не PM/QE, такие запросы больше «весят»

Не забываю, а говорю о том, что одмин, запланировавший миграцию между разнородными кластерами, и сам должен понимать, что он делает. КМК, не надо его слишком уж сильно опекать.

когда я был PM-ом RHEV я говорил то же самое, касательно многих разных фичеров, но мненний много, задач тоже много, и не все чего я добивался получилось как я хотел. Продукт развивается с претензией именно на энтерпрайз, а там надо пользователя немного няньчить.

Так ведь не выскакивала до сих пор. И ты сам выше упоминал 40 снапшотов на гостя еще в черт знает каком году, все как-то ехали и в ус не дули, а тут вдруг в 2016м выясняется, что колеса квадратные и вообще ужас-ужас.

то что бежало у первых клиентов в 2007-2008 было настолько слеплено на коленке, что защиты от дурака никто даже не представлял себе. Кроме того, никто не запрещает и сейчас нагородить цепочку из сотни снепшотов, просто это будет полный ССЗБ. Сейчас, столько лет спустя, все уже давно знают что снепшоты это зло, и городить их без конкретной нужды не стоит. Это задокументировано, проходится на курсах по продуктам виртуализации, и известно всем.

Вот мне как раз для стендов

ну тогда вперед и с песней, ограничений на количество снепшотов нет, помимо здравого смысла админа конечно

dyasny ★★★★★
()
Ответ на: комментарий от dyasny

пусть у них на учете будет запрос от клиента

Да какой я клиент. Пробегал мимо, ухватил халяву, наткнулся на баг, бросил и дальше побежал.

вперед и с песней

Кабы оно заработало, можно было бы и спеть, конечно.

thesis ★★★★★
() автор топика
Ответ на: комментарий от thesis

Да какой я клиент. Пробегал мимо, ухватил халяву, наткнулся на баг, бросил и дальше побежал.

самый настоящий клиент. потребитель продукта, если угодно. В любом случае, если ничего не изменилось за последние 3 года с тех пор как я свалил, запросы, что называется from the field всегда получают приоритет

Кабы оно заработало, можно было бы и спеть, конечно.

так вроде со всем разобрались, осталось провентилировать наличие бага и все. план действий есть. Ну а там можно будет и спеть, я ради такого специально лыжи у камина поставлю

dyasny ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.