LINUX.ORG.RU

Red hat cluster suite fence_xvm error

 , , ,


0

3

Привет, знатоки! Есть у меня red hat cluster suite состоящий из 2-ух вируальных нод и их гипервизора KVM (Примерно это но «KVM host» один). Везде centos 6.9 . Кластер собран верно, cluster.conf везде идентичны, состояние кластера консистентное. Пытаюсь настроить fence_xvm. На гипервизоре установлен fence_virtd и настроен тоже верно. Команда, например, fence_xvm -a 225.0.0.12 -k /etc/cluster/fence_xvm.key -H node1 -o status выдаёт корректный результат Status: ON . Но команда fence_node node1 -vv выдаёт ошибку

fence node1 dev 0.0 agent fence_xvm result: error from agent
agent args: nodename=node1 agent=fence_xvm key_file=/etc/cluster/fence_xvm.key multicast_address=225.0.0.12
fence node1 failed
Пример того, что происходит, если погасить виртуальный линк соединяющий ноды
Apr  7 19:45:31 node2 corosync[1568]:   [TOTEM ] A processor failed, forming new configuration.
Apr  7 19:45:33 node2 corosync[1568]:   [QUORUM] Members[1]: 2
Apr  7 19:45:33 node2 corosync[1568]:   [TOTEM ] A processor joined or left the membership and a new membership was formed.
Apr  7 19:45:33 node2 corosync[1568]:   [CPG   ] chosen downlist: sender r(0) ip(100.64.1.2) ; members(old:2 left:1)
Apr  7 19:45:33 node2 corosync[1568]:   [MAIN  ] Completed service synchronization, ready to provide service.
Apr  7 19:45:33 node2 kernel: dlm: closing connection to node 1
Apr  7 19:45:33 node2 fenced[1639]: fencing node node1
Apr  7 19:45:33 node2 rgmanager[2060]: State change: node1 DOWN
Apr  7 19:45:33 node2 fence_xvm[3340]: No domain specified
Apr  7 19:45:33 node2 fenced[1639]: fence node1 dev 0.0 agent fence_xvm result: error from agent
Apr  7 19:45:33 node2 fenced[1639]: fence node1 failed
Apr  7 19:45:36 node2 fenced[1639]: fencing node node1
Apr  7 19:45:36 node2 fence_xvm[3360]: No domain specified
Apr  7 19:45:36 node2 fenced[1639]: fence node1 dev 0.0 agent fence_xvm result: error from agent
Apr  7 19:45:36 node2 fenced[1639]: fence node1 failed
Apr  7 19:45:39 node2 fenced[1639]: fencing node node1
Apr  7 19:45:39 node2 fence_xvm[3381]: No domain specified
Apr  7 19:45:39 node2 fenced[1639]: fence node1 dev 0.0 agent fence_xvm result: error from agent
Apr  7 19:45:39 node2 fenced[1639]: fence node1 failed
Apr  7 19:45:42 node2 fence_xvm[3402]: No domain specified
Apr  7 19:45:45 node2 fence_xvm[3422]: No domain specified
Apr  7 19:45:48 node2 fence_xvm[3443]: No domain specified
Apr  7 19:45:51 node2 fence_xvm[3462]: No domain specified
При выполнении fence_node node1 -vv tcpdump'ом трафика я не вижу ни на node1 , ни на супервизоре, в отличии от fence_xvm .

Похожая проблема описана тут , там ребята рекомендовали вырубить selinux, я это сделал но ничего не помогло. Смотрел strace'ом чего он пытается делать - но ничего не понял. Что-то хочет получить от unix-сокета corosync.ipc , но, видимо, не получает желаемого. В общем я в отчаянии: ничего не могу нагуглить и ничего не понимаю. Может у кого-то есть какие-нибудь идеи? Уже несколько дней голову ломаю чего ему надо :(



Последнее исправление: Vetofet_Lefanim (всего исправлений: 1)

Ответ на: комментарий от post-factum

К сожалению, я не обладаю достаточными средствами, для покупки поддержки. Тем не менее спасибо за совет!

Vetofet_Lefanim
() автор топика
Ответ на: комментарий от SergeySVold

Дык, даже если бы я это и настроил, для кворума будет требоваться обвязка из fencing, который при выигрыше какой-то ноды будет пробовать выполнить всё тот же fence_node и у неё это не получится. Я полагаю проблема кроется где-то в передаче параметров от fence_node к fence_xvm , но увы, не могу понять где :(

Vetofet_Lefanim
() автор топика

agent args: nodename=node1 agent=fence_xvm >key_file=/etc/cluster/fence_xvm.key multicast_address=225.0.0.12
«>key_file»
«>»

Так и должно быть, или лишнего накопипастил, когда настраивал?

Deleted
()
Ответ на: комментарий от Deleted

Пардон, не понял, в смысле «лишнего накопипастил»? Эти три строки

fence node1 dev 0.0 agent fence_xvm result: error from agent
agent args: nodename=node1 agent=fence_xvm key_file=/etc/cluster/fence_xvm.key multicast_address=225.0.0.12 
fence node1 failed
ответ на команду
fence_node -vv node1
ничего лишнего. Вот прям щас ещё раз повторил в консоли - всё то же самое.

Vetofet_Lefanim
() автор топика
Ответ на: комментарий от Vetofet_Lefanim

Блин. Это как телевизор ремонтировать по телефону... Вообщем google дальше. Акромя советов выдать сюда такой лог сякой лог покажи конфиг... вообщем глянь на всякий случай.http://www.unixarena.com/2016/01/rhel-7-configure-fencing-pacemaker.html

SergeySVold ★★★★
()
Ответ на: комментарий от SergeySVold

Да я понимаю, не так-то это и просто, осложняется всё ещё и тем, что, как говорится, - дело-то может быть и не в бобине, просто @#% сидит в кабине... :( У меня почти то же самое за исключением того, что в rhcs не используется pacemaker. В любом случае спасибо, за то что хотя бы пытаетесь помочь ^_^

Vetofet_Lefanim
() автор топика

Кажись на третий день вдуплил! 8D Изначально я делал это по подтверждённому «ману» с оф. сайта однако как оказалось на практике, в конфиге у fence_device надо явно указывать домен, НО и после этого работать не будет, потому что параметр domain устарел, а правильно будет указать port. Наткнулся я на пример, который навёл меня на мысль совершенно случайно на ~10 странице гугла (Так далеко я ещё никогда не заходил). Спасибо всем, кто пытался помочь!

Vetofet_Lefanim
() автор топика
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.