HA Cluster Pacemaker+Corosync Ubuntu 22.04 по технологии Shared DAS, отваливается LUN в VMware при переезде ресурсов

corosync, high availability, pacemaker, ubuntu, zfs

0

1

Всем доброго времени суток! Собрал кластер на Ubuntu 22.04 pacemaker+corosync по следующему ману: https://www.pvsm.ru/linux/87042

Ubuntu развернута на виртуальных машинах кластера VMware из 2х хостов, по одной виртуалке на каждом хосте, внутрь проброшены HBA Broadcom LSI SAS3408, каждый по 2 порта. Хосты виртуализации подключены к дисковой полке к SAS-экспандерам, в самой полке находятся 4 диска по 1.7 Тб каждый.

Кластер собран, диски определяются, stonith и ресурсы настроены. Ресурсы и порядок следующие: ip-scsi - VIP таргета target-pool1 - таргет zfs-pool1 - пул zfs, собранный из 4х дисков в draid1 lun1-pool1 - сам LUN ip-pool1 - mgmt VIP.

Проблема следующая: при ручном перемещении ресурсов или штатном/нештатном отключении виртуалок в VMware теряется связь с хранилищем-LUN, который предоставляется кластером HA. При этом, кластер на виндовых машинах с такими же ресурсами ведет себя нормально, LUB не теряется, связь не прерывается. Я думал, проблема в каких-то таймаутах, уменьшил параметры cluster-recheck-interval сократил до 1 секунды, cluster-delay до 1 секунды, ничего не изменилось. Сначала порядок ресурсов был VIP таргета->mgmt VIP->zfs-pool1->target-pool1->lun1-pool1.

Изменил порядок запуска на тот, что описал выше, но это тоже не помогло. В логах ничего критичного нет, кроме пары ошибок

Mar 16 12:38:29 labvnasubuntu-1 pacemaker-execd[1827]:  notice: zfs-pool1_start_0[31886] error output [ cannot open 'pool1': no such pool ]
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-execd[1827]:  notice: zfs-pool1_start_0[31886] error output [ /usr/lib/ocf/resource.d/heartbeat/ZFS: 35: [: Illegal number:  ]
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-execd[1827]:  notice: zfs-pool1_start_0[31886] error output [ /usr/lib/ocf/resource.d/heartbeat/ZFS: 35: [: Illegal number:  ]
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-controld[1832]:  notice: Result of start operation for zfs-pool1 on labvnasubuntu-1-ext: ok 

Mar 16 12:38:29 labvnasubuntu-1 systemd-udevd[32333]: zd0: Process '/usr/bin/unshare -m /usr/bin/snap auto-import --mount=/dev/zd0' failed with exit code 1.
Mar 16 12:38:29 labvnasubuntu-1 pacemaker-controld[1832]:  notice: Result of monitor operation for zfs-pool1 on labvnasubuntu-1-ext: ok
Mar 16 12:38:29 labvnasubuntu-1 systemd-udevd[32333]: zd0p1: Process '/usr/bin/unshare -m /usr/bin/snap auto-import --mount=/dev/zd0p1' failed with exit code 1.

Вот они меня очень сильно смущают, но по этому поводу ничего не гуглится. Есть ли те, кто сталкивался с этим? Гугление ничего не дало, ищу второй день. Более полный лог pacemaker положил на пастбин: https://pastebin.com/eLj8DdtY

Ссылка

Пересобирал кластер на Centos 7.9, Centos 9 Stream - эффект один и тот же, лун отваливается. Попробовал объявить ресурс zfs и lun1-pool1 promotable, но на одном хосте он почему-то висит unpromoted, на другом stopped.

pcs resource create lun1-pool1 iSCSILogicalUnit target_iqn="iqn.2004-10.com.ubuntu:01:84de25ddfc37" implementation="lio-t" lun="0" path="/dev/pool1/vol1" promotable promoted-max=1 promoted-node-max=1 clone-max=2 clone-node-max=1 notify=true role=Promoted

После переключения нод ресурс не запускается, в логах фигурирует сообщение

warning: lun1-pool1-clone cannot run on vnas-centos-1 due to reaching migration threshold (clean up resource to allow again)

И пока не выполнишь pcs resource cleaup, ресурс не стартанет. Вообще, если честно, не совсем понял, как управлять ресурсами promoted. Что здесь то не так?

san4ez1008
(22.03.23 07:17:46 MSK) автор топика

Похожие темы