LINUX.ORG.RU

3
Всего сообщений: 50

Corosync/Pacemaker не останавливаются ресурсы при отсутствии кворума

del

 , ,

mr_archer ()

Astra Linux + Pacemaker&Corosync PGSQL

Здравствуйте. Уже достаточно бьюсь над конфигурацией этой сборки, и ни как не выйдет. Направьте/подскажите в решении моего вопроса. Далее сама проблема. Имеется Astra Linux SE 1.5, Corosync 1.4.2, Pacemaker 1.1.7, PostgreSQL 9.4, GateMaster и GateSlave Пытаюсь добиться отказоустойчивости. Сконфигурировал PostgreSQL для синхронной репликацией, всё проверено, она работает. Дальше настроил связку менеджера ресурсов между GateMaster-GateSlave. Теперь проблема в том, что я перелопатил множество документации из разных мест, большинство из них под RedHat/CentOS, и при добавлении pgsql в виде ресурса в pacemaker, предлагаемые параметры для его описания кардинально отличаются. Я настроил так:

node GateMaster \
        attributes standby="off"
node GateSlave \
        attributes standby="off"
primitive pgsql ocf:heartbeat:pgsql \
        params config="/etc/postgresql/9.4/main/postgresql.conf" pgctl="/usr/lib/postgresql/9.4/bin/pg_ctl" pgdata="/var/lib/postgresql/9.4/main" pgport="5432" psql="/usr/lib/postgresql/9.4/bin/psql" pgdb="postgres" monitor_user="postgres" monitor_password="password" \
        op monitor interval="10" role="Master" timeout="120" \
        op monitor interval="30" role="Slave" timeout="130" \
        op start interval="0" timeout="120" \
        op stop interval="0" timeout="120"
ms ms-pgsql pgsql \
        meta master-max="1" master-node-max="1" clone-max="2" clone-node-max="1" notify="true" target-role="Slave" is-managed="true"
property $id="cib-bootstrap-options" \
        dc-version="1.1.7-ee0730e13d124c3d58f00016c3376a1de5323cff" \
        cluster-infrastructure="openais" \
        expected-quorum-votes="2" \
        stonith-enabled="false" \
        no-quorum-policy="ignore" \
        default-resource-stickiness="100" \
        last-lrm-refresh="1551339122" \
        maintenance-mode="false"
В итоге монитор показывает следующее:

============
Last updated: Thu Feb 28 11:25:20 2019
Last change: Thu Feb 28 11:04:58 2019 via cibadmin on GateSlave
Stack: openais
Current DC: GateSlave - partition with quorum
Version: 1.1.7-ee0730e13d124c3d58f00016c3376a1de5323cff
2 Nodes configured, 2 expected votes
2 Resources configured.
============

Online: [ GateMaster GateSlave ]

 Master/Slave Set: ms-pgsql [pgsql]
     Slaves: [ GateMaster GateSlave ]


Node Attributes:
* Node GateMaster:
* Node GateSlave:

Вижу что на офф сайте кластерлабса, результат должен быть иной. Должно отображаться в моем случае
Masters: [ GateMaster ]
Slaves: [ GateSlave ]
а так же в строке Note Attributes отображается состояние базы данных, режим репликации. У меня такого нема. Направьте куда смотреть или чяднт... Если нужны какие либо ещё подробности, скажите - скину. Я, видимо, уже голову забил разной документацией и теперь сам в своей каше варюсь. ps. В данном дистрибе ОС отсутствуют пакеты pcs и crmsh. Ведь без них то же реально настроить?

 , , ,

ascor ()

DHCPD + Pacemaker

Всем привет, по-тихоньку познаю кластеризацию.

Так вот, в чем вопрос. Установил isc-dhcpd сервер, настроил, запускается без проблем демон.

Но когда я создаю ресурс в кластере для dhcpd (ocf:heartbeat:dhcpd) то он отказывается запускаться.

Failed Actions:
* DHCPD_start_0 on node1 'not installed' (5): call=14, status=complete, exitreason='Could not fully initialize the runtime environment.'

Перешарил всё, нашёл, как исправили баг в старых версиях Pacemaker.

Директория chroot_path была не правильно обозначена.

Указываю, всё равно выдаёт эту ошибку.

Кусок кода с ресурса DHCPD:

      <primitive class="ocf" id="DHCPD" provider="heartbeat" type="dhcpd">
        <instance_attributes id="DHCPD-instance_attributes">
          <nvpair id="DHCPD-instance_attributes-config" name="config" value="/usr/local/etc/named.conf"/>
          <nvpair id="DHCPD-instance_attributes-binary" name="binary" value="/usr/local/sbin/dhcpd"/>
          <nvpair id="DHCPD-instance_attributes-user" name="user" value="dhcpd"/>
          <nvpair id="DHCPD-instance_attributes-leases" name="leases" value="/var/db/dhcpd.leases"/>
          <nvpair id="DHCPD-instance_attributes-pid" name="pid" value="/var/run/dhcpd/"/>
          <nvpair id="DHCPD-instance_attributes-chrooted_path" name="chrooted_path" value="/var/db/dhcp"/>
        </instance_attributes>
        <operations>
          <op id="DHCPD-monitor-interval-30s" interval="30s" name="monitor"/>
          <op id="DHCPD-start-interval-0s" interval="0s" name="start" timeout="20s"/>
          <op id="DHCPD-stop-interval-0s" interval="0s" name="stop" timeout="20s"/>
        </operations>
        <meta_attributes id="DHCPD-meta_attributes">
          <nvpair id="DHCPD-meta_attributes-target-role" name="target-role" value="Started"/>
        </meta_attributes>
      </primitive>

Куда копать? Есть люди которые с Pacemaker`ом на «ты»?

ОС FreeBSD 12.0

«pcs» нет на FreeBSD, всё ручками через «cibadmin» делается.

Если задаю параметр «chrooted» value=«false» выдаёт ошибку «'Could not fully initialize the runtime environment.»

 , ,

CoreeZz ()

Отказоустойчивый кластер на Freebsd

Всем привет. Поступила задача от руководства организовать отказоустойчивый кластер на FreeBSD.

Версия FreeBSD 12.0-RELEASE

Есть два роутера на которых крутится DHCP демон, то есть MySQL база. Необходимо организовать отказоустойчивость этих роутеров, так как умирает один, умирает маршрутизация. Раньше отказоустойчивость реализовывалось с помощью CARP, но перестала работать. Так как релизы и пакеты никто не обновлял, сказали с карпом не разбираться, а найти новый способ решения.

Изучал статьи по кластеризации во FreeBSD, ставил HAST+Heartbeat, но натолкнулся на такую проблему, как невозможность контролирования такой ситуации как split-brain автоматически.

Поэтому хотим сделать кластер из 4 серверов.

2 сервера - маршрутизаторы, еще 2 сервера - мозг кластера, который будет управлять кластерами.

Натолкнулся на статьи Pacemaker+corosync, но все решения на Centos, Debian и т.п., также там не описана возможность выноса отдельного «мозга» который будет контролировать состояние кластера.

Есть ли решения отказоустойчивых кластеров не переходя на другие OS?

Посоветуйте за что взяться, может кто знает хорошие статьи по кластеризации во FreeBSD. HAST+Heartbeat отсекается, HAST+CARP отсекается. Второй день брожу по тырнетам ничего годного найти не могу.

 , ,

CoreeZz ()

Pacemaker не запускает ресурсы jboss и pgsql

Привет парни!

Тестирую pacemaker на двух серверах.

На двух нодах стоит CentOS 7 x64

jdk-7u80-linux-x64 JBoss 7.1.1 Final Pgsql (PostgreSQL) 9.2.24

pcs --version 0.9.165

Настроил 3 ресурса. IPaddr2 работает без проблем. А вот с jboss и pgsql проблемы. При чем если их запустить командами

/bin/sh /usr/lib/ocf/resource.d/heartbeat/pgsql start /bin/sh /usr/lib/ocf/resource.d/heartbeat/jboss start

они работают, но pacemaker их не видит.

[root@centos-test1 heartbeat]# pcs status --all
Cluster name: test
Stack: corosync
Current DC: centos-test1 (version 1.1.19-8.el7_6.2-c3c624ea3d) - partition with quorum
Last updated: Wed Dec 26 06:58:21 2018
Last change: Wed Dec 26 06:07:27 2018 by root via cibadmin on centos-test1

2 nodes configured
3 resources configured

Online: [ centos-test1 centos-test2 ]

Full list of resources:

 virtual_ip     (ocf::heartbeat:IPaddr2):       Started centos-test1
 jboss  (ocf::heartbeat:jboss): Stopped
 pgsql  (ocf::heartbeat:pgsql): Stopped

Failed Actions:
* jboss_start_0 on centos-test1 'unknown error' (1): call=18, status=Timed Out, exitreason='',
    last-rc-change='Wed Dec 26 06:08:16 2018', queued=0ms, exec=20002ms
* pgsql_start_0 on centos-test1 'not configured' (6): call=15, status=complete, exitreason='',
    last-rc-change='Wed Dec 26 06:07:56 2018', queued=0ms, exec=115ms
* jboss_start_0 on centos-test2 'unknown error' (1): call=14, status=Timed Out, exitreason='',
    last-rc-change='Wed Dec 26 13:07:04 2018', queued=0ms, exec=20002ms


Daemon Status:
  corosync: active/enabled
  pacemaker: active/enabled
  pcsd: active/enabled
  

В ocf::heartbeat: были ошибки с переменными окружения, в файлах пришлось явно указывать:

# Initialization:

: /usr/lib/ocf/lib/heartbeat
. /usr/lib/ocf/lib/heartbeat/ocf-shellfuncs

#: ${OCF_FUNCTIONS_DIR=${OCF_ROOT}/lib/heartbeat}
#. ${OCF_FUNCTIONS_DIR}/ocf-shellfuncs

В логах corasync пишет:

( corasync.log )

Почему не работает не понимаю, подскажите где что посмотреть.

 , , , ,

zamzam ()

Настройка геокластера HA с pacemaker и stonith

Доброго дня суток!
Имеется следующая ситуация: необходимо с помощью pacemaker/stonith (RedHat7.5) построить High Availability геокластер, а именно имеются две виртуальные машины:
node1 находится в Vcenter1 в городе city1
node2 находится в Vcenter2 в городе city2
на обоих нодах крутится БД, в режиме Master/Slave соответственно, т.е. весьма критично не допустить Split-brain'a.

При падении node1 pacemaker поднимает node2 в режим Master и присваивает ему нужный виртуальный IP, при этом Stonith должен потушить node1 (чтобы если вдруг он сам поднимется\включится\станет доступным не произошел Split-brain).

Stonith делает это так - с node2 с помощью политики fence_vmware_soap подключается к Vcenter1 и тушит необходимую vm'ку (в нашем случае node1).

Все вроде бы логично. Но вот ЧТО ЕСЛИ теряется связь\канал до Vcenter1 и Stonith соответственно не может подать команду на тушение node1? отработает ли в этом случае pacemaker?(а именно поменяет роль с Slave на Master).
Подскажите как выкрутиться в этом случае?
Возможно есть какие-то обкатанные варианты? Заранее благодарю.

 ,

Sappper ()

создание High Availability кластера более чем с 2 нодами

Самая популярная конфигурация из 2 нод Active/Passive с последующей настройкой с Corosync/Pacemaker. А если нужно исп-ть к примеру 5 нод, нужно создавать две конфигурации c Active/Passive нодами: одну с 2 нодами и одну с 3 нодами или можно сразу исп-ть все 5 нод?

 , ,

gigantischer ()

1 ip, 2 сервера

Всем доброго времени суток. Нужно собрать кластер и обеспечить постоянную работу сервиса без внешнего балансировщика. Рассмативал варианы с pacemaker, corosync, heartbeat. Везде холиварят, кто-то пишет, что слишком тяжеловесное решение. Что можете посоветовать по личному опыту? Может, самописный скрипт будет лучше? Тогда на какие ресурсы опираться?

 , , , ,

Rot1 ()

Corosync + Pacemaker, оповещения для Администратора

Доброго дня!

Подскажите пожалуйста, существует ли возможность в Corosync\Pacemaker настроить оповещения для Администратора? Например, отказ ресурса, переезд ресурсов на другую ноду? И как это можно сделать?

 ,

aztec ()

Кластер pacemaker+corosync+pcs

Добрый день. Кластер работает все ок. Но при выключение двух нод, а затем включение master, сервисы на мастере не запускаются. Не подскажите как это поправить?

 , ,

volkmen ()

pacemaker: как узнать состояние конкретного ресурса на нужной ноде?

Добрый день!

Есть необходимость узнавать состояние ресурса, чтобы после на основании полученного результата запускать зависимый сервис, который должен запускаться без участия pacemaker.

Идея в следющем, проверять состояние ресурса в файле сервиса systemd в директиве PreStart. При удачной проверке запускать сервис!

Существует команда pcs resources show, которая выдает полный список ресурсов кластера, а вот узнать состояние требуемого ресурса на текущей ноде не представляется возможность, как я понял.

Может кто-то подскажет как можно это сделать! А то уже не знаю как гуглить))

 

dmnord ()

pacemaker: как убрать запуск клона ресурса без его предварительного останова

Доброго времени суток!

Настраиваю с помощью клонов независимые ресурсы на Pacemaker, которые работают на разных нодах.

Они запускают и работают, только есть одна не очень маленькая проблема!

При перезагрузке одной из нод кластера, клон ресурса перезагружаемой ноды помечается как Stopped. Все нормально! Только вот когда нода запустилась и пришло время ресурсу запуститься, клоны данного ресурса на других работающих нодах также выключаются, а после снова запускаются совместно друг с другом!

Все бы ничего, если бы не прописал order для последовательного запуска зависымых ресурсов и его клонов. И получается что все ресурсы кластера последовательно и веерно выключаются и включаются заново! :(

pcs resource create clvm ocf:heartbeat:clvm \
  op start start-delay="2s" interval="10s" timeout="5s" on-fail=restart \
  op stop  start-delay="2s" interval="10s" timeout="5s" on-fail=restart \
  op monitor interval="10s" timeout="10s" on-fail=restart 

pcs resource clone clvm interleave=true ordered=false clone-max=2 clone-node-max=1 globally-unique=true target-role=Started

pcs constraint colocation add clvm-clone with dlm-clone
pcs constraint order start dlm-clone then clvm-clone

pcs constraint location clvm-clone prefers node01.infra.local=INFINITY
pcs constraint location clvm-clone prefers node02.infra.local=INFINITY

 ,

dmnord ()

maxscale + pacemalker + corosync: не удается сократить время даунтайма

Привет, коллеги!

Есть две ноды c maxscale в pacemaker+corosync кластере.

На нодах настроены два ресурса: виртуальный IP, который переползает в случае падения ноды на другую, и собственно maxscale, который в случает падения процесса перезапускается, а в случае падения ноды - переползает на другую. Ресурсы объединены в группу, чтобы переключение обоих происходило синхронно и не получилось ситуации когда IP «припаркован» на одну ноду, а maxscale запущен на другой.

настройки кластера такие:

node 2887010140: maxscale1
node 2887010141: maxscale2
primitive MaxScale systemd:maxscale \
        op monitor interval=10s timeout=15s \
        op start interval=0 timeout=15s \
        op stop interval=0 timeout=30s
primitive maxscale_vip IPaddr2 \
        params ip=192.168.1.99 \
        op monitor interval=1s
group maxscale_service maxscale_vip
property cib-bootstrap-options: \
        have-watchdog=false \
        dc-version=1.1.16-94ff4df \
        cluster-infrastructure=corosync \
        cluster-name=debian \
        stonith-enabled=false \
        no-quorum-policy=ignore

Всё работает как часы. Но мне хочется уменьшить время дайндайма при падении процесса maxscale! Делаю (на первой ноде, которая сейчас «главная»)

crm resource stop MaxScale
crm configure delete MaxScale
crm configure primitive MaxScale systemd:maxscale op monitor interval="5s" timeout="15s" op start interval="0" timeout="15s" op stop interval="0" timeout="30s"

Сразу же в crm_mon вижу:

2 nodes configured
2 resources configured

Online: [ maxscale1 maxscale2 ]

Active resources:

 Resource Group: maxscale_service
     maxscale_vip       (ocf::heartbeat:IPaddr2):       Started maxscale1
MaxScale        (systemd:maxscale):     Started maxscale1

Failed Actions:
* MaxScale_start_0 on maxscale2 'not running' (7): call=10, status=complete, exitreason='none',
    last-rc-change='Thu Jul  6 11:03:15 2017', queued=0ms, exec=1575ms

Казалось бы, зачем второй ноде пытаться запустить maxcale если он уже работает на первой ноде.

При kill процесса maxscale на первой ноде он успешно перезапускается, быстрее чем раньше (т.к. op monitor interval=5s вместо 10). Но при падении первой ноды на вторую переползает IP, но maxscale не стартует:

* MaxScale_start_0 on maxscale2 'not running' (7): call=10, status=complete, exitreason='none',
    last-rc-change='Thu Jul  6 11:03:15 2017', queued=0ms, exec=1575ms

Где искать виновного? Наверняка значения op monitor interval < 10s допустимы, ведь maxscale_vip IPaddr2 прекрасно работает с op monitor interval=1s.

 , ,

dpronyaev ()

Pacemaker - тупит

Есть pacemaker в простейшей конфигурации (специально упростил максимально для отладки) - https://pastebin.com/5bEA35MU Грубо говоря - 11 клонов-пингов.

Проблема в том, что оно тупит при запуске и отработке событий, когда их много. Возникает ошибка типо такой

Transition aborted by status-1-FC83_SRC442_ping doing create FC83_SRC442_ping=0: Transient attribute change
В нижеприведенном логе показан процесс запуска вышеуказанной конфигурации (в данном случае - на одном хосте, но с двумя та же петрушка). Мы видим, как запускается примерно 4 ресурса, после этого Transition aborted, потом кластер ждет 20-30 секунд и запускает следующие 4 ресурса. И так далее. https://pastebin.com/rTFswGsr

Когда у тебя 500 ресурсов - это дело получается весьма медитативным. В данном случае пингуем несуществующие адреса. Если указать отвечающие - то все будет то же самое, разве что количество обработанных ресурсов до сбоя будет больше.

Подскажите, куда копать.

 

Davyd ()

Postgresql automatic failover Pacemaker+Corosync

Добрый день Centos 7, Postgresql-9.4, Pacemaker 1.1.13-10.el7_2.4, Corosync ,2.3.4-7.el7_2.3, 2 ноды При кратковременном пропадании линка на интерфейсе мастера ресурс сразу переносится на слэйв и делает его мастером. Есть ли у кого-нибудь опыт настройки таймаута или времени ожидания перед тем как переносить ресурс?

 , ,

franceg1d ()

drbd и pacemaker

Сап, лор.

Решил тут себе собрать кластер на pacemaker'е с drbd в качестве ресурса. И вот с drbd есть проблемы.

Сначала хотел поставить drbd 8.4 из реп elrepo, но там старые пакеты, которые не совместимы с текущим ядром centos. Поэтому собрал 9 версию по этой инструкции. Все собралось, синхронизация работает, разве что статус теперь показывается не в /prod/drbd, а командой drbdadm status.

А вот с добавлением в качестве ресурса проблема, ресурс не страртует, отваливается по таймауту, вываливая в лог:

lrmd[2437]:  warning: drbd2_start_0:6071 - timed out after 240000ms
lrmd[2437]:   notice: drbd2_start_0:6071:stderr [ 'cl01_r2' is a normal resource, and not available in stacked mode. ]
И последняя строка повтояется полтыщи раз.

Ресурс добавлял так:

pcs resource create drbd2 ocf:linbit:drbd drbd_resource=cl01_r2 drbdconf=/etc/drbd.conf op monitor interval=60s
pcs  resource master drbd2_clone drbd2 master-max=1 master-node-max=1 clone-max=2 clone-node-max=1 notify=true

Конфиг drbd такой:

resource cl01_r1 {
        protocol C;
        meta-disk internal;
        device /dev/drbd1;
        syncer {
                verify-alg sha1;
        }
        net {
                #allow-two-primaries;
        }
        on vds02.example.com {
                disk /dev/centos/cluster_drbd;
                address 10.1.0.2:7789;
        }
        on vds03.example.com {
                disk /dev/centos/cluster_drbd;
                address 10.1.0.3:7789;
        }
}
resource cl01_r2 {
        protocol C;
        meta-disk internal;
        device /dev/drbd2;
        disk /dev/centos/cluster_drbd2;
        syncer {
                verify-alg sha1;
        }
        floating 10.1.0.2:7790;
        floating 10.1.0.3:7790;
}
Ни первый, ни второй вариант не работает, оба ругаются на одну и ту же ошибку выше.

Версии пакетов

drbd-utils-8.9.6-1.el7.centos.x86_64
drbd-pacemaker-8.9.6-1.el7.centos.x86_64
kmod-drbd-9.0.1_3.10.0_327.36.3-1.el7.centos.x86_64
drbd-udev-8.9.6-1.el7.centos.x86_64

Куда копать, чтобы убрать этот stacked mode, или хотя бы заставить работать.

 ,

Deleted ()

Asterisk + Pacemaker, запрет переезда ресурсов при восстановлении мастера хоста

Пытаюсь сделать отказоустойчивый Asterisk.

Есть две ноды с CentOS7 + DRDB + Asterisk +MySQL + Apache Первый сервер выступает мастером, второй слейв. Все как бы работает, когда тушишь первый сервер, второй слейв становится мастером.

Возникла проблема: Когда второй сервер мастер, если включить первую ноду (которая была отключена), она автоматически перехватывает на себя все ресурсы слейва. Соотcветственно все данные которые писались на слейв не видны мастеру.

Хотя хочется чтобы этот процесс был сделан в ручную.

Настройки кластера:

pcs cluster cib clust_cfg
pcs -f clust_cfg property set stonith-enabled=false
pcs -f clust_cfg property set no-quorum-policy=ignore
pcs -f clust_cfg resource defaults resource-stickiness=INFINITY
 
pcs -f clust_cfg resource create ast_data01 ocf:linbit:drbd drbd_resource=disk1 op monitor interval=30s
 
pcs -f clust_cfg resource master AstClone01 ast_data01 master-max=1 master-node-max=1 clone-max=2 clone-node-max=1 notify=true
 
pcs -f clust_cfg resource create ast_fs01 Filesystem device="/dev/drbd/by-res/disk1/0" directory="/etc/asterisk" fstype="ext4"
pcs -f clust_cfg resource create ast_fs02 Filesystem device="/dev/drbd/by-res/disk1/1" directory="/var/lib/asterisk" fstype="ext4"
pcs -f clust_cfg resource create ast_fs03 Filesystem device="/dev/drbd/by-res/disk1/2" directory="/var/lib/mysql" fstype="ext4"
pcs -f clust_cfg resource create ast_fs04 Filesystem device="/dev/drbd/by-res/disk1/3" directory="/var/www/html" fstype="ext4"
 
pcs -f clust_cfg constraint colocation add ast_fs03 with AstClone01 INFINITY with-rsc-role=Master
pcs -f clust_cfg constraint colocation add ast_fs01 with AstClone01 INFINITY with-rsc-role=Master
pcs -f clust_cfg constraint colocation add ast_fs02 with AstClone01 INFINITY with-rsc-role=Master
pcs -f clust_cfg constraint colocation add ast_fs04 with AstClone01 INFINITY with-rsc-role=Master
 
pcs -f clust_cfg constraint order promote AstClone01 then start ast_fs03
pcs -f clust_cfg constraint order promote AstClone01 then start ast_fs01
pcs -f clust_cfg constraint order promote AstClone01 then start ast_fs02
pcs -f clust_cfg constraint order promote AstClone01 then start ast_fs04
 
pcs -f clust_cfg resource create mysql_service01 ocf:heartbeat:mysql binary="/usr/bin/mysqld_safe" config="/etc/my.cnf" user="mysql" group="mysql" datadir="/var/lib/mysql" pid="/var/lib/mysql/mysql.pid" socket="/var/lib/mysql/mysql.sock" op start timeout=60s op stop timeout=60s op monitor interval=20s timeout=30s
pcs -f clust_cfg resource create ast_service01 ocf:heartbeat:asterisk op start timeout=60s op stop timeout=60s op monitor interval=20s timeout=30s
pcs -f clust_cfg resource create httpd_service01 ocf:heartbeat:apache op start timeout=60s op stop timeout=60s op monitor interval=20s timeout=30s
 
pcs -f clust_cfg constraint colocation add mysql_service01 with ast_fs03 INFINITY
pcs -f clust_cfg constraint colocation add ast_service01 with ast_fs01 INFINITY
pcs -f clust_cfg constraint colocation add ast_service01 with ast_fs02 INFINITY
pcs -f clust_cfg constraint colocation add httpd_service01 with ast_fs04 INFINITY
 
pcs -f clust_cfg constraint order ast_fs03 then mysql_service01
pcs -f clust_cfg constraint order ast_fs01 then ast_service01
pcs -f clust_cfg constraint order ast_fs02 then ast_service01
pcs -f clust_cfg constraint order ast_fs04 then httpd_service01
 
pcs -f clust_cfg resource create ast_VIP01 ocf:heartbeat:IPaddr2 ip=192.168.0.43 cidr_netmask=32 op monitor interval=30s
 
pcs -f clust_cfg constraint colocation add ast_VIP01 with mysql_service01 INFINITY
pcs -f clust_cfg constraint colocation add ast_VIP01 with ast_service01 INFINITY
pcs -f clust_cfg constraint colocation add ast_VIP01 with httpd_service01 INFINITY
 
pcs -f clust_cfg constraint order mysql_service01 then ast_VIP01
 
pcs -f clust_cfg constraint
pcs -f clust_cfg resource show
pcs cluster cib-push clust_cfg

 , ,

AlfaStriker ()

Проблема с clvmd.

Коллеги, прошу помочь:

[root@node1 ~]# /usr/sbin/clvmd -d 1 -I mycluster
  local socket: connect failed: Connection refused
CLVMD[41167880]: Nov 15 01:49:56 CLVMD started
CLVMD[41167880]: Nov 15 01:49:56 Can't initialise cluster interface
  Can't initialise cluster interface.
в journalctl пишется:
Nov 15 01:49:56 node1.domain.com clvmd[34618]: Unable to create DLM lockspace for CLVM: Transport endpoint is not connected
Nov 15 01:49:56 node1.domain.com kernel: dlm: no local IP address has been set
Nov 15 01:49:56 node1.domain.com kernel: dlm: cannot start dlm lowcomms -107
весь гугл перерыл, ничего не смог найти. о каком интерфейсе идет речь и как его настроить ?
в man clvmd ничего не написано.

 , ,

dada ()

кластер на pacemaker для программы с самописным systemd-скриптом.

Алоха.
Есть программа которая стартуется и останавливается через systemctl (самописные скрипты)
Нужно настроить отказоустойчивость.
вопрос:
при создании ресурса для pcs, надо указать агента. какой агент должен быть прописан для самописной программы ?
pcs resourse create myprog systemd:heartbeat:_chtozdespisat_
в списке (pcs resource agents systemd:heartbeat) ничего подходящего не нашел.
может без агента ?

 , ,

dada ()

Pacemaker и systemd

Доброго дня, уважаемые форумчане!

Настроен кластер Postfix-a. Сам кластер работает без вопросов, но если «уронить» сам постфикс то systemd говорит что с сервисом всё очень плохо не смотря на то, что сам постфикс запущен и слушает порт. не подскажете в какую сторону копать?

crm_mon -1 Last updated: Fri Sep 16 11:20:06 2016 Last change: Fri Sep 16 10:37:36 2016 by root via cibadmin on node1 Stack: corosync Current DC: node1 (version 1.1.13-10.el7_2.2-44eb2dd) - partition with quorum 2 nodes and 2 resources configured

Online: [ node1 node2 ]

ClusterIP (ocf::heartbeat:IPaddr2): Started node1 Postfix (ocf::heartbeat:postfix): Started node1

netstat -tnlp Active Internet connections (only servers) Proto Recv-Q Send-Q Local Address Foreign Address State PID/Program name tcp 0 0 0.0.0.0:22 0.0.0.0:* LISTEN 766/sshd tcp 0 0 0.0.0.0:25 0.0.0.0:* LISTEN 2627/master

telnet 10.44.5.231 25 Trying 10.44.5.231... Connected to 10.44.5.231. Escape character is '^]'. 220 mail.mydomain.com ESMTP QUIT 221 2.0.0 Bye Connection closed by foreign host.

systemctl status postfix ● postfix.service - Postfix Mail Transport Agent Loaded: loaded (/usr/lib/systemd/system/postfix.service; disabled; vendor preset: disabled) Active: failed (Result: exit-code) since Пт 2016-09-16 10:50:50 EEST; 31min ago Main PID: 1494 (code=killed, signal=TERM)

сен 16 10:50:44 node1.ingo.office systemd[1]: Starting Postfix Mail Transport Agent... сен 16 10:50:45 node1.ingo.office postfix/postfix-script[1477]: starting the Postfix mail system сен 16 10:50:46 node1.ingo.office postfix/master[1494]: daemon started — version 2.10.1, configuration /etc/postfix сен 16 10:50:46 node1.ingo.office systemd[1]: Started Postfix Mail Transport Agent. сен 16 10:50:50 node1.ingo.office systemd[1]: postfix.service: control process exited, code=exited status=1 сен 16 10:50:50 node1.ingo.office systemd[1]: Unit postfix.service entered failed state. сен 16 10:50:50 node1.ingo.office systemd[1]: postfix.service failed.

 , ,

Modzh ()