LINUX.ORG.RU

5
Всего сообщений: 55

pacemaker + drbd = split brain

Снова нужен совет от сильного комунити ЛОРа. Существует нищебродский кластер ынтерпрайз сегмента из 2-ух серверов (+ qdevice) где установлены corosync 3.0.1 , Pacemaker 2.0.1 и drbd 8.4.10. Созданы и объявлены в кластере 4 drbd ресурса в режиме primary/secondary и FS на них с точками монтирования. Вобщем-то вроде бы на первый взгляд всё работает. Как проверяем? Убеждаемся что все эти ресурсы находятся на node1 и затем просто пишем reboot или с любыми флагами (--force, --halt и т.п.), можем вообще через ipmi сделать shutdown warn/cold или даже power cycle, что происходит в этом случае? Грубо говоря, кластер на node2 видит что отвалилась node1, перетаскивает на себя drbd, говорит им что они теперь primary и монтирует. После того как появляется node1, кластер на ней синхронизирует drbd ресурсы как secondary и всё продолжает работать и-де-ально-но и рад бы я тут поставить точку, чтоб вы просто порадовались за меня, ан нет, увы. В общем как бы я не пробовал разломать кластер - он всегда выживает за исключением одного кейса: ip l s bond0 down на одной ноде. Что происходит? Нода теряет кворум, та живая, что осталась видит это, видит свой кворум, поднимает у себя все drbd и stonith посылает на ту, что без сети fence reboot, разумеется та нода ребутается и… зачем-то поднимает все drbd как primary из-за чего случается split brain. Тут вопрос скорее в том, чтоб мне какие-то сильные HA admins объяснили - почему оно так делает? Чем это состояние отличается от того же reboot --force или power cycle? Можно ли как-то избежать этого, или у pacemaker это архитектурно задумано так?

( читать дальше... )

 , , ,

Grotesque ()

pacemaker systemd resource

Категорически приветствую! Есть кластер состоящий из 2 серверов с ubuntu 20 (Pacemaker 2.0.3, corosync 3.0.3) + qdevice, но это вобщем-то не важно. Хочу создать ресурс systemd, на обоих нодах создаю юнит dummy.service

[Unit]
Description=Dummy

[Service]
Restart=on-failure
StartLimitInterval=20
StartLimitBurst=5
TimeoutStartSec=0
RestartSec=5
Environment="HOME=/root"
SyslogIdentifier=dummy
ExecStart=/usr/local/sbin/dummy.sh

[Install]
WantedBy=multi-user.target

сам /usr/local/sbin/dummy.sh:

#!/bin/bash

CNT=0
while true; do
  let CNT++
  echo "hello world $CNT"
  sleep 5
done

Пытаемся объявить ресурс pcs resource create dummy.service systemd:dummy op monitor interval="10s" timeout="15s"

И спустя пару секунд одна нода убивает вторую и она уходит в ребут. Почему так происходит? Судя по логам, он буквально чем за секунду пытается запустить 2 раза сервис, решает что он «Timed Out», при этом сервис работает, так как он успевает написать в лог «hello world 1», после чего отстреливает ноду.

Собсно вопрос всё тот же: что я делаю не так?

( читать дальше... )

 , ,

Grotesque ()

Помогите разобраться, кластер corosync+pacemaker

Добрый день, разворачиваю кластер из трёх нод,node1-192.168.15.53; node2-192.168.15.54; node3-192.168.1.225; все компоненты ставятся без проблем, связь между нодами есть, в /etc/hosts ноды прописаны. но после того как кластер собран команда pcs status показывает что третья нода, node3, оффлайн. Назначаю виртуальный ip=192.168.15.101 Поясните кто знает, как правильно развернуть кластер corosync+pacemaker с использованием нод из разных подсетей! Спасибо!

 ,

Cyber_T ()

Выполнение произвольной команды при перемещении ресурса pacemaker

Добрый день!

Прошу подсказать, как организовать выполнение произвольное команды при перемещении (ручном или после падения ноды кластера) ресурса pacemaker. Конкретно: есть группа ресурсов из ocf::heartbeat:IPaddr2 и ocf::heartbeat:Route. Нужно при переезде этого ресурса на другую ноду выполнять «/usr/sbin/fwconsole reload»

 

adragushin ()

Прошу помощи с pacemaker ha кластер centos7

Добрый день!

Вопрос тривиальный, но моих познаний для его решения не хватает. Прошу совета/помощи бывалых.

Есть три ноды в ha кластере с виртуальным ip адресом. Необходимо настроить кластер так, чтобы активная нода отправляла сетевой трафик с айпишника виртуального ip адреса кластера.

Диспозиция:

node01 = 10.0.0.11,

node02 = 10.0.0.12,

node03 = 10.0.0.13.

Виртуальный ip адрес = 10.0.0.10.

Указанные ресурсы:

pcs resource create virt_ip ocf:heartbeat:IPaddr2 ip=10.0.0.10 cidr_netmask=24 op monitor interval=30s on-fail=restart

pcs resource create src_ip ocf:heartbeat:IPsrcaddr ipaddress=10.0.0.10 cidr_netmask=24

pcs constraint colocation add src_ip with virt_ip score=INFINITY

pcs constraint order virt_ip then src_ip

pcs status при поднятой первой ноде

Online: [ node01 node02 node03 ]

Full list of resources:

virt_ip (ocf::heartbeat:IPaddr2): Started node01

src_ip (ocf::heartbeat:IPsrcaddr): Started node01

Failed Actions:

  • src_ip_start_0 on node02 ‘not installed’ (5): call=27, status=complete, exitreason=‘We are not serving [10.0.0.10], hence can not make it a preferred source address’,

    last-rc-change=‘Wed Nov 27 19:29:19 2019’, queued=1ms, exec=40ms

  • src_ip_start_0 on node03 ‘not installed’ (5): call=27, status=complete, exitreason=‘We are not serving [10.0.0.10], hence can not make it a preferred source address’,

    last-rc-change=‘Wed Nov 27 19:29:19 2019’, queued=0ms, exec=91ms

Daemon Status: corosync: active/enabled pacemaker: active/enabled pcsd: active/enabled

На активной ноде (node01) всё работает корректно. При её выключении айпишник передаётся другой ноде, но не запускается ресурс src_ip (IPsrcaddr). Также во время выключения активной ноды мне приходится долго смотреть на «A stop job is running for Pacemaker High Availability Cluster Manager». После выключения активной ноды по питанию (т.к. штатное выключение не происходит за 5 минут, «вися» на этом статусе) на следующей активной ноде происходит следующее:

Ситуация с кластером при выключенной первой ноде:

Online: [ node02 node03 ]

OFFLINE: [ node01 ]

Full list of resources:

virt_ip (ocf::heartbeat:IPaddr2): Started node02

src_ip (ocf::heartbeat:IPsrcaddr): Stopped

Failed Actions:

  • src_ip_start_0 on node02 ‘not installed’ (5): call=27, status=complete, exitreason=‘We are not serving [10.0.0.10], hence can not make it a preferred source address’,

    last-rc-change=‘Wed Nov 27 19:29:19 2019’, queued=1ms, exec=40ms

  • src_ip_start_0 on node03 ‘not installed’ (5): call=27, status=complete, exitreason=‘We are not serving [10.0.0.10], hence can not make it a preferred source address’,

    last-rc-change=‘Wed Nov 27 19:29:19 2019’, queued=0ms, exec=91ms

. . . . P.S. Или мне придётся прописывать «ip route add default via 10.0.0.1 src 10.0.0.10» на всех нодах?

 , , ,

adragushin ()

Corosync/Pacemaker не останавливаются ресурсы при отсутствии кворума

del

 , ,

mr_archer ()

Astra Linux + Pacemaker&Corosync PGSQL

Здравствуйте. Уже достаточно бьюсь над конфигурацией этой сборки, и ни как не выйдет. Направьте/подскажите в решении моего вопроса. Далее сама проблема. Имеется Astra Linux SE 1.5, Corosync 1.4.2, Pacemaker 1.1.7, PostgreSQL 9.4, GateMaster и GateSlave Пытаюсь добиться отказоустойчивости. Сконфигурировал PostgreSQL для синхронной репликацией, всё проверено, она работает. Дальше настроил связку менеджера ресурсов между GateMaster-GateSlave. Теперь проблема в том, что я перелопатил множество документации из разных мест, большинство из них под RedHat/CentOS, и при добавлении pgsql в виде ресурса в pacemaker, предлагаемые параметры для его описания кардинально отличаются. Я настроил так:

node GateMaster \
        attributes standby="off"
node GateSlave \
        attributes standby="off"
primitive pgsql ocf:heartbeat:pgsql \
        params config="/etc/postgresql/9.4/main/postgresql.conf" pgctl="/usr/lib/postgresql/9.4/bin/pg_ctl" pgdata="/var/lib/postgresql/9.4/main" pgport="5432" psql="/usr/lib/postgresql/9.4/bin/psql" pgdb="postgres" monitor_user="postgres" monitor_password="password" \
        op monitor interval="10" role="Master" timeout="120" \
        op monitor interval="30" role="Slave" timeout="130" \
        op start interval="0" timeout="120" \
        op stop interval="0" timeout="120"
ms ms-pgsql pgsql \
        meta master-max="1" master-node-max="1" clone-max="2" clone-node-max="1" notify="true" target-role="Slave" is-managed="true"
property $id="cib-bootstrap-options" \
        dc-version="1.1.7-ee0730e13d124c3d58f00016c3376a1de5323cff" \
        cluster-infrastructure="openais" \
        expected-quorum-votes="2" \
        stonith-enabled="false" \
        no-quorum-policy="ignore" \
        default-resource-stickiness="100" \
        last-lrm-refresh="1551339122" \
        maintenance-mode="false"
В итоге монитор показывает следующее:

============
Last updated: Thu Feb 28 11:25:20 2019
Last change: Thu Feb 28 11:04:58 2019 via cibadmin on GateSlave
Stack: openais
Current DC: GateSlave - partition with quorum
Version: 1.1.7-ee0730e13d124c3d58f00016c3376a1de5323cff
2 Nodes configured, 2 expected votes
2 Resources configured.
============

Online: [ GateMaster GateSlave ]

 Master/Slave Set: ms-pgsql [pgsql]
     Slaves: [ GateMaster GateSlave ]


Node Attributes:
* Node GateMaster:
* Node GateSlave:

Вижу что на офф сайте кластерлабса, результат должен быть иной. Должно отображаться в моем случае
Masters: [ GateMaster ]
Slaves: [ GateSlave ]
а так же в строке Note Attributes отображается состояние базы данных, режим репликации. У меня такого нема. Направьте куда смотреть или чяднт... Если нужны какие либо ещё подробности, скажите - скину. Я, видимо, уже голову забил разной документацией и теперь сам в своей каше варюсь. ps. В данном дистрибе ОС отсутствуют пакеты pcs и crmsh. Ведь без них то же реально настроить?

 , , ,

ascor ()

DHCPD + Pacemaker

Всем привет, по-тихоньку познаю кластеризацию.

Так вот, в чем вопрос. Установил isc-dhcpd сервер, настроил, запускается без проблем демон.

Но когда я создаю ресурс в кластере для dhcpd (ocf:heartbeat:dhcpd) то он отказывается запускаться.

Failed Actions:
* DHCPD_start_0 on node1 'not installed' (5): call=14, status=complete, exitreason='Could not fully initialize the runtime environment.'

Перешарил всё, нашёл, как исправили баг в старых версиях Pacemaker.

Директория chroot_path была не правильно обозначена.

Указываю, всё равно выдаёт эту ошибку.

Кусок кода с ресурса DHCPD:

      <primitive class="ocf" id="DHCPD" provider="heartbeat" type="dhcpd">
        <instance_attributes id="DHCPD-instance_attributes">
          <nvpair id="DHCPD-instance_attributes-config" name="config" value="/usr/local/etc/named.conf"/>
          <nvpair id="DHCPD-instance_attributes-binary" name="binary" value="/usr/local/sbin/dhcpd"/>
          <nvpair id="DHCPD-instance_attributes-user" name="user" value="dhcpd"/>
          <nvpair id="DHCPD-instance_attributes-leases" name="leases" value="/var/db/dhcpd.leases"/>
          <nvpair id="DHCPD-instance_attributes-pid" name="pid" value="/var/run/dhcpd/"/>
          <nvpair id="DHCPD-instance_attributes-chrooted_path" name="chrooted_path" value="/var/db/dhcp"/>
        </instance_attributes>
        <operations>
          <op id="DHCPD-monitor-interval-30s" interval="30s" name="monitor"/>
          <op id="DHCPD-start-interval-0s" interval="0s" name="start" timeout="20s"/>
          <op id="DHCPD-stop-interval-0s" interval="0s" name="stop" timeout="20s"/>
        </operations>
        <meta_attributes id="DHCPD-meta_attributes">
          <nvpair id="DHCPD-meta_attributes-target-role" name="target-role" value="Started"/>
        </meta_attributes>
      </primitive>

Куда копать? Есть люди которые с Pacemaker`ом на «ты»?

ОС FreeBSD 12.0

«pcs» нет на FreeBSD, всё ручками через «cibadmin» делается.

Если задаю параметр «chrooted» value=«false» выдаёт ошибку «'Could not fully initialize the runtime environment.»

 , ,

CoreeZz ()

Отказоустойчивый кластер на Freebsd

Всем привет. Поступила задача от руководства организовать отказоустойчивый кластер на FreeBSD.

Версия FreeBSD 12.0-RELEASE

Есть два роутера на которых крутится DHCP демон, то есть MySQL база. Необходимо организовать отказоустойчивость этих роутеров, так как умирает один, умирает маршрутизация. Раньше отказоустойчивость реализовывалось с помощью CARP, но перестала работать. Так как релизы и пакеты никто не обновлял, сказали с карпом не разбираться, а найти новый способ решения.

Изучал статьи по кластеризации во FreeBSD, ставил HAST+Heartbeat, но натолкнулся на такую проблему, как невозможность контролирования такой ситуации как split-brain автоматически.

Поэтому хотим сделать кластер из 4 серверов.

2 сервера - маршрутизаторы, еще 2 сервера - мозг кластера, который будет управлять кластерами.

Натолкнулся на статьи Pacemaker+corosync, но все решения на Centos, Debian и т.п., также там не описана возможность выноса отдельного «мозга» который будет контролировать состояние кластера.

Есть ли решения отказоустойчивых кластеров не переходя на другие OS?

Посоветуйте за что взяться, может кто знает хорошие статьи по кластеризации во FreeBSD. HAST+Heartbeat отсекается, HAST+CARP отсекается. Второй день брожу по тырнетам ничего годного найти не могу.

 , ,

CoreeZz ()

Pacemaker не запускает ресурсы jboss и pgsql

Привет парни!

Тестирую pacemaker на двух серверах.

На двух нодах стоит CentOS 7 x64

jdk-7u80-linux-x64 JBoss 7.1.1 Final Pgsql (PostgreSQL) 9.2.24

pcs --version 0.9.165

Настроил 3 ресурса. IPaddr2 работает без проблем. А вот с jboss и pgsql проблемы. При чем если их запустить командами

/bin/sh /usr/lib/ocf/resource.d/heartbeat/pgsql start /bin/sh /usr/lib/ocf/resource.d/heartbeat/jboss start

они работают, но pacemaker их не видит.

[root@centos-test1 heartbeat]# pcs status --all
Cluster name: test
Stack: corosync
Current DC: centos-test1 (version 1.1.19-8.el7_6.2-c3c624ea3d) - partition with quorum
Last updated: Wed Dec 26 06:58:21 2018
Last change: Wed Dec 26 06:07:27 2018 by root via cibadmin on centos-test1

2 nodes configured
3 resources configured

Online: [ centos-test1 centos-test2 ]

Full list of resources:

 virtual_ip     (ocf::heartbeat:IPaddr2):       Started centos-test1
 jboss  (ocf::heartbeat:jboss): Stopped
 pgsql  (ocf::heartbeat:pgsql): Stopped

Failed Actions:
* jboss_start_0 on centos-test1 'unknown error' (1): call=18, status=Timed Out, exitreason='',
    last-rc-change='Wed Dec 26 06:08:16 2018', queued=0ms, exec=20002ms
* pgsql_start_0 on centos-test1 'not configured' (6): call=15, status=complete, exitreason='',
    last-rc-change='Wed Dec 26 06:07:56 2018', queued=0ms, exec=115ms
* jboss_start_0 on centos-test2 'unknown error' (1): call=14, status=Timed Out, exitreason='',
    last-rc-change='Wed Dec 26 13:07:04 2018', queued=0ms, exec=20002ms


Daemon Status:
  corosync: active/enabled
  pacemaker: active/enabled
  pcsd: active/enabled
  

В ocf::heartbeat: были ошибки с переменными окружения, в файлах пришлось явно указывать:

# Initialization:

: /usr/lib/ocf/lib/heartbeat
. /usr/lib/ocf/lib/heartbeat/ocf-shellfuncs

#: ${OCF_FUNCTIONS_DIR=${OCF_ROOT}/lib/heartbeat}
#. ${OCF_FUNCTIONS_DIR}/ocf-shellfuncs

В логах corasync пишет:

( corasync.log )

Почему не работает не понимаю, подскажите где что посмотреть.

 , , , ,

zamzam ()

Настройка геокластера HA с pacemaker и stonith

Доброго дня суток!
Имеется следующая ситуация: необходимо с помощью pacemaker/stonith (RedHat7.5) построить High Availability геокластер, а именно имеются две виртуальные машины:
node1 находится в Vcenter1 в городе city1
node2 находится в Vcenter2 в городе city2
на обоих нодах крутится БД, в режиме Master/Slave соответственно, т.е. весьма критично не допустить Split-brain'a.

При падении node1 pacemaker поднимает node2 в режим Master и присваивает ему нужный виртуальный IP, при этом Stonith должен потушить node1 (чтобы если вдруг он сам поднимется\включится\станет доступным не произошел Split-brain).

Stonith делает это так - с node2 с помощью политики fence_vmware_soap подключается к Vcenter1 и тушит необходимую vm'ку (в нашем случае node1).

Все вроде бы логично. Но вот ЧТО ЕСЛИ теряется связь\канал до Vcenter1 и Stonith соответственно не может подать команду на тушение node1? отработает ли в этом случае pacemaker?(а именно поменяет роль с Slave на Master).
Подскажите как выкрутиться в этом случае?
Возможно есть какие-то обкатанные варианты? Заранее благодарю.

 ,

Sappper ()

создание High Availability кластера более чем с 2 нодами

Самая популярная конфигурация из 2 нод Active/Passive с последующей настройкой с Corosync/Pacemaker. А если нужно исп-ть к примеру 5 нод, нужно создавать две конфигурации c Active/Passive нодами: одну с 2 нодами и одну с 3 нодами или можно сразу исп-ть все 5 нод?

 , ,

gigantischer ()

1 ip, 2 сервера

Всем доброго времени суток. Нужно собрать кластер и обеспечить постоянную работу сервиса без внешнего балансировщика. Рассмативал варианы с pacemaker, corosync, heartbeat. Везде холиварят, кто-то пишет, что слишком тяжеловесное решение. Что можете посоветовать по личному опыту? Может, самописный скрипт будет лучше? Тогда на какие ресурсы опираться?

 , , , ,

Rot1 ()

Corosync + Pacemaker, оповещения для Администратора

Доброго дня!

Подскажите пожалуйста, существует ли возможность в Corosync\Pacemaker настроить оповещения для Администратора? Например, отказ ресурса, переезд ресурсов на другую ноду? И как это можно сделать?

 ,

aztec ()

Кластер pacemaker+corosync+pcs

Добрый день. Кластер работает все ок. Но при выключение двух нод, а затем включение master, сервисы на мастере не запускаются. Не подскажите как это поправить?

 , ,

volkmen ()

pacemaker: как узнать состояние конкретного ресурса на нужной ноде?

Добрый день!

Есть необходимость узнавать состояние ресурса, чтобы после на основании полученного результата запускать зависимый сервис, который должен запускаться без участия pacemaker.

Идея в следющем, проверять состояние ресурса в файле сервиса systemd в директиве PreStart. При удачной проверке запускать сервис!

Существует команда pcs resources show, которая выдает полный список ресурсов кластера, а вот узнать состояние требуемого ресурса на текущей ноде не представляется возможность, как я понял.

Может кто-то подскажет как можно это сделать! А то уже не знаю как гуглить))

 

dmnord ()

pacemaker: как убрать запуск клона ресурса без его предварительного останова

Доброго времени суток!

Настраиваю с помощью клонов независимые ресурсы на Pacemaker, которые работают на разных нодах.

Они запускают и работают, только есть одна не очень маленькая проблема!

При перезагрузке одной из нод кластера, клон ресурса перезагружаемой ноды помечается как Stopped. Все нормально! Только вот когда нода запустилась и пришло время ресурсу запуститься, клоны данного ресурса на других работающих нодах также выключаются, а после снова запускаются совместно друг с другом!

Все бы ничего, если бы не прописал order для последовательного запуска зависымых ресурсов и его клонов. И получается что все ресурсы кластера последовательно и веерно выключаются и включаются заново! :(

pcs resource create clvm ocf:heartbeat:clvm \
  op start start-delay="2s" interval="10s" timeout="5s" on-fail=restart \
  op stop  start-delay="2s" interval="10s" timeout="5s" on-fail=restart \
  op monitor interval="10s" timeout="10s" on-fail=restart 

pcs resource clone clvm interleave=true ordered=false clone-max=2 clone-node-max=1 globally-unique=true target-role=Started

pcs constraint colocation add clvm-clone with dlm-clone
pcs constraint order start dlm-clone then clvm-clone

pcs constraint location clvm-clone prefers node01.infra.local=INFINITY
pcs constraint location clvm-clone prefers node02.infra.local=INFINITY

 ,

dmnord ()

maxscale + pacemalker + corosync: не удается сократить время даунтайма

Привет, коллеги!

Есть две ноды c maxscale в pacemaker+corosync кластере.

На нодах настроены два ресурса: виртуальный IP, который переползает в случае падения ноды на другую, и собственно maxscale, который в случает падения процесса перезапускается, а в случае падения ноды - переползает на другую. Ресурсы объединены в группу, чтобы переключение обоих происходило синхронно и не получилось ситуации когда IP «припаркован» на одну ноду, а maxscale запущен на другой.

настройки кластера такие:

node 2887010140: maxscale1
node 2887010141: maxscale2
primitive MaxScale systemd:maxscale \
        op monitor interval=10s timeout=15s \
        op start interval=0 timeout=15s \
        op stop interval=0 timeout=30s
primitive maxscale_vip IPaddr2 \
        params ip=192.168.1.99 \
        op monitor interval=1s
group maxscale_service maxscale_vip
property cib-bootstrap-options: \
        have-watchdog=false \
        dc-version=1.1.16-94ff4df \
        cluster-infrastructure=corosync \
        cluster-name=debian \
        stonith-enabled=false \
        no-quorum-policy=ignore

Всё работает как часы. Но мне хочется уменьшить время дайндайма при падении процесса maxscale! Делаю (на первой ноде, которая сейчас «главная»)

crm resource stop MaxScale
crm configure delete MaxScale
crm configure primitive MaxScale systemd:maxscale op monitor interval="5s" timeout="15s" op start interval="0" timeout="15s" op stop interval="0" timeout="30s"

Сразу же в crm_mon вижу:

2 nodes configured
2 resources configured

Online: [ maxscale1 maxscale2 ]

Active resources:

 Resource Group: maxscale_service
     maxscale_vip       (ocf::heartbeat:IPaddr2):       Started maxscale1
MaxScale        (systemd:maxscale):     Started maxscale1

Failed Actions:
* MaxScale_start_0 on maxscale2 'not running' (7): call=10, status=complete, exitreason='none',
    last-rc-change='Thu Jul  6 11:03:15 2017', queued=0ms, exec=1575ms

Казалось бы, зачем второй ноде пытаться запустить maxcale если он уже работает на первой ноде.

При kill процесса maxscale на первой ноде он успешно перезапускается, быстрее чем раньше (т.к. op monitor interval=5s вместо 10). Но при падении первой ноды на вторую переползает IP, но maxscale не стартует:

* MaxScale_start_0 on maxscale2 'not running' (7): call=10, status=complete, exitreason='none',
    last-rc-change='Thu Jul  6 11:03:15 2017', queued=0ms, exec=1575ms

Где искать виновного? Наверняка значения op monitor interval < 10s допустимы, ведь maxscale_vip IPaddr2 прекрасно работает с op monitor interval=1s.

 , ,

dpronyaev ()

Pacemaker - тупит

Есть pacemaker в простейшей конфигурации (специально упростил максимально для отладки) - https://pastebin.com/5bEA35MU Грубо говоря - 11 клонов-пингов.

Проблема в том, что оно тупит при запуске и отработке событий, когда их много. Возникает ошибка типо такой

Transition aborted by status-1-FC83_SRC442_ping doing create FC83_SRC442_ping=0: Transient attribute change
В нижеприведенном логе показан процесс запуска вышеуказанной конфигурации (в данном случае - на одном хосте, но с двумя та же петрушка). Мы видим, как запускается примерно 4 ресурса, после этого Transition aborted, потом кластер ждет 20-30 секунд и запускает следующие 4 ресурса. И так далее. https://pastebin.com/rTFswGsr

Когда у тебя 500 ресурсов - это дело получается весьма медитативным. В данном случае пингуем несуществующие адреса. Если указать отвечающие - то все будет то же самое, разве что количество обработанных ресурсов до сбоя будет больше.

Подскажите, куда копать.

 

Davyd ()

Postgresql automatic failover Pacemaker+Corosync

Добрый день Centos 7, Postgresql-9.4, Pacemaker 1.1.13-10.el7_2.4, Corosync ,2.3.4-7.el7_2.3, 2 ноды При кратковременном пропадании линка на интерфейсе мастера ресурс сразу переносится на слэйв и делает его мастером. Есть ли у кого-нибудь опыт настройки таймаута или времени ожидания перед тем как переносить ресурс?

 , ,

franceg1d ()