Что нынче есть из реального универсального HA для Linux?

4

7

Что-то всё что попробовал - не впечатляет вообще.

Дано:
2 одинаковых железки.
1 гостевая система.

Надо:
чтобы гостевая система всегда была доступна и никогда не перезагружалась что бы ни происходило с одной из железок. Железки должны быть абсолютно равноправны - т.е. без разницы что из них сдохло и потом было поднято.

Самое приличное что удалось поднять - Xen+Remus+DRBD. Оно даже работает и даже никто не замечает что одна из тачек сдохла.

Но во-первых, имеются некислые проблемы с версиями ядер которые нужны Xen и DRBD. А во-вторых, есть очень некислые проблемы именно с поднятием умершей тачки - master-master в DRBD работает через задницу, миграция на поднятую машину автоматически не происходит и всё такое. В общем, при подключении второй машины весьма велика вероятность завалить гостя.

Кроме того, DRBD и прочие сильно разочаровали в тесте с выдёргиванием шнурка из винта (эмуляция сдыхания диска) - при этом часто херится содержимое диска и на нетронутой машине.

На самом деле VM не критична, в идеале вообще хотелось бы что-то типа kerrighed но без «головной» машины и чтобы при сдыхании одной ноды процессы c неё прозрачно мигрировали на другую.

В общем, вопрос такой - есть чо?

Ссылка

← скрипты sed

Странное поведение неизвестного каталога joomla в логе nginx →

proxmox полапай

tazhate ★★★★★
(15.12.13 23:51:45 MSK)

Ответ на: комментарий от tazhate 15.12.13 23:51:45 MSK

proxmox гогно

zed_0xff ★
(15.12.13 23:55:56 MSK)

Ответ на: комментарий от zed_0xff 15.12.13 23:55:56 MSK

proxmox гогно

proof or gtfo

tazhate ★★★★★
(15.12.13 23:57:03 MSK)

Ссылка

Ответ на: комментарий от tazhate 15.12.13 23:51:45 MSK

In simple words, if a virtual machine (VM) is configured as HA and the physical host fails, the VM is automatically restarted on one of the remaining Proxmox VE Cluster nodes.

А надо чтобы VM не рестартовала, а продолжала работать как ни в чём ни бывало. C Xen+Remus+DRBD мне удалось этого добиться, но вторая часть марлезонского балета, а именно включение умершей железки - сыра до безобразия.

Ну и работать должно на количестве машин от 1 до N.

Stanson ★★★★★
(15.12.13 23:59:08 MSK) автор топика
Последнее исправление: Stanson 16.12.13 00:00:17 MSK (всего исправлений: 2)

Ссылка

чтобы при сдыхании одной ноды процессы c неё прозрачно мигрировали на другую.

и чтобы нагрузка распараллеливалась сама, а программист палец о палец не ударил.

эх мечты, мечты.

dimon555 ★★★★★
(16.12.13 02:35:00 MSK)

Ээээ... %)

А если подыхает процессор в момент исполнения каких-то инструкций, или серверный мост в момент пересылки данных?

Chaser_Andrey ★★★★★
(16.12.13 02:52:26 MSK)

Ответ на: Ээээ... %) от Chaser_Andrey 16.12.13 02:52:26 MSK

А если подыхает процессор в момент исполнения каких-то инструкций, или серверный мост в момент пересылки данных?

И что? Штатная ситуация для серьёзных систем виртуализации вроде vSphere

router ★★★★★
(16.12.13 02:55:27 MSK)

Ссылка

HA
чтобы гостевая система всегда была доступна и никогда не перезагружалась что бы ни происходило с одной из железок

ЕМНИП, это уже не HA ( High Availability ), а FT ( Fault Tolerance )

router ★★★★★
(16.12.13 02:56:26 MSK)

Ответ на: комментарий от dimon555 16.12.13 02:35:00 MSK

чтобы при сдыхании одной ноды процессы c неё прозрачно мигрировали на другую.

и чтобы нагрузка распараллеливалась сама, а программист палец о палец не ударил.

эх мечты, мечты.

Ну как бы первое вполне работает, причём хорошо работает, единственное внешнее проявление такой автоматической миграции, если наблюдать за гостевой ОС посредством пинга и тупо вырубить ту тачку на которой гость живёт в данный момент - 1 пинг будет со временем около 100-200мс. Для подавляющего большинства сервисов это совершенно незаметно.

Распараллеливание нагрузки мне нафиг не надо.

Если бы не проблемы с подключением сдохшей ноды обратно - я б вообще счастлив был. А так получается что гостя спасли, и сдыхание машины никто не заметил, зато когда всё починили гость дохнет. Конечно можно и так пользовать, уже хорошо, что останавливать сервис можно будет планово, а не рвать волосню на заднице когда внезапно сдохла машина, но если уж это удалось реализовать - то отчего бы не сделать всё по-уму до конца?

Stanson ★★★★★
(16.12.13 03:00:03 MSK) автор топика

Ответ на: комментарий от router 16.12.13 02:56:26 MSK

ЕМНИП, это уже не HA ( High Availability ), а FT ( Fault Tolerance )

Ну как бы FT приводит к HA :) Терминологические тонкости в данный момент не сильно важны.

Stanson ★★★★★
(16.12.13 03:01:43 MSK) автор топика

Ответ на: комментарий от Stanson 16.12.13 03:00:03 MSK

А если вместо master-master DRDB попробовать общий storage ( хотя бы iscsi ) и кластерную ФС?

router ★★★★★
(16.12.13 03:02:01 MSK)

Ответ на: комментарий от router 16.12.13 03:02:01 MSK

А если вместо master-master DRDB попробовать общий storage ( хотя бы iscsi ) и кластерную ФС?

А как? DRDB на обоих машинах даёт один и тот же /dev/drdb который в свою очередь физически располагается на 2-х машинах и в общем-то синхронизирован. Remus, грубо говоря, постоянно копирует состояние памяти и процессора VM на другую тачку. При сдыхании той тачки, на которой живёт VM, вторая стартует VM у себя с момента последней синхронизации. А диск уже есть, тот же самый /dev/drbd

Как то же самое сделать в случае iSCSI? Чтобы диск на обоих машинах был один и тот же, но располагался на двух в виде зеркала. И чтобы никакого master-slave не было, чтоб физические диски были равноценными.

Stanson ★★★★★
(16.12.13 03:12:15 MSK) автор топика

Ссылка

Ответ на: комментарий от zed_0xff 15.12.13 23:55:56 MSK

утраиваю, proxmox для инвалидов.

vxzvxz ★★★
(16.12.13 10:32:36 MSK)

Ссылка

Ответ на: комментарий от Stanson 16.12.13 03:01:43 MSK

Ну как бы FT приводит к HA :) Терминологические тонкости в данный момент не сильно важны.

Это не просто терминологические тонкости, там адское падение перформанса и ЕМНИП только с одним vCPU машину можно делать с FT

af5 ★★★★★
(17.12.13 16:39:02 MSK)

Ответ на: комментарий от af5 17.12.13 16:39:02 MSK

Это не просто терминологические тонкости, там адское падение перформанса и ЕМНИП только с одним vCPU машину можно делать с FT

Перформанс сильно зависит от частоты с которой remus копирует состояние на другую машину. При периодичности 100мс у меня производительность падает процентов на 30-40. Что в общем-то не так уж и страшно и является вполне приемлемой ценой за неубиваемость. А vCPU - пофиг, хоть все что есть.

Stanson ★★★★★
(17.12.13 20:55:45 MSK) автор топика