Отказоустойчивость веб-серверов.

Load balancer and Health checks.

http://nginx.org/en/docs/http/load_balancing.html

vvn_black ★★★★★
(23.06.19 20:49:35 MSK)

Ссылка

На уровне DNS - можешь потыкать PowerDNS с его LUA-записями, или gdnsd.

deadNightTiger ★★★★★
(23.06.19 20:53:02 MSK)

Ссылка

Гугли «Round robin DNS». У домена две одноимённые записи типа A, в первой IP первого сервера, во второй — второго. DNS сервер возвращает оба адреса меняя их порядок. Клиенты сначала пытаются подключиться к первому IP, если не получается то пытаются подключиться ко второму (кажется это поведение не стандартизировано). Это наверное самый простой вариант достижения отказоустойчивости

MrClon ★★★★★
(23.06.19 20:57:34 MSK)

Ответ на: комментарий от MrClon 23.06.19 20:57:34 MSK

кажется это поведение не стандартизировано

Да. Я не находил список браузеров, но в хроме пишут, что работает. IE7 будет запрашивать новый сервер только спустя полчаса.

Алсо два первых совета в теме, хотя и правильные, это может быть не совсем то, что нужно автору.

goingUp ★★★★★
(23.06.19 21:06:06 MSK)
Последнее исправление: goingUp 23.06.19 21:07:12 MSK (всего исправлений: 1)

Ответ на: комментарий от goingUp 23.06.19 21:06:06 MSK

Верно , хочется надежного решения быть может путем нескольких ns ?

Rebbit ★
(23.06.19 21:09:41 MSK) автор топика

Ответ на: комментарий от Rebbit 23.06.19 21:09:41 MSK

Дешёвого надёжного решения нет.

turtle_bazon ★★★★★
(23.06.19 21:32:55 MSK)

Ссылка

Ну какая ещё отказоустойчивость на уровне DNS, ну о чём вы.
Только кластеризация и плавающие адреса спасут отца русской демократии.
В нормальном состоянии каждый адрес висит на своей ноде, в случае отказа одной ноды адрес переплывает на оставшуюся рабочую ноду.

Совет про балансировщик норм, но если он является SPoF(единая точка отказа) то в случае его выхода из строя весь сервис падает, даже если у тебя при этом обе ноды живы.

zolden ★★★★★
(23.06.19 21:34:39 MSK)

Ответ на: комментарий от goingUp 23.06.19 21:06:06 MSK

Когда я в последний раз интересовался оно работало во всех актуальных браузерах. Оно было давно, но не настолько давно чтобы IE7 считался актуальным

MrClon ★★★★★
(23.06.19 22:06:57 MSK)

Ссылка

Ответ на: комментарий от zolden 23.06.19 21:34:39 MSK

В нормальном состоянии каждый адрес висит на своей ноде, в случае отказа одной ноды адрес переплывает на оставшуюся рабочую ноду

И это будет работать только в контексте одного свитча/ДЦ?

deep-purple ★★★★★
(23.06.19 23:38:32 MSK)

Ответ на: комментарий от deep-purple 23.06.19 23:38:32 MSK

в самом простом и тупом варианте - в пределах одного vlan, но можно и между цодами (см VXLAN/EVPN)

user_undefined ★★
(24.06.19 00:38:26 MSK)

Ответ на: комментарий от user_undefined 24.06.19 00:38:26 MSK

Вариант «в одном шкафу» даже не рассматриваем. А канал «между цодами» будет единой точкой отказа. Смысл?

deep-purple ★★★★★
(24.06.19 01:02:36 MSK)

Ответ на: комментарий от deep-purple 24.06.19 01:02:36 MSK

Варианты?

zolden ★★★★★
(24.06.19 08:52:52 MSK)

Ответ на: комментарий от zolden 24.06.19 08:52:52 MSK

Если один IP плавает между двумя серверами в разных ЦОД, то с маршрутизацией к нему проблем не будет?

The_Ketchup ★★
(24.06.19 09:42:23 MSK)

Ответ на: комментарий от The_Ketchup 24.06.19 09:42:23 MSK

Можешь почитать об опыте LinkedIn: https://engineering.linkedin.com/network-performance/tcp-over-ip-anycast-pipe...

deadNightTiger ★★★★★
(24.06.19 09:56:11 MSK)

Ссылка

Ответ на: комментарий от The_Ketchup 24.06.19 09:42:23 MSK

Если он так запросто плавает, то тут видимо всего замешана динамическая маршрутизация и собственная AS.
Если всё так по-взрослому то наверное стоит смотреть в сторону Anycast и BGP и не париться кластеризацией.

zolden ★★★★★
(24.06.19 09:57:36 MSK)

Ответ на: комментарий от zolden 24.06.19 08:52:52 MSK

Ды вот сам ищу.

deep-purple ★★★★★
(24.06.19 10:48:36 MSK)

Ссылка

Ответ на: комментарий от zolden 24.06.19 09:57:36 MSK

Anycast и BGP

Кажись оно. Спс!

deep-purple ★★★★★
(24.06.19 11:00:49 MSK)

Ссылка

Ответ на: комментарий от zolden 24.06.19 09:57:36 MSK

А подскажите, как быстро при использовании BGP AnyCast вычистится маршрут к сдохшему узлу? Просто интересно, спасибо.

The_Ketchup ★★
(24.06.19 12:45:57 MSK)
Последнее исправление: The_Ketchup 24.06.19 12:46:35 MSK (всего исправлений: 1)

Ссылка

Нормально решить вопрос отказоустойчивости для веба на сегодня можно решить только через собственную AS.

anonymous
(24.06.19 13:05:46 MSK)

Ссылка

Ответ на: комментарий от deep-purple 24.06.19 01:02:36 MSK

ну так каналы между цодами должны быть задублированы, это как бы само по себе подразумевается

user_undefined ★★
(25.06.19 10:38:51 MSK)

Ответ на: комментарий от user_undefined 25.06.19 10:38:51 MSK

Ну так соскИ для подключения каналов выдают в тех же цодах. Если в цоде проблемы с лектричеством, сетью, то и с соскАми тоже проблемы. Вот смысл?

deep-purple ★★★★★
(25.06.19 11:17:30 MSK)

Ответ на: комментарий от deep-purple 25.06.19 11:17:30 MSK

У нас, например, темная оптика никак не касается самого цода, подключается напрямую в наше оборудование, проблемы сети самого цода нас никак не касаются.

Вот смысл?

Смысл как раз защититься либо от полной потери цода, либо от потери аплинков в одном цоде. В случае проблем сервис будет прекрасно доступен через второй цод.

user_undefined ★★
(25.06.19 20:32:15 MSK)

Ответ на: комментарий от user_undefined 25.06.19 20:32:15 MSK

т.е. не в каждом цоде можно договориться так удобно, да? и еще, а что толку в нецодовской своей личной сиське? оно ж электричество то цодовское так и так юзать будет...

deep-purple ★★★★★
(26.06.19 02:14:35 MSK)

Ответ на: комментарий от deep-purple 26.06.19 02:14:35 MSK

т.е. не в каждом цоде можно договориться так удобно

в боле-менее крупных цодах найти того, кто продаст темную оптику совсем не проблема, были бы деньги.

и еще, а что толку в нецодовской своей личной сиське?

не, ну если один сервак, да к тому же еще и арендованый, то толку нет. А если арендуются десятки стоек, то и никакого цодовского оборудования нет, все свое, включая циски.

оно ж электричество то цодовское так и так юзать будет

Ну и пусть. В любом нормальном цоде есть и резервирование каналов, и дизели. Ну а если все совсем плохо стало - тогда второй цод и включится в работу.

user_undefined ★★
(26.06.19 22:08:45 MSK)

Ответ на: комментарий от MrClon 23.06.19 20:57:34 MSK

С RR DNS есть вопросы, как ты будешь синхронизировать куки.

Кроме того, если один из серверов умрет, то его IP от этого не перестанет отдаваться пользователям, что приведет к тому, что половина запросов будет уходить в никуда -> увеличивается время отклика -> пользователи недовольны.

~~CaveRat~~ ★★
(27.06.19 10:25:24 MSK)

Ответ на: комментарий от zolden 23.06.19 21:34:39 MSK

Совет про балансировщик норм, но если он является SPoF(единая точка отказа) то в случае его выхода из строя весь сервис падает, даже если у тебя при этом обе ноды живы.

Во-первых, никто не запрещает сделать HA LB :) Кроме того, если использовать железный балансер (хотя это явно не случай ТС-а) - можешь посмотреть MTBF и посчитать вероятность отказа в заданный период.

~~CaveRat~~ ★★
(27.06.19 10:29:15 MSK)

Ссылка

Ответ на: комментарий от CaveRat 27.06.19 10:25:24 MSK

С RR DNS есть вопросы, как ты будешь синхронизировать куки.

Справедливо для любого варианта резервирования или распределения нагрузки без SPoF. Будут какие-то данные которые надо синхронизировать между нодами. Сессионные данные тут меньшая из проблем.

Конкретно куки синхронизировать не надо, куки на клиенте. Привязку session id к пользователю можно хранить в самих куках (грубо говоря session_id=$username+sha($username+$secret+$date))

Кроме того, если один из серверов умрет, то его IP от этого не перестанет отдаваться пользователям, что приведет к тому, что половина запросов будет уходить в никуда -> увеличивается время отклика -> пользователи недовольны.

Я и не говорил что решение идеально. Это лучше чем SPoF умер, все запросы отправились в ад, пользователи негодуют. Схему можно улучшить используя A записи с низким TTL и свой DNS сервер отслеживающий состояние фронтэндов и выкидывающий лежащие из ротации. Но слишком сильно уменьшать TTL доменных записей не стоит, да и всегда найдутся DNS сервера которые закешируют на сутки запись с TTL в 10 минут, так что RR всё-равно нужен

MrClon ★★★★★
(27.06.19 11:02:28 MSK)

Ответ на: комментарий от MrClon 27.06.19 11:02:28 MSK

Справедливо для любого варианта резервирования или распределения нагрузки без SPoF. Будут какие-то данные которые надо синхронизировать между нодами. Сессионные данные тут меньшая из проблем.

Согласен, только почему SPoF-то? Балансировщики умеют делать отказоустойчивость!

Я и не говорил что решение идеально. Это лучше чем SPoF умер, все запросы отправились в ад, пользователи негодуют. Схему можно улучшить используя A записи с низким TTL и свой DNS сервер отслеживающий состояние фронтэндов и выкидывающий лежащие из ротации. Но слишком сильно уменьшать TTL доменных записей не стоит, да и всегда найдутся DNS сервера которые закешируют на сутки запись с TTL в 10 минут, так что RR всё-равно нужен

Это все, извините, костыли.

~~CaveRat~~ ★★
(27.06.19 11:43:37 MSK)

Ответ на: комментарий от CaveRat 27.06.19 11:43:37 MSK

Согласен, только почему SPoF-то? Балансировщики умеют делать отказоустойчивость!

Если балансировщик один то он SPoF, если их более одного то между ними нужно как-то балансировать трафик. Например с помощью DNS RR. Есть конечно и другие варианты (anycast routing например), но они более требовательны к сетапу. Для DNS RR достаточно двух серверов (или VPS, или шаред-хостингов :) и примерно любого DNS хостинга, и можно улучшать по мере необходимости.

И у меня сложилось впечатление что у ТСа сейчас нет ресурсов (материальных, человеческих) что бы мутить что то сильно сложнее простейшей версии DNS RR. Разве-что его провайдер предоставляет собственную баллансировку-как-сервис

MrClon ★★★★★
(27.06.19 12:05:07 MSK)

Ответ на: комментарий от MrClon 27.06.19 12:05:07 MSK

Если балансировщик один то он SPoF, если их более одного то между ними нужно как-то балансировать трафик. Например с помощью DNS RR. Есть конечно и другие варианты (anycast routing например), но они более требовательны к сетапу.

Между балансировщиками не обязательно делать балансировку, хватит отказоустойчивости, которой можно добиться тем же VRRP, который поддерживают, по моему, вообще все. А у больших балансировщиков есть свои внутренние механизмы кластеризации.

И у меня сложилось впечатление что у ТСа сейчас нет ресурсов (материальных, человеческих) что бы мутить что то сильно сложнее простейшей версии DNS RR. Разве-что его провайдер предоставляет собственную баллансировку-как-сервис

Ну да. LBaaS сейчас многие делают.

~~CaveRat~~ ★★
(27.06.19 13:08:10 MSK)

Ответ на: комментарий от CaveRat 27.06.19 13:08:10 MSK

можно добиться тем же VRRP

Сервера должны быть в одной сети, и на сколько я понимаю нужна какая-то дополнительная поддержка со стороны сети. Как минимум IP не должен быть прибит к порту свича. ТС не сообщил почти никаких подробностей, так что мы даже не можем быть уверены что сервера в одном ДЦ.

Да и вообще ТС пропал куда то

MrClon ★★★★★
(27.06.19 13:16:54 MSK)

Ответ на: комментарий от MrClon 27.06.19 13:16:54 MSK

на сколько я понимаю нужна какая-то дополнительная поддержка со стороны сети. Как минимум IP не должен быть прибит к порту свича.

IP?? К порту свитча? Свитч, как правило, про IP не думает, он думает про MAC, а они у серверов будут разные.

ТС не сообщил почти никаких подробностей, так что мы даже не можем быть уверены что сервера в одном ДЦ

Если они у ТСа в разных ЦОДах, то тут уже надо думать про GSLB, который делается очень по-разному на разных решениях.

~~CaveRat~~ ★★
(27.06.19 13:33:09 MSK)

Ответ на: комментарий от CaveRat 27.06.19 13:33:09 MSK

IP?? К порту свитча? Свитч, как правило, про IP не думает, он думает про MAC, а они у серверов будут разные.

За пределами домашних сеток клиентов друг от друга стараются изолировать, так или иначе

MrClon ★★★★★
(27.06.19 13:42:09 MSK)

Ответ на: комментарий от MrClon 27.06.19 13:16:54 MSK

ТС не сообщил почти никаких подробностей

Да и вообще ТС пропал куда то

Кмк, у него защита на носу. Он еле-еле успел раздел по отказоустойчивости дописать. )

vvn_black ★★★★★
(27.06.19 13:44:20 MSK)

Ответ на: комментарий от vvn_black 27.06.19 13:44:20 MSK

ХЗ, мне так не показалось

MrClon ★★★★★
(27.06.19 13:51:14 MSK)

Ответ на: комментарий от user_undefined 26.06.19 22:08:45 MSK

если все совсем плохо стало - тогда второй цод и включится в работу

Эт смотря в каком цоде фронтальная сиська. Может стать что никакой уже не включится — по факту пашут, а сетки до них нет.

deep-purple ★★★★★
(27.06.19 13:59:56 MSK)

Ответ на: комментарий от MrClon 27.06.19 13:42:09 MSK

Это прекрасно, к чему это было? Узлы VRRP находятся в одной сети, они, условно, подключены к одному коммутатору. Просто в какой-то момент времени на vIP отвечает первый узел, в случае его отказа - второй. При чем тут изоляция?

~~CaveRat~~ ★★
(27.06.19 14:25:52 MSK)

Ответ на: комментарий от MrClon 27.06.19 13:51:14 MSK

ХЗ, мне так не показалось

Да, посмотрел активность ТСа, скорее не студент, чем обратное. Но проблемы поднимает довольно специфичные.

vvn_black ★★★★★
(27.06.19 14:30:39 MSK)
Последнее исправление: vvn_black 27.06.19 14:34:14 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от CaveRat 27.06.19 14:25:52 MSK

К тому что в норме сеть не позволит узлу А получать трафик адресованный на IP привязанный к узлу Б. Сеть должна знать что эти два узла и этот vIP принадлежат одному клиенту и vIP может мигрировать между этими узлами. Иначе что помешает хосту другого клиента анонсировать этот vIP и забрать себе твой трафик? т.е. это отдельная услуга от ДЦ, которую он может и не предоставлять

MrClon ★★★★★
(27.06.19 14:34:51 MSK)

Ответ на: комментарий от MrClon 27.06.19 14:34:51 MSK

В норме коммутатор вообще не знает, что такое IP-адрес. Он оперирует mac-ами. Которые, в случае VRRP, никуда не мигрируют.

Сеть должна знать что эти два узла и этот vIP принадлежат одному клиенту и vIP может мигрировать между этими узлами. Иначе что помешает хосту другого клиента анонсировать этот vIP и забрать себе твой трафик?

arp inspection - это очень круто, ровно до тех пор, пока не приходится это поддерживать. Проще ограничить и контролировать узлы, которые находятся в защищаемом vlan-е, чем такое городить.

~~CaveRat~~ ★★
(27.06.19 15:13:20 MSK)

Ответ на: комментарий от CaveRat 27.06.19 15:13:20 MSK

Зачем обязательно arp inspection? Да хотя бы и теми же vlan-ами можно: по одному vlan на клиентский порт, все вланы втыкаются в роутер в который система управления конфигурацией вливает правила какой IP в какой vlan роутить

MrClon ★★★★★
(27.06.19 16:08:29 MSK)

Ответ на: комментарий от MrClon 27.06.19 16:08:29 MSK

Это отличная конфигурация (без сарказма), только в ней vrrp не заработает - все интерфейсы vrrp должны быть в одной сети.

~~CaveRat~~ ★★
(27.06.19 16:28:08 MSK)

Ответ на: комментарий от CaveRat 27.06.19 16:28:08 MSK

Так я с того и начал

MrClon ★★★★★
(27.06.19 16:33:46 MSK)

Ссылка

Ответ на: комментарий от deep-purple 27.06.19 13:59:56 MSK

Так в том то и фишка, в случае сбоя адреса будут анонсироваться и доступны через другой цод и соответственно другую циску. Тут уже выше писали про динамическую маршрутизацию. Но да, нужна своя AS. Для мелких проектов из двух серверов - явный перебор, но для чего-то боле-менее крупного вполне приемлемо.

user_undefined ★★
(27.06.19 21:39:20 MSK)

Ссылка

Че то в дебри уходим :)) итак еще раз у нас есть 2IP адреса (в разных местах) за которыми сидят ->pfsense->nginx (отдельными виртуалками )со статикой по сути они просто прокси без бд и так далее , неужели нету нормального адекватного способа смастерить нормальную отказоустойчивость ? Прошу прощения но я просто в ступоре как бы это правильно реализовать :)

Rebbit ★
(29.06.19 02:05:43 MSK) автор топика

Ответ на: комментарий от Rebbit 29.06.19 02:05:43 MSK

Делаешь две A днс записи на два айпи, и... готово

goingUp ★★★★★
(29.06.19 12:46:31 MSK)
Последнее исправление: goingUp 29.06.19 12:46:49 MSK (всего исправлений: 1)

Ответ на: комментарий от goingUp 29.06.19 12:46:31 MSK

Это получается Round Robin и если 1IP адрес становиться недоступным то пользователи все равно на него могут попасть .... А ресурс будет недоступным .

Rebbit ★
(29.06.19 18:48:54 MSK) автор топика

Ответ на: комментарий от Rebbit 29.06.19 02:05:43 MSK

Вот в соседней теме писали про Cloudflare Доступность сервисов из разных ДЦ (комментарий)
Сам не пробовал.

anc ★★★★★
(29.06.19 21:17:15 MSK)

Ответ на: комментарий от anc 29.06.19 21:17:15 MSK

А вот CoudFlare интересно я совсем забыл про него :) , посмотрю че не будь не дорогое потом отпишусь как оно .

Rebbit ★
(29.06.19 22:13:13 MSK) автор топика

Ответ на: комментарий от Rebbit 29.06.19 18:48:54 MSK

если 1IP адрес становиться недоступным то пользователи все равно на него могут попасть

Смогут, говорили же уже в теме

goingUp ★★★★★
(29.06.19 22:42:39 MSK)

Похожие темы