Переключение версии сайта со staging на production с 0 downtime, как?

1

3

Есть сайт, работающий на одном хосте/машине, больше хостов нет (используется VPS/VDS). Сайт работает на базе php-fpm + mysqld + nginx, используется только одна база MySQL. PHP-исходники, которые обрабатывают текущие запросы лежат в папке /site/production. На хост была залита др. папка - /site/staging с новой версией исходников.

Теперь нужно:
1. Применить апдейт для БД в виде .sql-скриптов, которые могут поменять структуру таблиц базы.
2. Переключить nginx на новую версию исходников, т.е. с /site/production на /site/staging.

Эти два пункта нужно сделать одновременно, так, чтобы юзеры это вообще не заметили, ниодного HTTP-запроса не прервалось, т.е. с 0 downtime и connection draining.

Переключить root можно с помощью команды nginx reload и таким образом переключиться с /site/production на /site/staging. Проблема в том, что /site/staging зависит от скриптов апдейта БД - нужно вначале применить их, иначе .php-скрипты в /site/staging не будут работать. Если же вначале применить скрипты апдейта БД, то сайт некоторое время будет недоступен, потому как Nginx будет использовать старые исходники /site/production какое-то время, до полного переключения на /site/staging.

Как это можно сделать? Можно ли это сделать без введения второго хоста в строй? Если нет, как это делается в случае с двумя или более хостами? Можно ли обойтись без репликации MySQL?

Я полагаю, что для 0 downtime и connection draining нужна репликация MySQL: на slave применяются апдейты, нужные для /site/staging и затем переключаются через DNS, так ли это?

В общем, кто уже строил HA кластеры или имеет опыт для одного хоста переключения с 0 downtime сайта как вы это делаете или это можно сделать? Хотелось бы обойтись без введения второго хоста, если возможно.

Перемещено leave из web-development

Ссылка

← 3proxy помощь в настройке

Консольная тулза для проксирования http / tcp →

← 1 2 →

Если старый код сможет работать с новой схемой данных и умеет read-only, то через реплику. Если ответ на оба предположения «нет», то никак.

leave ★★★★★
(11.07.16 20:37:11 MSK)

Ссылка

@leave, старый код умеет частично работать с новой схемой, некоторые части сайта сломаются, если не сделать ALTER TABLE и UPDATE для некоторых таблиц. Но можно считать, что не умеет.

Ещё поясню, чтобы стало понятнее:многие сайты как-то обновляются без страницы 503 (503 Service Unavailable) и отказов в обслуживании. Нужно сделать так же, с 0 downtime, без введения второго хоста, если возможно.

ProtoH
(11.07.16 20:56:00 MSK) автор топика

Как это можно сделать? Можно ли это сделать без введения второго хоста в строй?

Если после наката скрипта на БД старая версия отъедет то в общем случае никак, даже с введением второго хоста.

ya-betmen ★★★★★
(11.07.16 21:00:43 MSK)

Ссылка

Ответ на: комментарий от ProtoH 11.07.16 20:56:00 MSK

В общем случае задача обновления монолитного проекта с миграциями БД и без даунтайма нерешаема.

leave ★★★★★
(11.07.16 21:31:37 MSK)

Ответ на: комментарий от leave 11.07.16 21:31:37 MSK

Как понять монолитного? Исходя из ваших ответов делаю вывод что нужен обязательно второй хост, правильно ли я понял вас?

Уточню основную проблему: рассмотрим 3 случая обновления:

Если вначале применить .sql-скрипты миграции, но оставить старый код, то некоторые или даже все HTTP запросы будут обработаны с ошибкой, т.к. старые .php-скрипты рассчитаны на старую структуру БД.
Если вначале обновить код сайта, но не применять .sql скрипты миграции и оставить старую структуру БД, то опять же некоторые или даже все HTTP запросы будут обработаны с ошибкой, т.к. новые .php-скрипты рассчитаны на новую структуру БД.
Если обновить одновременно .php-скрипты и применить .sql-скрипты миграции, то всё должно работать, но проблема в том как сделать это с 0 downtime. Тут приходит на ум такое решение:
1) Сделать реплику/копию БД на новом сервере, например, с id == 2, назовём эту БД stage, и настроить так, чтобы все изменения из основной БД попадали и в БД stage.
2) Применить скрипты миграции для stage.
3) Переписывать каким-то образом SQL-запросы поступающие от основного сервера к серверу c id == 2, так, чтобы они учитывали изменения скриптов миграции, например, колонка user.pass была переименована в user.password, соответственно нужно перехватывать и переписывать все SQL-запросы, чтобы они использовали колонку user.password.
4) Настроить Nginx, например так, чтобы он использовал новый код .php и был доступен по домену staging.$domain. Этот сайт должен быть настроен на сервер c id == 2, т.е. работать с новой БД.
5) Переключиться на новую версию staging.$domain с помощью nginx reload.

Есть сомнения, что nginx reload даст 0 downtime, но нужно попробовать. Используется ли кем-либо такая схема переключения на новую версию? Есть ли тут какие-либо недостатки? Есть ли др. варианты?

ProtoH
(11.07.16 22:50:05 MSK) автор топика

0. Повесить на сайте красивую табличку родом из 2000х «Сайт на обслуживании» 1. Применить апдейт для БД в виде .sql-скриптов, которые могут поменять структуру таблиц базы. 2. Переключить nginx на новую версию исходников, т.е. с /site/production на /site/staging. 3. Убрать красивую табличку.

Я уверен, что требование переключение с нулевым простоем вызвано скорее переоценкой важности и крутости сайта, чем необходимостью. Небось не систему автоматизации работы авиадиспетчера делаете или управления атомной станцией))

~~Alve~~ ★★★★★
(11.07.16 22:57:11 MSK)

Ответ на: комментарий от Alve 11.07.16 22:57:11 MSK

Сейчас так и делается.

ProtoH
(11.07.16 23:06:42 MSK) автор топика

Ссылка

Ответ на: комментарий от ProtoH 11.07.16 22:50:05 MSK

Свистни как решишь задачу под п.3

leave ★★★★★
(12.07.16 00:54:05 MSK)

Ссылка

Ответ на: комментарий от ProtoH 11.07.16 22:50:05 MSK

Есть сомнения, что nginx reload даст 0 downtime

Не сомневайся: master спавнит новые воркеры, а старые дорабатывают текущие соединения. Это самое надежное.

3) Переписывать каким-то образом SQL-запросы поступающие от основного сервера к серверу c id == 2, так, чтобы они учитывали изменения скриптов миграции, например, колонка user.pass была переименована в user.password, соответственно нужно перехватывать и переписывать все SQL-запросы, чтобы они использовали колонку user.password.

mysqlproxy

Вообще если разрешено править исходники проекта, можно реализовать почти все, что душе угодно.

kawaii_neko ★★★★
(12.07.16 01:07:36 MSK)

Ответ на: комментарий от kawaii_neko 12.07.16 01:07:36 MSK

Не сомневайся: master спавнит новые воркеры, а старые дорабатывают текущие соединения. Это самое надежное.

Спасибо, понял.

mysqlproxy

Ок, гляну ;)

ProtoH
(12.07.16 02:27:06 MSK) автор топика

Ссылка

BlueGreenDeployment.
Зачем вы ломаете схему БД для старой версии сайта?

winlook38 ★★
(12.07.16 08:43:39 MSK)

1. Поднимаем копию боевой БД на том же сервере БД.
2. Накатываем SQL-скрипты.
3. В новом инстансе приложения изменяем имя БД в конфиге.
4. Добавляем конфиг в nginx для нового инстанса приложения для теста работоспособности, пока боевой инстанс обрабатывает текущие запросы (опциональный пункт).
5. Изменяем конфиг nginx для работы с новой версией приложения, затем nginx reload
6. Profit

Но все это реализуемо, если позволяют ресурсы хоста/СУБД.

blackst0ne ★★★★★
(12.07.16 12:21:01 MSK)

Ответ на: комментарий от ProtoH 11.07.16 20:56:00 MSK

Нужно сделать так же, с 0 downtime, без введения второго хоста, если возможно.

Поднимаешь копию проекта там же, обновляешь, смотришь работает ли, nginx reload, удаляешь старый.

Deleted
(12.07.16 12:35:19 MSK)

Ссылка

Ответ на: комментарий от blackst0ne 12.07.16 12:21:01 MSK

При таком подходе в копии БД не будет записей, которые появятся в оригинальной БД пока будет вестись тестирование.

ProtoH
(12.07.16 14:24:30 MSK) автор топика

Ответ на: комментарий от winlook38 12.07.16 08:43:39 MSK

В новой схеме могут быть исправлены косяки старой схемы + добавлены новые колонки, таблицы, и др. сущности БД.

ProtoH
(12.07.16 14:28:42 MSK) автор топика

Ответ на: комментарий от ProtoH 12.07.16 14:24:30 MSK

Можно повесить триггеры на оригинальные таблицы, которые будут соответствующим образом вставлять(менять) данные в новой базе. Поверхностный гуглеж говорит о том, что можно сделать триггер на другую БД.

swelf ★
(12.07.16 14:49:26 MSK)
Последнее исправление: swelf 12.07.16 14:49:53 MSK (всего исправлений: 1)

Ответ на: комментарий от swelf 12.07.16 14:49:26 MSK

Судя по описанию, там монолитный кусок гомна на пыхе. Что-то я очень сомневаюсь, что эти люди осилят написать эти триггеры. А потом их придется переписывать под каждую новую версию приложения, в которой есть миграции.

Короче, это все костыли, здесь надо менять подходы к разработке и деплою.

leave ★★★★★
(12.07.16 14:55:05 MSK)

Ссылка

Ответ на: комментарий от ProtoH 12.07.16 14:24:30 MSK

И что, лок базы на insert/update неприемлем?

blackst0ne ★★★★★
(12.07.16 14:58:41 MSK)

Ссылка

Вообще, что это за приложение такое, для которого секунды простоя - это бизнес критикал?

blackst0ne ★★★★★
(12.07.16 15:00:50 MSK)

Ссылка

Ответ на: комментарий от ProtoH 12.07.16 14:28:42 MSK

Это все понятно. Вопрос в том, зачем вы ломаете схему БД для старой версии, а не исправляете схему таким образом, чтобы работали обе версии? Приведи мне пример, когда для исправления ошибки нужно сломать схему.

Мы не используем подход BlueGreenDeployment, но мы так же поддерживаем валидность схемы для версии n-1 именно для уменьшения времени даунтайма.
Схема такая: поднимаешь реплику; апдейтишь ее; если нужно, прогоняешь тесты; докатываешь на нее WAL (он накатывается, т.к. схема валидна для старой версии); переключаешься на реплику.

Но у нас без даунтайма не получается по некоторым причинам. Тебе, возможно, удастся упростить схему: апдейтишь схему; поднимаешь новый сервер приложения; переключаешься на него (сам придумаешь стратегию насчет пользовательских сессий и прочего, если нужно).

winlook38 ★★
(12.07.16 15:39:25 MSK)

с 0 downtime

работающий на одном хосте/машине

как?

Никак. Вернее способ есть - раскидать все по микросервисам и поднять docker :)

Создать по два контейнера, два БД, два приложения. nginx в качестве роутера/балансировщика. Все.

robot12 ★★★★★
(12.07.16 16:14:29 MSK)
Последнее исправление: robot12 12.07.16 16:16:27 MSK (всего исправлений: 2)

Ответ на: комментарий от leave 11.07.16 21:31:37 MSK

Решаема, с контейнерами.

robot12 ★★★★★
(12.07.16 16:17:39 MSK)

Ответ на: комментарий от robot12 12.07.16 16:17:39 MSK

В общем случае задача обновления монолитного проекта с миграциями БД и без даунтайма нерешаема.
Решаема, с контейнерами.

Расскажи, как контейнеры помогут в случае _монолитного_ сервиса.

tailgunner ★★★★★
(12.07.16 16:21:44 MSK)
Последнее исправление: tailgunner 12.07.16 16:21:57 MSK (всего исправлений: 1)

Ответ на: комментарий от tailgunner 12.07.16 16:21:44 MSK

Контейнер - монолитный сервис 1 шт. + Контейнер СУБД 1 шт. Перед ними балансировщик HTTP (nginx)

robot12 ★★★★★
(12.07.16 16:41:28 MSK)

Ответ на: комментарий от robot12 12.07.16 16:41:28 MSK

Чот я схему не улавливаю. Зачем здесь контейнеры?

leave ★★★★★
(12.07.16 16:55:12 MSK)

Ответ на: комментарий от leave 12.07.16 16:55:12 MSK

Если можно впихнуть контейнер - нужно впихнуть контейнер.

swelf ★
(12.07.16 16:57:40 MSK)

Ссылка

Ответ на: комментарий от robot12 12.07.16 16:14:29 MSK

микросервисам
docker
контейнера

Кто-то только что вернулся с хипстерской конференции.

winlook38 ★★
(12.07.16 17:08:35 MSK)

Ответ на: комментарий от robot12 12.07.16 16:41:28 MSK

Контейнер - монолитный сервис 1 шт. + Контейнер СУБД 1 шт. Перед ними балансировщик HTTP (nginx)

Прекрасно. И что дальше?

tailgunner ★★★★★
(12.07.16 17:10:03 MSK)

Ответ на: комментарий от robot12 12.07.16 16:14:29 MSK

два БД

Угу и как накатывать рассинканные данные?

anonymous
(12.07.16 17:16:26 MSK)

Ссылка

Ответ на: комментарий от tailgunner 12.07.16 17:10:03 MSK

И что дальше?

Расжевать ? Ладно.

Делаем в nginx upstream, туда вписываем app-контейнеры, с разными весами, выбираем время когда нагрузка на сайт снизится и вырубаем старый app-контейнер.

robot12 ★★★★★
(12.07.16 17:26:31 MSK)

Ответ на: комментарий от winlook38 12.07.16 17:08:35 MSK

хипстерской конференции.

микросервисы и per-process namespaces придуманы задолго до культуры хипстеров. И местами успешно применяются.

robot12 ★★★★★
(12.07.16 17:28:05 MSK)

Ответ на: комментарий от winlook38 12.07.16 17:08:35 MSK

Два смузи этому коворкеру.

anonymous
(12.07.16 17:30:12 MSK)

Ссылка

Ответ на: комментарий от robot12 12.07.16 17:26:31 MSK

все тоже самое но без контейнеров: Переключение версии сайта со staging на production с 0 downtime, как? (комментарий)

Deleted
(12.07.16 17:33:04 MSK)

Ответ на: комментарий от ProtoH 12.07.16 14:24:30 MSK

для этой проблемы, очевидно, нет универсального решения 8)

Deleted
(12.07.16 17:36:03 MSK)

Ссылка

Ответ на: комментарий от robot12 12.07.16 17:26:31 MSK

У ТСа кривой процесс деплоя, при котором приложение ломается от изменения схемы БД. Если ты обновишь оба контейнера, получишь даунтайм. Если ты обновишь один - даунтайм получат те, чьи данные были в БД обновленного контейнера. Где-то ты забыл рассказать нам про синхронизацию двух БД. Если в описываемой схеме добавить требование валидности схемы для обеих версий приложения, получится BGD, который я упоминал выше. Неужели на хипстерсокй конференции про BGD не рассказывали?

winlook38 ★★
(12.07.16 17:38:04 MSK)

Ответ на: комментарий от robot12 12.07.16 17:28:05 MSK

В описываемой тобой схеме контейнеры, докеры, микросервисы - лишние слова. Убери их и ничего не изменится.

winlook38 ★★
(12.07.16 17:41:25 MSK)

Ссылка

Ответ на: комментарий от Deleted 12.07.16 17:33:04 MSK

nginx reload

? А очепятки не в счёт ? А если оно после reload не поднялось ?

robot12 ★★★★★
(12.07.16 17:45:44 MSK)

Ответ на: комментарий от robot12 12.07.16 17:45:44 MSK

При синтаксических ошибках nginx при reload старую конфигурацию не трогает. При логических — think before implement!

И таки да, ты нам не расказал, как ты собираешься синхронизировать 2 DB — новые записи в старой, новая схема в новой.

beastie ★★★★★
(12.07.16 17:47:58 MSK)
Последнее исправление: beastie 12.07.16 17:48:49 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от robot12 12.07.16 17:26:31 MSK

Делаем в nginx upstream, туда вписываем app-контейнеры, с разными весами, выбираем время когда нагрузка на сайт снизится и вырубаем старый app-контейнер.

И получаем две несинхронизированные БД.

tailgunner ★★★★★
(12.07.16 17:49:32 MSK)

Ссылка

Ответ на: комментарий от ProtoH 11.07.16 22:50:05 MSK

В данном случае — никак. Но вот тебе чуть-чуть чтива: http://www.grahambrooks.com/continuous delivery/continuous deployment/zero do...

TL;DR: если сделать так, что бы и старая и новая версия app могла работать с одной версией DB, то тогда это было бы возможно.

beastie ★★★★★
(12.07.16 18:05:03 MSK)

Ссылка

Ответ на: комментарий от winlook38 12.07.16 17:38:04 MSK

Где-то ты забыл рассказать нам про синхронизацию двух БД

А нужно доки читать. https://dev.mysql.com/doc/workbench/en/wb-database-synchronization.html

robot12 ★★★★★
(12.07.16 18:05:09 MSK)

Ответ на: комментарий от robot12 12.07.16 18:05:09 MSK

Зачем эта ссылка на комикс полный картинок и воды? ТС ССЗБ и ломает схему. Что ты там собрался мигрировать? Выше написали, новые данные в старой базе, в новой базе старые данные. Тебе нужно мигрировать данные, но не схему.

winlook38 ★★
(12.07.16 18:33:26 MSK)

Ссылка

Ответ на: комментарий от ProtoH 12.07.16 14:28:42 MSK

В новой схеме могут быть исправлены косяки старой схемы + добавлены новые колонки, таблицы, и др. сущности БД.

Тут должен быть целый курс лекций на тему поддержка многих версий клиента при работе с СУБД. Если нужен плавный переход, то при внесении изменений в структуру это надо предусматривать. Это я вам как программист клиент-серверных приложений с большииим стажем говорю.

+ добавлены новые колонки, таблицы, и др. сущности БД.

Добавление никак не должно влиять на работу старого клиента.

anc ★★★★★
(12.07.16 18:48:27 MSK)

Ссылка

Ответ на: комментарий от winlook38 12.07.16 15:39:25 MSK

Вопрос в том, зачем вы ломаете схему БД для старой версии, а не исправляете схему таким образом, чтобы работали обе версии? Приведи мне пример, когда для исправления ошибки нужно сломать схему.

Вначале уточню, что я понимаю под схемой в данном контексте. Схема это структура сущностей БД (таблиц, views и т.д). Если у вас используется один движок (в данном случае это https://github.com/morpho-os/framework), то в процессе развития неизбежно изменение структуры таблиц - движок развивается, а сайты могут использовать старую версию. Если изменится структура таблиц, старый код перестанет работать без применения патчей. Если сделать патчи, то нужно обеспечить 0 downtime.

ProtoH
(12.07.16 19:10:13 MSK) автор топика

Ответ на: комментарий от ProtoH 12.07.16 19:10:13 MSK

Переформулирую вопрос. Что мешает изменять структуру БД таким образом, чтобы старая версия приложения не ломалась? Добавляя новые таблицы и столбцы вы не ломаете приложение. Удаляя, переименовывая - ломаете. Приведите пример, когда невозможно обойтись без удаления элемента модели данных или изменения его имени.

Вы ознакомились с материалами по ссылкам, которые вам предоставили?

winlook38 ★★
(12.07.16 19:27:24 MSK)

Ответ на: комментарий от winlook38 12.07.16 19:27:24 MSK

Вы в какие-то дебри уходите. Задача переключиться на новый код и БД с 0 downtime при этом все данные в БД должны быть синхронизированы.

ProtoH
(12.07.16 21:30:35 MSK) автор топика

В этой теме kawaii_neko привёл интересный вариант с mysqlproxy.

robot12 предложил вариант с Docker, однако который был тоже рассмотрен ещё до создания этой темы.

BGD не несёт ничего нового, очередной новый термин от Martin Fawler.

Большинство отвечающих похоже не читали предыдущие сообщения.

ProtoH
(12.07.16 21:37:52 MSK) автор топика

Ссылка

Ответ на: комментарий от ProtoH 12.07.16 21:30:35 MSK

Уже 200 раз разжевали же. Кроме как дополнить вариантом где в БД хранится некий scheme_version, равный например 1 для старой схемы и 2 для новой - ничего не могу предложить. А приложение соответственно переписать так, чтобы в зависимости от scheme_version - использовались возможности либо старой версии, либо новой.

Но есть 2 проблемы:

а) такое надо закладывать при проектировании;
б) если по-быдлятски реализовать сейчас - переход со схемы без версии на схему с версией чреват многими многими багами(и я тут даже не про отсутствие в схеме scheme_version - нет переменной, считай равной нулю, делов-то). И c zero downtime тут не получится.

Вообще, ИМХО, zero downtime надо или закладывать сразу(обычно - дорого), либо быть готовым к простою при переходе на систему где простоев при апгрейде больше не будет(в идеале).

Pinkbyte ★★★★★
(12.07.16 21:40:25 MSK)
Последнее исправление: Pinkbyte 12.07.16 21:40:53 MSK (всего исправлений: 1)

Ответ на: комментарий от ProtoH 11.07.16 22:50:05 MSK

3) Переписывать каким-то образом SQL-запросы поступающие от основного сервера к серверу c id == 2, так, чтобы они учитывали изменения скриптов миграции, например, колонка user.pass была переименована в user.password, соответственно нужно перехватывать и переписывать все SQL-запросы, чтобы они использовали колонку user.password.

Не угадал. Была добавлена колонка user.password, на user.pass навесили триггер, автокопирующий туда. Запускается миграция данных, которые были до триггера.

Когда миграция закончится — пушится новый код. Потом уже можно удалять старую колонку.

x3al ★★★★★
(12.07.16 21:40:37 MSK)