dkron в кубиках

0

1

Коллеги,рассматриваем софт опенсорсный для распределенного cron ,однако:

В текущей версии Dkron работает как консул образца 17-18 годов: https://github.com/hashicorp/consul/issues/1580 Dkron для имплементации raft протокола использует IP-шники, что в целом неприемлемо для сред типа k8s, где ip меняется регулярно.

И тут проблема при деплое в k8s: она заключается в том, что при рестарте/смерти несколько подов (> чем число подов, необходимых для консенсуса) кластер разваливается и не может пересобраться, потому что в нодах сохранены старый айпишники при рестарте несколько подов (< чем число подов, необходимых для консенсуса) кластер продолжит работать без ошибок.

Для воспроизведения: Так как нода переходит в healthy до момента, когда она присоединяется к кластеру, соответственно, при рестарте statefulset’следующая нода убивается до того, как предыдущая войдет в кластер и начнет работать (aka нода будет знать лидера)

Посоветуйте как решить ?

←	Как обрабатывать события ACPI?

Как автоматизировать проверку диска initramfs?

→

Dkron для имплементации raft протокола использует IP-шники

Пропатчить не предлагать?

А так

PodDisruptionBudget
Обернуть каждый Pod в отдельный Service и использовать айпишники Service’ов (+поколдовать с сетью/роутингом, чтобы трафик шёл сразу куда надо, а не куда придётся через kube-proxy)

intelfx ★★★★★
(02.11.23 19:14:10 MSK)
Последнее исправление: intelfx 02.11.23 19:15:04 MSK (всего исправлений: 2)

Ответ на: комментарий от intelfx 02.11.23 19:14:10 MSK

По второму можешь накидать примером, но там надо будет имена со stateful делать ?

pinachet ★★★★★
(02.11.23 19:37:20 MSK) автор топика

dynamic-dns же, не?
ну или как-то zoned-ipc?

etwrq ★★★★★
(02.11.23 19:45:34 MSK)

Вы что можете предложить как аксаккал ? alex0x08

pinachet ★★★★★
(02.11.23 21:42:56 MSK) автор топика

Ответ на: комментарий от pinachet 02.11.23 21:42:56 MSK

Это больше к сисадминам вопрос, я же по разработке.

Но думаю вам надо детальнее задачу раскрыть, поскольку «распределенный cron» - сильно редкая задача, если вы только не из подвалов какого-нибудь Яндекса пишете.

Но и кстати нет, у Яндекса (судя по слитым исходникам которые я разумеется не видел) нет вообще такой штуки - централизованного cron, вместо этого у них сама задача cron (как выполнение чего-то в фоне по расписанию) решается в разных сервисах как часть бизнес-логики каждого сервиса.

alex0x08 ★★★
(02.11.23 22:14:21 MSK)
Последнее исправление: alex0x08 02.11.23 22:17:11 MSK (всего исправлений: 1)

Так как нода переходит в healthy до момента, когда она присоединяется к кластеру, соответственно, при рестарте statefulset’следующая нода убивается до того, как предыдущая войдет в кластер и начнет работать

Напишите lifecycle.postStart скрипт, который будет ожидать реального присоединения ноды к кластеру.

~~vinvlad~~ ★★
(03.11.23 08:41:03 MSK)

Чтобы уж немного закрыть тему «рассинхронизации» k8s-реальности и представлений о ней…

Различные контроллеры сервисов и балансировщики «узнают» о смене статуса Pod-ов не мгновенно - всегда есть вероятность (вполне реальная), что в Pod, перешедший в состояние TERMINATING (т. е. получивший TERM-сигнал) могут прилететь входящие соединения от «соседей». Приложение, уже получившее TERM-сигнал, может просто сбрасывать такие соединения, что не есть хорошо для общей картинки «гладкой» перегрузки Pod-ов - например, при деплое новых версий приложений или смены их конфигурации. Поэтому лучше обеспечивать разумный лаг между переходом Pod-а в состояние TERMINATING и реальной отправкой TERM-сигнала посредством preStop-хука:

containers:
- name NNNN
  ...
  lifecycle:
    preStop:
      exec:
        command: [ "/bin/sh", "-c", "/bin/sleep 5" ]

В чем-то аналогичная ситуация возникает и при переходе Pod-а в состояние RUNNING, если не позаботиться о предварительной проверке реально «боевого» состояния приложения в контейнере, на что и напоролся TC. Для таких проверок предусмотрен postStart-хук. Этот хук можно использовать также для предварительного «разогрева» приложения в контейнере.

Более подробно:

~~vinvlad~~ ★★
(07.11.23 07:39:46 MSK)

а чем CronJob не устраивают внутрикубовые? с ui там конечно вопросики, но в целом достаточно удобно выходит

loki_ ★★
(07.11.23 23:12:18 MSK)

←	Как обрабатывать события ACPI?

Admin

Как автоматизировать проверку диска initramfs?

→

Похожие темы