Gluster 2x2 = LVM. Возможно ли?

2

1

Всем доброго времени суток. Появилась мысль о создании распределённого хранилища дисков для виртуалок. Наибольший интерес вызвал GlusterFS, на тестовой площадке показал себя весьма приятно. Возник вопрос: а возможно ли реализовать с его помощью хранилище, скажем из 2 страйпов + 2 реплики этих страйпов таким образом, чтобы при подключении рабочих нод к этому хранилищу на каждой ноде была доступна группа томов LVM?

Ссылка

←	Anycast с минимальными затратами

Подключение сетевого диска, как лучше?

→

ИМХО. Зачем колхозить block device поверх FS, если есть DRBD?

router ★★★★★
(12.02.17 08:22:28 MSK)

Ответ на: комментарий от router 12.02.17 08:22:28 MSK

А Stonith обязателен для DRBD ?

anonymous
(12.02.17 09:44:51 MSK)

Ссылка

Если тебе нужно распределённое блочное устройство, возьми Ceph и не парься. С Gluster'ом можно отгрести проблем.

post-factum ★★★★★
(12.02.17 10:48:12 MSK)

Ответ на: комментарий от router 12.02.17 08:22:28 MSK

В теории штука очень понравилась, вдогонку вопрос, ибо гугл внятного ответа не дал. А как в нём реализуется масштабируемость? Возможно ли просто подцепить ещё одну (две) ноды к кластеру и расширить хранилище?

Hanuken ★
(12.02.17 13:11:12 MSK) автор топика

Ссылка

Ответ на: комментарий от post-factum 12.02.17 10:48:12 MSK

Спасибо, опробуем. Был запланирован для тестов на эту неделю.

Hanuken ★
(12.02.17 13:20:55 MSK) автор топика

Ссылка

Ответ на: комментарий от post-factum 12.02.17 10:48:12 MSK

ceph на двух нодах? Нууу, с OSD, положим, вполне терпимо получится если исходить из дефотного CRUSH, а вот с с двумя мониторами получается засада. Нужна третья нода.

Nastishka ★★★★★
(12.02.17 20:30:40 MSK)

Много где об gluster отзываются очень нехорошо, так что перед использованием почитай отзывы.

Deleted
(12.02.17 20:36:29 MSK)

Ссылка

Ответ на: комментарий от Nastishka 12.02.17 20:30:40 MSK

Для монитора много не нужно, всегда можно найти третью ноду.

post-factum ★★★★★
(12.02.17 20:48:20 MSK)

Ссылка

На данный момент под это дело выделено 4 ноды с возможностью (и желанием) поднятия железного raid на каждой, так что ограничения по количеству нод нет. На первом месте стоит отказоустойчивость, на втором масштабируемость.

Насколько я понял, Ceph в отказоустойчивом варианте выйдет несколько затратнее, но масштабируемость будет лучше. В то же время c DRBD возникнут проблемы при масштабировании. Верно?

Hanuken ★
(12.02.17 21:15:23 MSK) автор топика

Ответ на: комментарий от Hanuken 12.02.17 21:15:23 MSK

Ceph в отказоустойчивом варианте выйдет несколько затратнее

Опиши, как ты пришёл к такому выводу.

post-factum ★★★★★
(12.02.17 21:38:49 MSK)

Ответ на: комментарий от post-factum 12.02.17 21:38:49 MSK

Скорее всего, он посмотрел на «умолчательный» размер пула в три реплики. Но у сефа есть другие подводные камни - например, проседание I/O после временного отключения ноды. Мы научились с этим бороться, но там всё очень и очень больно, особенно если нагрузка на запись хоть сколь нибудь серьезная. На HDD вы получите просадку примерно в 30-50 раз для случая когда у вас временно отключался один узел из четырех.

Nastishka ★★★★★
(12.02.17 22:11:03 MSK)

Ответ на: комментарий от Nastishka 12.02.17 22:11:03 MSK

проседание I/O после временного отключения ноды

С noout?

На HDD вы получите просадку примерно в 30-50 раз для случая когда у вас временно отключался один узел из четырех.

Вы что-то явно делали не так. Я такого не наблюдал.

post-factum ★★★★★
(12.02.17 22:13:42 MSK)

Ответ на: комментарий от post-factum 12.02.17 22:13:42 MSK

Плохо наблюдали.

1. Размер объекта в образе «по умолчанию»

2. Нагрузка на запись равномерная примерно 500 writes/sec, блоками по 4K

3. время оффлайна узла - 10 минут (down_out по умолчанию 900 секунд)

4. размер образа примерно 2.5 терабайта

IOPS'ы можете снимать например fio.

Nastishka ★★★★★
(12.02.17 22:28:46 MSK)

Ответ на: комментарий от Nastishka 12.02.17 22:28:46 MSK

3. время оффлайна узла - 10 минут (down_out по умолчанию 900 секунд)

Я в таких случаях noout ставил.

IOPS'ы можете снимать например fio.

Этот, как и любой другой бенчмарк для традиционных ФС, — неадекватен.

post-factum ★★★★★
(12.02.17 22:32:44 MSK)
Последнее исправление: post-factum 12.02.17 22:32:52 MSK (всего исправлений: 1)

Ответ на: комментарий от post-factum 12.02.17 21:38:49 MSK

Именно как сказал Nastishka - по предложенным дефолтным решениям.

Hanuken ★
(12.02.17 23:03:54 MSK) автор топика

Ответ на: комментарий от Hanuken 12.02.17 23:03:54 MSK

Ну погоди, Ceph — такая штука, в которой дефолтные значения — это как средняя температура по больнице.

post-factum ★★★★★
(12.02.17 23:04:53 MSK)

Ответ на: комментарий от post-factum 12.02.17 22:32:44 MSK

Этот, как и любой другой бенчмарк для традиционных ФС, — неадекватен.

Смелое утверждение. А производительность на запись <= 30 writes/sec «per host» по гигабитной сети при интенсивном recovery вас не смущает?

Nastishka ★★★★★
(13.02.17 12:18:50 MSK)

Ответ на: комментарий от post-factum 12.02.17 23:04:53 MSK

Ceph — такая штука, в которой дефолтные значения — это как средняя температура по больнице.

Если бы. Для rbd в ceph «дефолтные значения» - это такая штука, когда оно как бы «вроде бы даже вроде бы нормально работает», а отступления от дефолтных значений даже в самых вроде бы безобидных параметрах обычно караются жестокими багами в самый неожиданный момент. Сегфолтящиеся все вместе мониторы, улетание половины OSD'шек в down - или наоборот, неулетание оных в down когда это вроде бы ожидалось, возникновение misplace при включении nodown. Ух, это весело и всегда держит в тонусе.

P.S.: это не значит что ceph плохой. Он хорошо работает, пока ваш профиль использования близок к тому, на который ориентировались инктанковцы и редхатовцы. Но если нет... Если нет, то админ ceph'овского кластера вынужден будет очень, очень сильно прокачаться в траблшутинге.

Nastishka ★★★★★
(13.02.17 12:32:52 MSK)