zfs + mongodb, посоветуйте тюнинг

0

4

Есть обычная вебня в докере. Форум с очень большим количеством картинок в монге. Основная база гигов 20, и картинок терабайты.

Я знаю, что под монгу советуют xfs + lvm, но хочется иметь дешевых снапшотов, и поэтому есть навязчивая идея поставить zfs. К сожалению, не получится под каждый контейнер прилепить свои настройки блоков, только подкрутить один раз для всех.

Собсна, вопрос: это будет работать с не очень большой просадкой по скорости, или вообще без шансов? Настройки думал стандартные:

отключить atime
xattrs хранить в инодах
кеш только для метаданных (без l2arc)
? насчет компрессии не уверен, в монге и так уже есть
record size думал юзать дефолтный (кажется 128k)

zfs та что на Ubuntu 20.04lts. Не 2.х, но с какими-то бекпортами.

Это будет с вебней вменяемо работать? К сожалению, в интернетах толком статей нет (уже обыскался). Только про innodb, но там размер блока тюнят и разницу не сравнивают.

На serverfault, где у чувака «фсе плёха», он сам дятел, т.к. заюзал l2arc и ограничил ему память всего 2 гига.

Ссылка

← Настройка сети Kali Linux в Oracle VM через proxy в локальной сети

Настроить трафик между несколькими LAN, объединенными в VPN →

А чем l2arc не угодил? Дёшево и сердито. Можно ещё slog подключить, синхронная запись будет быстрее.

Black_Shadow ★★★★★
(23.08.21 19:15:58 MSK)

Ответ на: комментарий от Black_Shadow 23.08.21 19:15:58 MSK

А смысл? В монге свой кеш у WiredTiger, а больше с диском кроме логов никто не общается. Есть только 2 диска под зеркало, slog некуда втыкать.

У тебя есть опыт использования на продакшенах? Меня recordsize больше волнует, резать его или нет. Я какбэ перерыл уже интернеты вдоль и поперек, мало статей очень.

Vit ★★★★★
(23.08.21 20:14:00 MSK) автор топика

Ответ на: комментарий от Vit 23.08.21 20:14:00 MSK

резать его или нет

Под мультимедию его обычно наоборот увеличивают, чтобы данные читались за раз либо целиком, либо куском побольше, но у тебя всё в базе... А для БД ставят в размер страницы БД.

GAMer ★★★★★
(23.08.21 21:02:38 MSK)
Последнее исправление: GAMer 23.08.21 21:04:46 MSK (всего исправлений: 1)

Ответ на: комментарий от GAMer 23.08.21 21:02:38 MSK

У монги нема внятного размера блока, в отличии от innodb, надо на глаз лепить. Вот интересуюсь, у кого как на продакшенах.

Vit ★★★★★
(23.08.21 21:31:40 MSK) автор топика

Ответ на: комментарий от Vit 23.08.21 21:31:40 MSK

Ну я монгу не трогал ) , но судя по http://source.wiredtiger.com/mongodb-3.4/tune_page_size_and_comp.html страницы у неё таки есть.
И можно покрутить allocation_size и leaf_page_max «to better match the underlying storage block size».
А этот самый storage block size выбрать уже исходя из среднего размера своих картинок.

GAMer ★★★★★
(23.08.21 22:15:13 MSK)

Ссылка

Ответ на: комментарий от Vit 23.08.21 20:14:00 MSK

Так l2arc на ssd, в него попадает то, что вытеснено из arc. У меня есть l2arc в продакшен, но я не делал тестов, чтобы именно l2arc протестировать.

Black_Shadow ★★★★★
(24.08.21 10:28:18 MSK)

Ссылка

Ответ на: комментарий от Vit 23.08.21 20:14:00 MSK

По поводу recordsize можно zpool iostat -r смотреть, чтобы собрать статистику.

Black_Shadow ★★★★★
(24.08.21 10:30:38 MSK)

Ссылка

под монгу советуют xfs + lvm

Я бы посоветовал рассмотреть (сделать бенчмарки и посмотреть на них) xfs over zvol (zfs volume)

Несколько лет назад это работало быстрее, чем zfs (как fs).

Harliff ★★★★★
(24.08.21 12:31:17 MSK)
Последнее исправление: Harliff 24.08.21 12:31:55 MSK (всего исправлений: 2)

Ответ на: комментарий от Harliff 24.08.21 12:31:17 MSK

xfs over zvol

зачем так извращаться

Несколько лет назад это работало быстрее, чем zfs

сдается мне что-то не так меряли

~~Minona~~ ★★☆
(24.08.21 13:42:37 MSK)

Форум с очень большим количеством картинок...картинок терабайты

[offtopic]Интересно я один о проне подумал?

anc ★★★★★
(24.08.21 17:03:51 MSK)

Ссылка

Ответ на: комментарий от Minona 24.08.21 13:42:37 MSK

xfs over zvol

Несколько лет назад это работало быстрее, чем zfs

сдается мне что-то не так меряли

История следующая: был хост с Proxmox 4.x; в нём был ZFS pool с raidz2 из 6 HDD. Была создана FS c настройками по умолчанию (recordsize=128К, то есть), которая раздавалась через samba. Пользователи довольно скоро стали жаловаться на тормоза файлового сервера (было по несколько жалоб в день).

Тогда была создана VM с volume из указанного выше пула. Внутри VM диск был отформатирован как XFS и на него были перенесены данные; внутри VM была поднята samba и организован доступ пользователям к тем же файлам. Жалоб на тормоза за несколько лет эксплуатации не поступало.

Harliff ★★★★★
(24.08.21 18:08:38 MSK)
Последнее исправление: Harliff 24.08.21 18:09:35 MSK (всего исправлений: 2)

Ссылка

Форум ... в монге

Это точно лучше форума в ФС?

Shadow ★★★★★
(24.08.21 18:42:12 MSK)

Ответ на: комментарий от Harliff 24.08.21 12:31:17 MSK

Бенчмарки != реальный опыт. У меня прикладной вопрос, «поисследуй» тут не совсем в тему.

Vit ★★★★★
(24.08.21 19:09:25 MSK) автор топика

Ответ на: комментарий от Shadow 24.08.21 18:42:12 MSK

Сделанное своими руками всегда лучше. Там лубофф и теплые лампы.

Vit ★★★★★
(24.08.21 19:12:39 MSK) автор топика

Ссылка

Ответ на: комментарий от Vit 24.08.21 19:09:25 MSK

Ну так я и «опыт» описал.

Harliff ★★★★★
(24.08.21 22:59:23 MSK)
Последнее исправление: Harliff 24.08.21 23:00:56 MSK (всего исправлений: 2)

Ссылка

Хм… погоняли тут zfs и xfs на импорте данных форума. Нагрузка конечно не рабочая в отношении read/write, но результаты забавные:

Импорт постов:
- xfs: 16 min
- zfs: 4.5 hours
Импорт картинок
- ~ по 6 часов и там и там

Ну то есть на тоннах мелких записей zfs заметно сливает. Для рабочих нагрузок наверное не особо критично.

Теперь разбираемся с установкой btrfs, хочется понять как там.

Vit ★★★★★
(03.09.21 15:32:59 MSK) автор топика

Ответ на: комментарий от Vit 03.09.21 15:32:59 MSK

Импорт постов:

xfs: 16 min

zfs: 4.5 hours

Может, к разработчикам zfs обратиться? Настолько колоссальная разница говорит или о сильно неоптимальных параметрах настроек (по-умолчанию) или о недоработках в реализации. Я думаю, им такой кейс интересен будет и они поищут «bootlenek».

Harliff ★★★★★
(04.09.21 16:52:40 MSK)
Последнее исправление: Harliff 04.09.21 16:53:35 MSK (всего исправлений: 2)

Ответ на: комментарий от Harliff 04.09.21 16:52:40 MSK

фс такую разницу давать не должна. Скорее тут разные условия при проведении теста. Из типичного. В случае с xfs делали на разогретой базе, с zfs на холодной.

anc ★★★★★
(04.09.21 17:31:08 MSK)

Ответ на: комментарий от Harliff 04.09.21 16:52:40 MSK

Ну настройки как описывалось, и размер блока с 128 до 16 килобайт подрезал. Картинки-то оно без тормозов всосало. Проблемы именно с тоннами мелких записей, хотя они везде где можно большими блоками лились.

Хер знает, короче. Нагрузка конечно сплошная запись, чего на продакшене никогда не будет, но все равно странновато. Я ожидал прососа в 2-3 раза - такое бы вполне устроило.

На неделе разберемся как btrfs конфигурять и будет понятнее.

Очень хоцца легких снапшотов и CRC.

Vit ★★★★★
(05.09.21 01:46:10 MSK) автор топика

Ответ на: комментарий от anc 04.09.21 17:31:08 MSK

Да не, там все в докеровских контейнерах, разогрева нет. Да и фик с ним. Если btrfs будет лучше - поедем на ней. Если не пойдет - буду ковырять lvm thin provisioning. Вроде там снапшоты легкие, хоть и без crc.

Vit ★★★★★
(05.09.21 01:50:10 MSK) автор топика

Ответ на: комментарий от Vit 05.09.21 01:50:10 MSK

буду ковырять lvm thin provisioning.

Я надеюсь вы в курсе насчет проседания io и осознанно на это идете.

anc ★★★★★
(05.09.21 02:08:22 MSK)

Ответ на: комментарий от anc 05.09.21 02:08:22 MSK

Снапшоты thin provisioning вроде быстрее обычных, которые жутко тормозят. Но все равно lvm не хочется.

Vit ★★★★★
(05.09.21 03:53:35 MSK) автор топика

что под монгу советуют xfs + lvm

xfs только для файлопомоек с фоточками, видео… ну вк использует xfs на своих файловых серверах. агрегации в монге тормозят на коллекциях с миллионами записей, монга сама подталкивает к мультитенантности, когда у каждого пользователя своя бд, данные дублируются… ну не получится там сделать гиговые коллекции, оно тормозить же будет

~~tz4678~~ ★★
(05.09.21 04:08:57 MSK)

Ссылка

Ответ на: комментарий от Vit 05.09.21 03:53:35 MSK

Снапшоты thin provisioning вроде быстрее обычных, которые жутко тормозят.

Я не про снапшоты. На тонких томах io не очень. Та же шняга с обычными но имеющими снапшоты.

anc ★★★★★
(05.09.21 04:10:51 MSK)
Последнее исправление: anc 05.09.21 04:15:06 MSK (всего исправлений: 1)

Ответ на: комментарий от Vit 03.09.21 15:32:59 MSK

recordsize уменьшить хочешь ты, 128кб по умолчанию

anonymous
(05.09.21 16:18:01 MSK)

Ссылка

Ответ на: комментарий от Vit 05.09.21 01:46:10 MSK

и размер блока с 128 до 16 килобайт подрезал

А какой в монге размер блока?

Harliff ★★★★★
(05.09.21 19:38:38 MSK)

Ответ на: комментарий от Harliff 05.09.21 19:38:38 MSK

Там «всё сложно». Короч, я не хочу нырять в этот клозет с головой, пока не попробую более простые варианты.

Vit ★★★★★
(05.09.21 19:48:59 MSK) автор топика

Ссылка

Ответ на: комментарий от anc 05.09.21 04:10:51 MSK

Уверен? Точно? LVM ни каким образом не может обеспечить десяток легких снапшотов без радикальной деградации io?

Вроде в доке и на SO писали, что тонкие тома «не такие ужасные как обычные», возможно я что-то не понял.

Vit ★★★★★
(05.09.21 20:04:21 MSK) автор топика

Ответ на: комментарий от Vit 05.09.21 20:04:21 MSK

Может и обеспечит, погоняйте бенчмарки.

В целом, LVM thin выглядит наколенной поделкой, по сравнению с zfs.

PS: лично я, там где нужна производительность, использую голый LVM (не thin).

Harliff ★★★★★
(06.09.21 00:34:18 MSK)
Последнее исправление: Harliff 06.09.21 00:34:57 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Vit 05.09.21 20:04:21 MSK

Когда-то тестировал, просадка присутствует. thin зарекся использовать, благо острой необходимости нигде нет.

anc ★★★★★
(06.09.21 02:37:07 MSK)

Ссылка

В общем, на btrfs топики импортятся 30 минут вместо 16 на xfs. Стандартная предсказуемая просадка для cow. Вполне приемлимо. Без приключений, как с zfs, когда разбираешься с тоннами опций, делаешь все «правильно», и все равно получаешь на выходе потенциальную тыкву.

Из явных косяков - если диск долбанется, то не рекомендуют юзать автоматическое монтирование в degraded режиме. Только ручками. Поэтому рутовый раздел сделаю классическим md + xfs. А btrfs для докера, все свободное место.

Итого - для важных данных имеем crc + дешевые снапшоты, чего для счастья и было надо.

Vit ★★★★★
(06.09.21 17:15:17 MSK) автор топика
Последнее исправление: Vit 06.09.21 17:16:41 MSK (всего исправлений: 1)

Ответ на: комментарий от Vit 06.09.21 17:15:17 MSK

если диск долбанется, то … Только ручками.

Извините, чьими? :)

anonymous
(06.09.21 17:49:25 MSK)

Ссылка

Ответ на: комментарий от Vit 06.09.21 17:15:17 MSK

XFS под «/» - не дело. Только вот вчера об это споткнулся. Загрузка после сбоя не прошла автоматом - просто виснет без логов.

Т.к. для восстановления XFS нужно: примонтировать в RO (для реплея лога), отмонтировать, пройтись xfs_repare, затем только монтировать «/» в RW. Обычно же при загрузке этого не происходит. К тому же проверка при загрузке будет «не происходить» каждый раз при монтировании ФС другой версией ядра, т.е. даже без сбоя.

Ну, а вот fsck.ext4, например, сам может сделать replay лога перед проверкой, и никаких дополнительных монтирований не нужно. Поэтому, имхо, самый толковый вариент под «/» только ext4.

К тому же для бэкапа LVM-снапшота XFS, нужна тоже куча доп.телодвижений с монтированиями, размонтированием и сменой uuid. И ещё 1 монтирование снэпшота в RW(!), чтобы просто сделать список «exclude» для xfsdump-а. В то же время dump ext4 гораздо проще и удобнее, к тому же он умеет сразу сам сжимать, да ещё и выбрать компрессор и уровень сжатия. И ext4 restore позволяет сделать интерактивное восстановление отдельных файлов и директорий.

А вот для данных XFS вроде получше, т.к. усиление записи меньше и есть полезные reflink-и.

anonymous
(06.09.21 19:23:46 MSK)

Ответ на: комментарий от Vit 03.09.21 15:32:59 MSK

zfs: 4.5 hours

Жесть какая-то, а если с sync=disabled?

GAMer ★★★★★
(06.09.21 20:27:54 MSK)

Ответ на: комментарий от GAMer 06.09.21 20:27:54 MSK

Это первая же мысль была. Не помогло.

Vit ★★★★★
(07.09.21 09:46:29 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 06.09.21 19:23:46 MSK

Хм… Не знал. Спасибо.

Vit ★★★★★
(07.09.21 10:36:56 MSK) автор топика

Ссылка

Что страннее всего, монга при импорте умудрялась натурально виснуть, с концами, на xfs и zfs. А на btrfs не виснет.

Создать тестовый кейз не представляется возможным, но эффект стабильный. Процесс просто затыкается, без ошибок в логе.

Память c ECC. Я бы и рад свалить все на железо, но на btrfs-то работает.

Vit ★★★★★
(11.09.21 19:22:14 MSK) автор топика

2 ноября 2022 г.

Ответ на: комментарий от Vit 11.09.21 19:22:14 MSK

Поделитесь опытом: как все работает через год эксплуатации?

Harliff ★★★★★
(02.11.22 17:54:02 MSK)

Ответ на: комментарий от Harliff 02.11.22 17:54:02 MSK

btrfs поставил в итоге, и там какой-то стандартный пакет скриптов для ребалансировки по крону.

Скруб раз в месяц гоняется, проблем не показывает.

Но по мне нельзя делать каких-то глобальных выводов.

Vit ★★★★★
(04.11.22 07:06:59 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Настройка сети Kali Linux в Oracle VM через proxy в локальной сети

Admin

Настроить трафик между несколькими LAN, объединенными в VPN →

Похожие темы