LINUX.ORG.RU
ФорумAdmin

ZFS неожиданно начинает тормозить

 


0

4

Имеется сервер CentOS 7.9.2009 с контроллером LSI и дисковая полка с 58-ю дисками. Контроллер работает в режиме JBOD, multipath включен, на 58 дисках создан ZFS-массив из 4-х raidz2, два диска использованы как spare. Спустя 90 дней аптайма, ZFS начал сильно тормозить. Клиенты NFS могут получить список файлов, но приходится долго ждать. Локально тоже.

zpool status показывает лишь 4 файла с ошибками (были проблемы с питанием), но на этом всё. storcli64 рапортует, что все диски на месте. Знаю, что перезагрузка поможет (хотя zpool import будет минут 40 выполнятся). Куда посмотреть?


zpool status для начала

anonymous
()

Linux не поддерживает zfs. Ты себе на ядро накатил какие-то сторонние васянские патчи. И вот он результат.

ox55ff ★★★★★
()
Ответ на: комментарий от ox55ff

Linux не поддерживает zfs.

Зато ZFS поддерживает Linux.

ТС, ты бы для начала версии ZFS и прочего выложил. И логи. По версии CentOS тебе никто ничего не нагадает тут.

hateyoufeel ★★★★★
()
Последнее исправление: hateyoufeel (всего исправлений: 1)
Ответ на: комментарий от hateyoufeel

По версии CentOS тебе никто ничего не нагадает тут.

Интересно почему. Ах да, это же непонятные васянские патчи со стороны, которые превращают стабильную CentOS 7 в минное поле и таким образом перечёркивают все гарантии.

ox55ff ★★★★★
()
Последнее исправление: ox55ff (всего исправлений: 1)

zpool status показывает лишь 4 файла с ошибками

После ресильвера?

Контроллер работает в режиме JBOD

А прошивки нету для перевода его в HBA?

LSI

Для них вроде были такие.

GAMer ★★★★★
()
Последнее исправление: GAMer (всего исправлений: 1)

Куда посмотреть?

JBOD отключи и переведи контроллер в режим отдачи RAW-дисков («как есть»). Перестрой Z-пул после этого.

iZEN ★★★★★
()

Это вроде стандартные проблемы zfs с тормозами. Я не понимаю зачем такие файловые системы нужны на файлопомойках.

rtxtxtrx ★★★
()

Может просто месяц назад на этом ZFS ничего не было, поэтому и не тормозило?

bigbit ★★★★★
()
Ответ на: комментарий от rtxtxtrx

Это вроде стандартные проблемы zfs с тормозами.

Нет там никаких стандартных проблем. Ни один нормальный сервер/ПК не грузится по 40 минут. Наверное ты путаешь с btrfs

ТС что-то накрутил в структуре пула, от этого и проблемы. Небось еще диски с помойки васяна брал, которые посыпались после сбоя питания.

anonymous
()
Ответ на: комментарий от anonymous

ZFS… Ой Btrfs лучшая… Ты все врешь ряяя… Такую реакцию ожидал? - Да, нет, там проблемы с частой мелкоблочной записью скорее всего, только одному б-гу известно, что там за мусор хранится

rtxtxtrx ★★★
()
Последнее исправление: rtxtxtrx (всего исправлений: 1)
Ответ на: комментарий от rtxtxtrx

Проблема с записью повлияла на длительность импорта аж в 40 минут через 90 дней аптайма? Упоролс?

anonymous
()

Приделал колёса от белаза к трамваю из буханки и удивляешься что не едет?

4 файла с ошибками == СХД доверять нельзя, но благодаря линукс-дзену тут raidz2, который при скрабе поставит всё колом. Съекономил на mirror-ах? Ну-ну…

anonymous
()
Ответ на: комментарий от ox55ff

стабильную CentOS 7

АХАХАХАХАХАХАХ! УАХАХАХАХАХАХАХАХ! ОХОХОХОХОХОХОХООХОХОХОХОХ!

перечёркивают все гарантии.

А можно ссылку на эти гарантии? А то посоны-то не знали, что в CentOS что-то где-то кому-то гарантируется.

Ты ещё скажи, что CentOS стабильна только если в неё софт не ставить.

hateyoufeel ★★★★★
()

Да, устроили тут тебе клоунаду.

Давай гипотезы смотреть:

  • тормозит underlay (отдельные диски или вся полка). Тестируется при помощи fio (sequential/random read).
  • не хватает ресурсов сервера (ОЗУ/CPU). Посмотри в top/atop/htop.
  • баги ZFS. Какая версия используется? И какое ядро? Что в dmesg есть интересного?
  • неоптимальная настройка zfs. Дедупликация не используется, я надеюсь? Покажи zpool get all, zfs get all твой_пул/твоя_fs.
  • конкретно какая-то неоптимальность в датасете, отдаваемом через NFS. Попробуй создать новый датасет (zfs create …) и посмотри на скорость его работы.
  • мало свободного места. Это COW FS, если остаётся меньше 10% свободного места - в ZFZ включается более ресурсоёмкий алгоритм записи. Если меньше 5% места - ещё более ресурсоёмкий.
  • возможно, идёт какое-то специфическое использование ZFS, отличающееся от того, как её используют 90% пользователей. Соответственно, под этот сценарий использования ZFS плохо оптимизирована. Тут нужно больше информации, на основе общих слов получаются общие выводы и общие рекомендации.
Harliff ★★★★★
()
Последнее исправление: Harliff (всего исправлений: 6)
Ответ на: комментарий от Harliff

Спасибо чат джипити, мы знаем

anonymous
()
Ответ на: комментарий от anonymous

Надеюсь, тс уже исправил эти 4 ошибки, иначе проблем у него прибавилось

anonymous
()

JBOD

Слона-то я и не заметил. Избавляйся от этой гадости.

Harliff ★★★★★
()
Ответ на: комментарий от Harliff

Что интересно, когда сделал zfs export, пул не отмонтировался (системе к тому времени было плохо), но раздача по NFS прекратилась, ls /pool0 начало проходить без тормозов. Присмотрюсь к NFS, может она виновата.

//Дедупликация не используется, я надеюсь?// Используется. Это плохо, да?

//возможно, идёт какое-то специфическое использование ZFS// Как одна из версий. Осталось понять, как влияет.

NOPA
() автор топика
Ответ на: комментарий от NOPA

//Дедупликация не используется, я надеюсь?//

Используется. Это плохо, да?

В целом да. Скажем так, её сложно использовать и не «выстрелить себе в ногу». Это не та вещь, которую можно «включить и забыть» — её нужно проектировать, настраивать, тестировать и потом немножко мониторить. На пулах общего назначения её включать категорически не рекомендуется.

Harliff ★★★★★
()
Последнее исправление: Harliff (всего исправлений: 1)
Ответ на: комментарий от NOPA

Её же можно выключить: zfs set dedup=off poolname ?

Эта команда нацелена на датасет, а не пул. Для пула нужно смотреть в zpool ...

Она хоть и может унаследовать свойство для дочерних датасетов, но не факт, что сделает это для всех нужных.

Я думаю, это всё не поможет, изменение дедупликации не делает никакой магии. Придётся тебе перезаливать данные на датасет с выключенной дедупликацией, она работает только для новых данных. И обо всём этом написано в документации, да. (=

Clockwork ★★★★★
()
Последнее исправление: Clockwork (всего исправлений: 2)
Ответ на: комментарий от Clockwork

Спасибо. Но основную причину, похоже, я нашёл: несовместимость полки SAS и накопителей SATA. Убрал последние - заработало как часы.

NOPA
() автор топика
Ответ на: комментарий от Dimez

Он и так HBA, просто это отключено (так надо).

NOPA
() автор топика
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.