Линус Торвальдс высказался о ZFS

4

5

В процессе обсуждения планировщиков ядра Linux пользователь Джонатан Данти пожаловался, что изменения в ядре сломали важный сторонний модуль — ZFS. Вот что написал в ответ Торвальдс:

Имейте в виду, что тезис «мы не ломаем пользователей» относится к программам пространства пользователя и к ядру, которое я сопровождаю. Если вы добавляете сторонний модуль вроде ZFS, то вы сами по себе. У меня нет возможности поддерживать такие модули, и я не отвечаю за их поддержку.

И, откровенно говоря, я не увижу ни одного шанса на включение ZFS в ядро, пока не получу официальное сообщение от Oracle, заверенное их главным юрисконсультом или, лучше всего, самим Ларри Эллисоном, в котором говорится, что всё ок, и ZFS теперь под GPL.

Некоторые думают, что добавить код ZFS к ядру — неплохая идея, и что интерфейс модуля нормально с этим справляется. Что ж, это их мнение. Я же не чувствую такое решение надёжным, учитывая спорную репутацию Oracle и проблемы, связанные с лицензированием.

Поэтому мне абсолютно неинтересны штуки вроде «слоёв совместимости ZFS», которые, как некоторые думают, изолируют Linux и ZFS друг от друга. Нам от этих слоёв никакой пользы, а учитывая склонность Oracle судиться из-за использования их интерфейсов — я не думаю, что это реально решает проблемы с лицензиями.

Не используйте ZFS. Вот и всё. По-моему, ZFS это больше баззворд, чем что-то ещё. Проблемы с лицензированием — только ещё одна причина, почему я никогда не стану заниматься этой ФС.

Все бенчмарки производительности ZFS, что я видел, совершенно не впечатляют. И, как я понимаю, ZFS уже даже толком не сопровождается, и никакой долгосрочной стабильностью здесь не пахнет. Зачем вообще её использовать?

>>> Подробности

Ссылка

← Релиз OpenWRT 19.07

Релиз встраиваемой системы реального времени Embox v0.4.0 →

← 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 →

Ответ на: комментарий от Zidane 12.01.20 03:02:08 MSK

Чем ему ReFS не угодил? Она еще моложе и там больше шансов проебать все полимеры

sky92
(12.01.20 03:16:32 MSK)

Ссылка

Ответ на: комментарий от anonymous 12.01.20 03:15:11 MSK

Я не знаю откуда и как эти тесты выдавили.

Вот кпримеру. Наглядно. Первый тест аля рукажоп, и второй с настроеным пулом прямыми руками https://www.percona.com/blog/2018/05/15/about-zfs-performance/

sky92
(12.01.20 03:23:20 MSK)

Ответ на: комментарий от sky92 12.01.20 03:13:26 MSK

Nastishka с ЛОРа так сказала.

Ну что вы, мне просто повезло это в вики прочесть. https://en.wikipedia.org/wiki/Copy-on-write#In_computer_storage

Там понятным по белому написано «The original storage is never modified. When a write request is made, it is redirected away from the original data into a new storage area. (called «Redirect-on-write» or ROW)»

Nastishka ★★★★★
(12.01.20 03:28:44 MSK)

Ответ на: комментарий от Nastishka 12.01.20 03:28:44 MSK

Теперь прочти по пунктам, обнови знания как делает снепшот лвм. Только внимательно и увидишь там ROW. Поверь, ты возьмешь слова обратно..

И тогда, если в ZFS был бы принцпи ROW ‘original storage is never modified’, то пул бы заполнялся до предела через какое то непродолжительное время имея на борту небольшое количество данных.

sky92
(12.01.20 03:41:42 MSK)

Ответ на: комментарий от mv 12.01.20 02:44:26 MSK

Не позволяет. md при чтении не сверяет контрольные суммы.

Ну здрасьте, как это md при чтении в RAID-конфигурации может не заметить искажения данных?

Вот это по нашему. Хочу батл «Должен ли raid заниматься тем, для чего он не задумывался и чего от него не требуется».

anonymous
(12.01.20 05:10:30 MSK)

Ответ на: комментарий от anonymous 12.01.20 05:10:30 MSK

Этот mv вообще какой то сказочник, уверен что он и zfs свой так же настраивал, под накуркой.

sky92
(12.01.20 05:34:45 MSK)

Ответ на: комментарий от sky92 12.01.20 05:34:45 MSK

Этот mv вообще какой то сказочник

Сам-ты сказочник.

Это вполне себе нормалный «батл», потому что самой идее RAID сто лет в обед. Но чтобы присобачить проверку целостности к raid, не потерявь изначальных преимуществ raid - это достаточно сложная инженерная работа. Я не из таких, мне было бы интересно

anonymous
(12.01.20 05:49:35 MSK)

Ответ на: комментарий от anonymous 12.01.20 05:49:35 MSK

проверку целостности к raid

зачем изобретать велосипед? RAID-Z решает твою задачу

sky92
(12.01.20 06:21:53 MSK)

Зачем мне эта поделка от васяна линукс, если есть божественный Openindiana с ZFS?

anonymous
(12.01.20 06:26:49 MSK)

Ответ на: комментарий от sky92 12.01.20 06:21:53 MSK

RAID-Z решает твою задачу

Нет, не решает.

anonymous
(12.01.20 06:29:55 MSK)

Ответ на: комментарий от anonymous 12.01.20 06:29:55 MSK

Ну читай, если мало там ссылки на материалы https://www.stableit.ru/2010/08/raid-z.html

anonymous
(12.01.20 06:44:02 MSK)

Ответ на: комментарий от anonymous 12.01.20 06:44:02 MSK

Ну читай

Сам читал? Какие проблемы решает? Написано что создает дополнительные проблемы: основная - тесная интеграция с фс. Опять эта паранойя с чексуммой (sha), которая ничего не гарантирует, но преподносится как серебряная пуля. Ты тоже очередной проповедник чексумм?

anonymous
(12.01.20 06:54:30 MSK)

Ссылка

Ответ на: комментарий от mv 11.01.20 22:09:43 MSK

Избыточность md позволяет на уровне пользователя не замечать искажение. Твои CRC в ZFS позволяются только иметь геморрой с разворачиванием бэкапа.

Мне важна также возможность отслеживать искажения и без избыточности.

~~a_buchinskiy~~
(12.01.20 08:17:53 MSK)

Ссылка

Ответ на: комментарий от mv 11.01.20 22:09:43 MSK

А шифрование - это вообще ужас. Что будет, если ключ нечаянно испортится?

Бэкапы ключей же.

~~a_buchinskiy~~
(12.01.20 08:18:53 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.01.20 22:14:10 MSK

Одним неправильным битом угробили в десятки тысяч раз больше битов.

А надо было тихо мирно проглотить один испорченный бит? Например в бинарнике ядра и жить с этим дальше?

~~a_buchinskiy~~
(12.01.20 08:20:28 MSK)

Ответ на: комментарий от mv 11.01.20 22:15:33 MSK

1.56% для классического сектора в 520 байт (512 - данные, 8 - CRC).

Это откуда такое?

~~a_buchinskiy~~
(12.01.20 08:21:51 MSK)

Ответ на: комментарий от anonymous 11.01.20 22:44:19 MSK

Целостность данных на диске должны гарантировать диски: диск либо работает полностью, либо не работает полностью.

Дооааа, хороший ты теоретег, а еще бывает третье состояние, когда ошибки видит только ZFS, собственно в этом-то и проблема аппаратных контроллеров.

~~a_buchinskiy~~
(12.01.20 08:23:52 MSK)

Ответ на: комментарий от anonymous 11.01.20 23:38:45 MSK

Есть ли на вашем RAID контроллере батарея?

Разработчики ZFS гарантируют нормальную работу только при отключении write cache контроллера, так что батарейка ненужна.

~~a_buchinskiy~~
(12.01.20 08:27:03 MSK)

Ответ на: комментарий от anonymous 11.01.20 23:47:24 MSK

не стоит перекладывать эту задачу на ЦП и основную память. Оно реально того не стоит.

Когда контроллер не справляется, то стоит, других вариантов собственно и не остается.

~~a_buchinskiy~~
(12.01.20 08:29:09 MSK)

Ссылка

Ответ на: комментарий от Nastishka 12.01.20 02:06:05 MSK

Это у вас на ZFS источник сильно фрагментированный, потому то по иному это порождение мутного гения не умеет.

ZFS с фрагментацией работает достаточно хорошо.

Фрагментация базы данных происходит из ее природы в том смысле, что запись идет в разные таблицы в разные записи.

~~a_buchinskiy~~
(12.01.20 08:35:22 MSK)

Ответ на: комментарий от Nastishka 12.01.20 02:34:13 MSK

Правда, такой не дает снапшотов.

LVM разве не снэпшотит?

Польза снапшотов, впрочем, тоже сильно преувеличена. Использовать их как бэкапы - это неадекватность околотопового уровня, поскольку при действительно серьезной аварии ФС умрет вместе с ее снапшотами.

Реплики же на других хостах: zfs send | ssh host2 «zfs receive»

Использовать для отката системного раздела - ну почему бы и нет. Ну да это и LVM позволяет.

А реплик нету?

~~a_buchinskiy~~
(12.01.20 08:38:35 MSK)

Ссылка

Ответ на: комментарий от Nastishka 12.01.20 02:54:40 MSK

zfs dedup хорошо подходит только для dedup бэкапов типа DB2

~~a_buchinskiy~~
(12.01.20 08:41:17 MSK)

Ссылка

Ответ на: комментарий от a_buchinskiy 12.01.20 08:35:22 MSK

Фрагментация базы данных происходит из ее природы в том смысле, что запись идет в разные таблицы в разные записи.

«Глубокое» понимание.

Владимир

anonymous
(12.01.20 08:44:20 MSK)

Ответ на: комментарий от anonymous 12.01.20 06:26:49 MSK

Зачем мне эта поделка от васяна линукс, если есть божественный Openindiana с ZFS?

у ZFS on Linux 350 контрибьюторов, сколько у OpenZFS?

Даже фрюха стала брать код у Linux версии.

~~a_buchinskiy~~
(12.01.20 08:44:43 MSK)

Ссылка

Ответ на: комментарий от anonymous 12.01.20 08:44:20 MSK

Ну конечно на это накладывается еще ZFS COW если база расположена ,например, на zvol.

Впрочем DB2 REORG решает проблему фрагментации базы достаточно хорошо.

zfs send | receive решает проблему сильной фрагментации ZFS после полугода-года ее использования (около 70-80%).

~~a_buchinskiy~~
(12.01.20 08:49:06 MSK)

Ссылка

Ответ на: комментарий от anonymous 10.01.20 09:50:37 MSK

ext4, а если надо highload и бешеные размеры вместе с их перелопачиванием, то придумали HDFS и иже с ним, где у тебя не один комп, а много.

peregrine ★★★★★
(12.01.20 09:41:57 MSK)

Ссылка

Ответ на: комментарий от a_buchinskiy 12.01.20 08:27:03 MSK

Разработчики ZFS гарантируют нормальную работу только при отключении write cache контроллера

а пруфы есть?

~~crypt~~ ★★★★★
(12.01.20 10:06:05 MSK)

Ответ на: комментарий от crypt 12.01.20 10:06:05 MSK

гугль

~~a_buchinskiy~~
(12.01.20 10:07:54 MSK)

Ответ на: комментарий от anonymous 11.01.20 23:38:45 MSK

Сколько БП на ваших серверах?

Обычно сервера идут с 2-4 блоками, этого недостаточно?

А что один блок уже не подойдет для ZFS?

Память ECC? Если да, есть ли возможность memory mirroring?

Использую ZFS дома вообще без ECC уже на протяжении 8 лет, все нормально, не считая последние пару лет атаки на SATA канал, решаемых укорочением кабелей. Но такое происходило и на ECC сервере, так что для EMI атак фактор наличия ECC незначителен.

~~a_buchinskiy~~
(12.01.20 10:36:58 MSK)

Ссылка

Ответ на: комментарий от Nastishka 12.01.20 03:04:12 MSK

BTRFS и ZFS это НЕ CoW. Они RoW. Снапшоты LVM - это CoW

Я так понимаю, RoW — это типа «redirect on write»? Забавное замечание, но кому и где это вообще важно? Системы типа WAFL (btrfs, zfs, reiser4) во всём мире считаются разновидностью CoW.

intelfx ★★★★★
(12.01.20 10:39:46 MSK)
Последнее исправление: intelfx 12.01.20 10:44:17 MSK (всего исправлений: 2)

Ответ на: комментарий от Nastishka 12.01.20 02:14:37 MSK

До танцев на ушах с (i)SCSI я ещё не дорос. %)

intelfx ★★★★★
(12.01.20 10:43:20 MSK)
Последнее исправление: intelfx 12.01.20 10:43:34 MSK (всего исправлений: 1)

Ответ на: комментарий от sky92 12.01.20 03:41:42 MSK

Теперь прочти по пунктам, обнови знания как делает снепшот лвм. Только внимательно и увидишь там ROW

В отличие от вас, я знаю как делает снапшот LVM. И делает он его классическим CoW (copy on write, точнее copy on first write), когда в снапшот записываются старые данные при первом их изменении.

И тогда, если в ZFS был бы принцпи ROW ‘original storage is never modified’, то пул бы заполнялся до предела через какое то непродолжительное время имея на борту небольшое количество данных.

Принцип ROW в том что, данные не перезаписываются in-place, а реализуется записью в свободное место, после чего ранее занятое объявляется свободным (или принадлежащим снапшоту, при необходимости).

Вы, адепты ZFS, такие смешные - вам налили в голову рекламного потока сознания и вы как заводные обезьянки бегаете и повторяете влитые вам в голову маркетологами мантры даже не понимая того, о что сами говорите.

Nastishka ★★★★★
(12.01.20 10:54:00 MSK)

Ссылка

Ответ на: комментарий от a_buchinskiy 12.01.20 08:20:28 MSK

А надо было тихо мирно проглотить один испорченный бит? Например в бинарнике ядра и жить с этим дальше?

Этот испорченный бит не в данных, а в чексумме, который приписала параноидальная фс.

anonymous
(12.01.20 10:55:21 MSK)

Ответ на: комментарий от a_buchinskiy 12.01.20 08:23:52 MSK

еще бывает третье состояние, когда ошибки видит только ZFS

еще бывает такое состояние, когда ошибки приписыватся самим zfs.

anonymous
(12.01.20 10:57:44 MSK)

Ответ на: комментарий от intelfx 12.01.20 10:43:20 MSK

До танцев на ушах с (i)SCSI я ещё не дорос. %)

А с моей точки зрения iSCSI очень полезен для повышения надежности реплицируемого псевдокластера на базе ZFS.

Берем два сервера backup1 и backup2.

На каждом из них, к примеру, 4 диска:

b1d1, b1d2, b1d3, b1d4

b2d1, b2d2, b2d3, b2d4

На сервере backup1 создаем пул Backup1:

mirror1: b1d1(локальный для backup1) + b2d1(по iSCSI с backup2)

mirror2: b1d2(локальный для backup1) + b2d2(по iSCSI с backup2)

На сервере backup2 создаем пул Backup2:

mirror1: b1d3(по iSCSI с backup1)+b2d3(локальный для backup2)

mirror2: b1d4(по iSCSI с backup1)+b2d4(локальный для backup2)

Пулы автоматически реплицируем по крону.

~~a_buchinskiy~~
(12.01.20 10:58:31 MSK)

Ответ на: комментарий от anonymous 12.01.20 10:55:21 MSK

Этот испорченный бит не в данных, а в чексумме, который приписала параноидальная фс.

Ога, у ZFS постганстолкерский синдром Клерамба Кандинского.

Давайте, дружно отправить ZFS в психушку.

~~a_buchinskiy~~
(12.01.20 10:59:54 MSK)

Ответ на: комментарий от a_buchinskiy 12.01.20 10:59:54 MSK

Давайте, дружно отправить ZFS в психушку.

Я психоаналитик в 4-ом или 5-ом (уже подзабыл) поколении.

anonymous
(12.01.20 11:03:50 MSK)

Ответ на: комментарий от anonymous 12.01.20 10:57:44 MSK

еще бывает такое состояние, когда ошибки приписыватся самим zfs.

Может быть и бывают раз в сто (или миллиард) лет.

А бывает, что ZFS не видит никаких проблем годами, а потом внезапно 22 июня 2015 года опа на и ZFS видит сотни CRC всего за 1 день! на одном из SAS дисков, он начинает дико тормозить пул при этом.

SAS контроллер не видит ровным счетом ничего, т.е. рапортует, что все прекрасно.

Меняем диск, ZFS ресилверит пул целые сутки и потом опять полный штиль в zpool status.

ZFS - шиза, да? ведь он подлюка все испортил для вредителей, акт вредительства неудался, ах ах, как обыдна.

~~a_buchinskiy~~
(12.01.20 11:05:23 MSK)

Ответ на: комментарий от intelfx 12.01.20 10:39:46 MSK

Системы типа WAFL (btrfs, zfs, reiser4) во всём мире считаются разновидностью CoW

Ну если рассматривать два случая - полную перезапись блока и частичную, то полная это чистый ROW, а частичная похожа на COW. Отсюда и путаница

Nastishka ★★★★★
(12.01.20 11:08:56 MSK)

Ответ на: комментарий от a_buchinskiy 12.01.20 11:05:23 MSK

SAS контроллер не видит ровным счетом ничего, т.е. рапортует, что все прекрасно.

Иногда сигара - это всего лишь сигара.

anonymous
(12.01.20 11:09:20 MSK)

Ссылка

Ответ на: комментарий от a_buchinskiy 12.01.20 10:58:31 MSK

Да и еще на каждом сервере контроллеры для локальных и раздаваемых по iSCSI дисков нужны отдельные, чтобы выход из строя одного из контроллеров не убил оба пула сразу.

~~a_buchinskiy~~
(12.01.20 11:15:02 MSK)

Ответ на: комментарий от anonymous 12.01.20 10:55:21 MSK

Этот испорченный бит не в данных, а в чексумме, который приписала параноидальная фс.

А это не важно. Вариантов тут два:

самое простое, это и блок данных, и его контрольная сумма считаются невалидными и дальше просто делается восстановление либо со второй реплики (для RAID1 и его вариаций) или чтение всех страйпов и реконструирование блока и перезаписывается восстановленая копия и ее пересчитанная контрольная сумма.

более сложное это определить через контрольную сумму контрольных сумм (дерево хэшей, которое насколько помню тоже есть в ZFS когда блоки в которых лежат хэши также накрываются хэшами и так итерационно, отчего получается дерево - на эту тему вроде даже кто то PhD делал) где ошибка - в данных или не только в данных. В любом случае скатывается всё в к первому варианту

Nastishka ★★★★★
(12.01.20 11:17:11 MSK)

Ответ на: комментарий от a_buchinskiy 12.01.20 11:15:02 MSK

Вот не пойму или лучше держать все 4 диска локально на каждом сервере?

~~a_buchinskiy~~
(12.01.20 11:17:12 MSK)

Ссылка

Ответ на: комментарий от Nastishka 12.01.20 11:17:11 MSK

более сложное это определить через контрольную сумму контрольных сумм (дерево хэшей,

И оказалось, что ошибка в корневой чексумме…

anonymous
(12.01.20 11:23:15 MSK)

Ответ на: комментарий от a_buchinskiy 12.01.20 10:58:31 MSK

Вот что будет, если в такой схеме выйдет из строя, например, оперативка сервера backup1?

Судя по описаниям ZFS + bad RAM, тогда локальный пул Backup1 может сдохнуть целиком как на проблемном сервере backup1, так и на исправном backup2 (iSCSI блоки).

Но при этом еще и частично нефатально пострадают, раздаваемые по iSCSI блоки с backup1 на backup2 для второго резервного пула Backup2.

Значит, такая затея получается глупой?

Реплицируемые пулы нужно хранить полностью отдельно друг от друга, как я и делал ранее на работе, чтобы все их диски были локальными, рассчитывая на то, что в любой момент времени может сдохнуть сервер целиком вместе с пулом. Т.е. например, выход из строя RAM на сервере backup1 убъет пул Backup1, но при этом обе части зеркал пула Backup2 на другом сервере backup2 останутся целыми.

~~a_buchinskiy~~
(12.01.20 11:28:12 MSK)

Ссылка

Ответ на: комментарий от a_buchinskiy 12.01.20 10:07:54 MSK

ну отлично млин. ты сказал и не можешь запруфить, а теперь посылаешь меня в гугл.

~~crypt~~ ★★★★★
(12.01.20 11:50:41 MSK)

Ответ на: комментарий от anonymous 12.01.20 11:03:50 MSK

Я психоаналитик в 4-ом или 5-ом (уже подзабыл) поколении.

А вы психоаналитик по папе или по маме?
По ситуации.

~~a_buchinskiy~~
(12.01.20 11:51:00 MSK)

Ответ на: комментарий от a_buchinskiy 12.01.20 11:51:00 MSK

А вы психоаналитик по папе или по маме?

Как чексумма ляжет.

anonymous
(12.01.20 11:52:34 MSK)

Ссылка

Ответ на: комментарий от crypt 12.01.20 11:50:41 MSK

ну отлично млин. ты сказал и не можешь запруфить, а теперь посылаешь меня в гугл.

Ну мне лень, превозмогая специально для тебя:

Using a write-back is dangerous and puts your data at risk. Out-of-order execution of I/O may also cause corruption in case of a reset/crash; some newer I/O requests did make it to disk while some older I/O requests did not.

To use a controller safely with ZFS it needs to support BIO_FLUSH; write-back likely ignores these requests. Basically you’re playing with fire. You also lose most of the ZFS benefits, such as Self Healing and protection against BER/corruption. For all intents and purposes; ZFS treats your array as being non-redundant.

I’d say ZFS is one good example of how Software RAID can be superior to Hardware RAID in a fundamental level.

https://forums.freebsd.org/threads/raid-controller-cache-and-zfs.13720/

~~a_buchinskiy~~
(12.01.20 11:56:19 MSK)

Ответ на: комментарий от anonymous 12.01.20 11:23:15 MSK

И оказалось, что ошибка в корневой чексумме…

Удостоверяющий центр был непгавильный.

Всем спасибо, все свободны.

~~a_buchinskiy~~
(12.01.20 12:00:11 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 →

← Релиз OpenWRT 19.07

Open Source

Релиз встраиваемой системы реального времени Embox v0.4.0 →

Похожие темы