LINUX.ORG.RU
ФорумAdmin

Какие FS хорошо дружат с дедупликацией?

 ,


0

2

Жалко стало дублировать по 2Gb на изолированный maven-репозиторий на каждый профиль сборки.

Начинаю думать о возможности перенести сборку на FS с дедупликацией.

Что сейчас стабильно? В какие грабли я наступлю? Истории успеха?

Как там btrfs поживает?

★★★★★

Что сейчас стабильно?

Самое стабильное - lessfs (fuse). Но под неё мало инструментария в случае чего. Может располагаться на любой fs.

Deleted ()
Ответ на: комментарий от legolegs

А старых добрых хардлинков не хватит?

Там дублируется локальный maven-репозиторий с кучей jar'ников в структуре директорий (например, org/apache/poi/poi-ooxml-schemas/3.17/poi-ooxml-schemas-3.17.jar и их там сейчас ~2500). Небольшая часть из них отличается содержимым, но не названием.

Конечно дедупликацию по целым файлам можно сделать вручную на хардлинках: написать скрипт, который проходится по файлам, сравнивает хеши и где можно заменяет на hardlink. Но приятно было бы поставить fs, которая делает это автоматически. Кроме того если делать скриптом будет опасность отредактировать случайно файл имеющий несколько хардлинков (не знаю в каком случае это может случиться в случае maven-репозитория, но вдруг). А FS может сделать автоматически Copy-on-Write.

Tanger ★★★★★ ()
Ответ на: комментарий от Tanger

Кроме того если делать скриптом будет опасность отредактировать случайно файл имеющий несколько хардлинков

На этот случай можно сделать chmod -w. И это решение можно реализовать за несколько минут (и если не понравится откатить) оставаясь на стабильной фс с поддержкой в ядре. Я бы как минимум попробовал этот вариант, прежде чем бросаться в пучину btrfs/zfsol.

legolegs ★★★★★ ()
Ответ на: комментарий от Tanger

Но приятно было бы поставить fs, которая делает это автоматически.

Автоматической дедупликации не хочешь ты. Для дедупликации на ходу нужно будет постоянно держать хеши отдельных блоков в памяти: https://www.oracle.com/technetwork/articles/servers-storage-admin/o11-113-size-zfs-dedup-1354231.html

i-rinat ★★★★★ ()
Ответ на: комментарий от MumiyTroll

А можно аргументов?

Допустим, в хранилище хранится N копий одних и тех же данных. N > 1. Допустим, вероятность выходя из строя одной копии составляет p. Очевидно, p < 1. Тогда в случае дедуплицированных данных у нас будет всего одна копия, и вероятность её потерять будет p. В случае множества копий, вероятность их всех потерять будет p^N, что меньше p, так как p < 1.

В цифрах:

Если p = 0,01%, и копий было десять, то вероятность потерять данные с дедупликацией — 0,01%. Вероятность потерять все десять копий, если они отдельные — 0,00000000000000000000000000000000000001%.

i-rinat ★★★★★ ()
Ответ на: комментарий от Deleted

Объяснять настолько простые вещи и так подробно, во что тогда ЛОР превратится?

В форум.

Форум это платформа для общения между пользователями интернета на одну тему или на несколько тем. Суть работы форума заключается в создании пользователями (посетителями форума) своих Тем с их последующим обсуждением, путём размещения сообщений внутри этих тем. Отдельно взятая тема, по сути, представляет собой тематическую гостевую книгу. Пользователи могут комментировать заявленную тему, задавать вопросы по ней и получать ответы, а также сами отвечать на вопросы других пользователей форума и давать им советы. Внутри темы также могут устраиваться Опросы (голосования), если это позволяет движок. Вопросы и ответы сохраняются в базе данных форума, и в дальнейшем могут быть полезны как участникам форума, так и любым пользователям сети Интернет, которые могут зайти на форум, зная адрес сайта, или получив его от поисковых систем при поиске информации. Тематика форумов может быть самой разнообразной, охватывая все сферы жизни, и определяется либо владельцами форума или его администрацией, либо зависит от контингента участников. При этом форумы могут быть как специализированные, например, посвящённый музыке или какому-либо музыкальному жанру, а также узкоспециализированные, посвящённые какой-либо музыкальной группе или исполнителю, так и без специализации, в этом случае пользователи сами выбирают темы интересные им. Форумы могут существовать как автономно, без привязки к какому-либо сайту, так и быть частью веб-порталов.

i-rinat ★★★★★ ()
Последнее исправление: i-rinat (всего исправлений: 1)
Ответ на: комментарий от i-rinat

Допустим, в хранилище хранится N копий одних и тех же данных. N > 1.

Так себе математика...

Если мне правда важны некие данные и я захочу их хранить в больше чем одном экземпляре, я положу копии на разные диски.

Да и рейды никто не отменял.

MumiyTroll ★★ ()
Ответ на: комментарий от i-rinat

Сперва ты должен был написать: «Допустим, надежность - это ...». А так вся аргументация ни о чем.
Допустим, надежность - это когда ни одна из копий не потеряется...

anonymous ()
Ответ на: комментарий от i-rinat

Дело в том, что ты в своей аргументации вывел определение надежности на основании своих аргументов.
Поэтому

Допустим, под словом «допустим» мы понимаем ...

- это про твою аргументацию.

anonymous ()
Ответ на: комментарий от i-rinat

Так себе аргумент, если честно. Ты ради сохранности все важные файлы собираешься дублировать на одной и той же фс? И, наверняка, на одном и том же физическом носителе?

Надежность достигается другими методами, а именно бэкапами, которые будут храниться совершенно по-другому, а значит, в любом случае не будут подвержены дедупликации.

Deleted ()
Ответ на: комментарий от i-rinat

Ты оспариваешь «Дедупликация данных понижает надёжность хранения»?

Ну это уже вообще в сторону от вопроса ТС унесло. Он то спрашивал про стабильность самих фс с дедупликацией, а не про надёжность хранения данных в дедуплицированном виде.

Deleted ()
Ответ на: комментарий от i-rinat

Дедупликация данных понижает надёжность хранения

Допустим, дедупликация в этой теме - это процесс нахождение избыточных данных. До дедупликации никакой избыточности не было, и каждая копия была сама по себе и потеря любой копии - есть потеря части данных, что есть потеря информации. После дедупликации у нас есть информация какие копии являются копиями друг друга. То есть мы можем без изменения размера носителя кратно увеличить количество «реплик» одинаковых данных. Как думаешь, надежность увеличилась?

anonymous ()
Ответ на: комментарий от anonymous

Ты оспариваешь «Дедупликация данных понижает надёжность хранения»? Если да, то делай это явно. Если нет, то непонятно, зачем ты это пишешь вообще.

i-rinat ★★★★★ ()
Ответ на: комментарий от i-rinat

Ты оспариваешь

Нихрена он не оспаривает. Он бред несёт, причем конкретный:

После дедупликации у нас есть информация какие копии являются копиями друг друга. То есть мы можем без изменения размера носителя кратно увеличить количество «реплик» одинаковых данных. Как думаешь, надежность увеличилась?

Что это? О чём он? И куда делся его мозг?

Deleted ()
Ответ на: комментарий от anonymous

Дедупликация не влияет на надежность хранения…

Предыдущий аноним почему-то завёл речь о создании дубликатов, и спрашивал, увеличилась ли надёжность. Интересно, что его побудило так написать?

i-rinat ★★★★★ ()
Ответ на: комментарий от i-rinat

Предыдущий аноним

Последние 4 сообщения писал один и тот же аноним - это я. Я пытяюсь выведать от тебя, что такое «надежность хранения». Но нигде не было про надежность, а была аргументация с потолка взятыми вероятностями

anonymous ()
Ответ на: комментарий от i-rinat

В случае множества копий, вероятность их всех потерять будет p^N

Ай не могу, вроде солидный дядька, а в зависимые события и в условную вероятность не смог.

Мы тут про один раздел btrfs речь держим, а не про пять независимых систем хранения данных. Более близкой к правде будет модель, где вероятность протерять данные на нем будет равна p и обусловлена событием, уносящим в небытие весь раздел целиком.

t184256 ★★★★★ ()
Ответ на: комментарий от anonymous

Последние 4 сообщения писал один и тот же аноним - это я.

Ты меня не обманешь, новый аноним. Всем известно, что аноним рождается на короткий миг, пишет сообщение и исчезает в никуда. Следующее сообщение пишет уже другой аноним.

Я пытяюсь выведать от тебя, что такое «надежность хранения».

Тут ты притворяешься предыдущим анонимом? Нет, предыдущий аноним не пытался выяснить, что это такое. Он пытался доказать, что я не прав.

И да, я не собираюсь пытаться генерировать определение надёжности. Если хочешь, сделай сам. И в этой аксиоматике опровергай, что хочешь.

а была аргументация с потолка взятыми вероятностями

Там были переменные! Они могут принимать любые значения!

i-rinat ★★★★★ ()
Ответ на: комментарий от t184256

зависимые события

Да не вопрос! Вместо N копий на одном жёстком диске — N накопителей разных типов в географически разнесённых локациях. :-D

Более близкой к правде будет модель, где вероятность протерять данные на нем будет равна p и обусловлена событием, уносящим в небытие весь раздел целиком.

Видимо, ты не встречался с повреждёнными секторами на жёстких дисках, случайными повреждениями во время записи, случайными записями жёстким диском данных в левое место или сбоями ОЗУ. Любое из таких событий оставляет накопитель работающим. Но с неправильными данными.

i-rinat ★★★★★ ()
Ответ на: комментарий от Deleted

уносящим в небытие весь раздел целиком.

Плюсую.

Я бы не советовал такое плюсовать. Потеря раздела целиком — не очень приятное событие. Лучше, чтобы оно не происходило.

i-rinat ★★★★★ ()
Ответ на: комментарий от i-rinat

Да не вопрос! Вместо N копий на одном жёстком диске — N накопителей разных типов в географически разнесённых локациях. :-D

Вот тогда и только тогда будет работать твоя формула.

Видимо, ты не встречался с повреждёнными секторами на жёстких дисках, случайными повреждениями во время записи, случайными записями жёстким диском данных в левое место или сбоями ОЗУ. Любое из таких событий оставляет накопитель работающим. Но с неправильными данными.

Да ты реально теоретик! Мы все еще о btrfs? Потому что там из коробки блочный checksumming.

t184256 ★★★★★ ()
Ответ на: комментарий от i-rinat

Ты меня не обманешь, новый аноним...

Заменяем «аноним» на «i-rinat». Получаем еще более логичное утверждение.

... пытался доказать, что я не прав.
... я не собираюсь пытаться генерировать определение надёжности ...

Определения у тебя нет, но ты однозначно прав. Логично.

а была аргументация с потолка взятыми вероятностями

Там были переменные! Они могут принимать любые значения!

Определения нет. Взял переменные с потолка. Применил математику, взятую с потолка. Получил результат, который захотел получить.

anonymous ()
Ответ на: комментарий от t184256

Мы все еще о btrfs?

Э… Нет. Откуда тут взялась btrfs?

Да ты реально теоретик!

Странный вывод.

Вот тогда и только тогда будет работать твоя формула.

Я удивлён, что ты не вспомнил про катастрофы планетарного масштаба. Ведь с их учётом события получаются зависимые.

i-rinat ★★★★★ ()
Ответ на: комментарий от i-rinat

Э… Нет. Откуда тут взялась btrfs?

Э… тред про нее, см. шапку.

Я удивлён, что ты не вспомнил про катастрофы планетарного масштаба. Ведь с их учётом события получаются зависимые.

Они входят в мое p =)

t184256 ★★★★★ ()
Ответ на: комментарий от anonymous

Заменяем «аноним» на «i-rinat». Получаем еще более логичное утверждение.

Не вижу логики. Она тут есть?

Определения у тебя нет, но ты однозначно прав. Логично.

А я разве утверждал, что я прав? Я тебе предоставил широкие возможности по фальсификации моих утверждений. Кажется, это называется «научный метод». Что тебе (бесконечная череда анонимов) ещё нужно для полного счастья?

Взял переменные с потолка.

Ну хорошо. Не нравятся тебе p и N, пусть будут ξ и Ψ.

Видишь, до чего ты меня довёл? До использования греческих букв. Греческих! Я их с универа не использовал! Доволен? Доволен?!

i-rinat ★★★★★ ()