LINUX.ORG.RU

В ZFS появилась поддержка исключения дубликатов

 ,


0

0

Jeff Bonwick, разработчик интересной во всех смыслах файловой системы нового поколения ZFS, в своём блоге сообщил о реализации следующего новшества — системы автоматического распознавания и объединения дубликатов!

Технология работает на уровне блоков данных, что, по оценке разработчиков Sun, является более универсальным и менее ресурсоемким решением, по сравнению с вычислением дубликатов на уровне файлов или произвольных наборов байтов. Как известно, для каждого блока данных в ZFS вычисляется контрольная сумма по алгоритму SHA256. Если данная контрольная сумма уже присутствует в хэше, то запись такого же блока данных, который уже есть в хранилище, не производится, а создаётся ссылка на уже имеющийся блок данных. То есть, если в нескольких файлах присутствуют одинаковые блоки данных, то они будут сохранены на физический носитель только один раз.

>>> Подробности

★★★★★

Проверено: maxcom ()

Ответ на: комментарий от Yareg

>что будет, если у меня есть разные блоки данных с одинаковой контрольной суммой? Если сделать очень большой файл, наполненный белым шумом, то это вполне вероятно.

10^-77? играйте лучше в спортлото, выиграть джекпот вероятней в сотни триллионов раз.

gigabito
()
Ответ на: комментарий от anonymous

>rsync для бекапов + дисциплина - рулят.

рулит - несгораемый сейф и носитель который в него влезет. а rsync и дисциплина - со временем поймете что это кони в вакууме.

gigabito
()
Ответ на: комментарий от anonymous

>>Проблема - в долговременных архивах которые хранятся десятилетиями и в которых всё равно накапливаются сбои со временем
>>Достаньте 2-3 дискеты

и после этого вы будете рассуждать о наличии юбер-важных данных на дискетах, наверное еще и в ячейке швейцарского банка на сохранении, вдрук, ВНЕЗАПНО, блок повредился, да еще и на 2 сразу, один и тот же.
все важные данные, на долгое хранение, идут на ленту и ничего с ней не будет, при соблюдении элементарной техники безопасности.
>>Теперь - если уж сглючит - то навсегда (так как будет одна копия)

а raid для кого придумали???

EvgGad_303 ★★★★★
()
Ответ на: комментарий от gigabito

> а если и взломают, какие вопросы? допустим есть некий фаел например sshd, который мы хотим инжектнуть. злой хацкер пытается подобрать коллизию на некий блок sshd, в которую можно было бы всунуть сплоет, и наконец, проделав титанический(!) труд, шлёт например письмецо или хитрый http-реквест на желаемый сервер.

Это если вести речь о файлах, которые уже есть на сервере. Но речь шла о файлах, которых там ещё нет, но которые появятся уже после того, как взломщик разместит там свой файл. Например, обновление того же sshd, или какая-нибудь сторонняя библиотека, которую клиент хостера может попросить установить.

askh ★★★★
()
Ответ на: комментарий от askh

>обновление того же sshd, или какая-нибудь сторонняя библиотека, которую клиент хостера может попросить установить.

я слабо представляю хостера, который, юзая dedup без verify, после взлома sha256 побежит ставить сторонние библиотеки и ни с того ни с сего обновлять sshd. как слабо представляю сам взлом sha256. на сегодняшний день для контрольных сумм вполне подошел бы и md5, заепутся в коллизию сплойт пихать

gigabito
()
Ответ на: комментарий от EvgGad_303

>и после этого вы будете рассуждать о наличии юбер-важных данных на дискетах, наверное еще и в ячейке швейцарского банка на сохранении, вдрук, ВНЕЗАПНО, блок повредился, да еще и на 2 сразу, один и тот же.
все важные данные, на долгое хранение, идут на ленту и ничего с ней не будет, при соблюдении элементарной техники безопасности.


Разумеется - я всё скопировал с дискет лет 10 назад. Я привёл в пример дискеты - как аналог дисков. С дисками в долгострочной перспективе - те же проблемы. Просто временные сроки другие, в несколько раз большие.

Ещё раз: проблема лент в том - что периодически не проишодит верификация. С rsync - вы регулярно получаете фидбек о состоянии блоков на всех носителях (в моём примере в течение месяца - на 2м уровне, года - на третьем). Если используете ленты - для этого нужны телодвижения и много времени. Мне время дорого и верификация состояния старых дисков делается автоматически.

>а raid для кого придумали???


Если подумать - он не решает проблему. С ростом данных - наличие рейдов увеличивает бюджет хранения архивов - во много раз.
Всё равно нужна избыточность информации, распределённая географически, и 2-сторонняя синхронизация. Зачем тогда траты на рейд?

anonymous
()
Ответ на: комментарий от anonymous

>>дискеты - как аналог дисков
вот именно, что аналог дисков. ленты сохраняют информацию много дольше любой другой медии. тут конкурент только диск в режиме write-only.
>>С rsync - вы регулярно получаете фидбек

>>С ростом данных - наличие рейдов увеличивает бюджет хранения архивов - во много раз.

вот тут как-то не вяжется, рэйд - 2х затраты на диски(а ведь есть не только зеркало), рсинк - 2х затраты на систему целиком.
>> распределённая географически, и 2-сторонняя синхронизация.

когда об этом говорят, про траты можно не вспоминать - они как бэ само-собой...
и поверьте, там где применяют географическое распределение никому в голову не придет не использовать raid.

EvgGad_303 ★★★★★
()
Ответ на: комментарий от gigabito

ну MFM в основном работали только со своим контроллером, так что если есть диск и родной контроллер то мать с isa тебе в помощь.

exception13 ★★★★★
()
Ответ на: комментарий от EvgGad_303

>вот тут как-то не вяжется, рэйд - 2х затраты на диски(а ведь есть не только зеркало), рсинк - 2х затраты на систему целиком.
>когда об этом говорят, про траты можно не вспоминать - они как бэ само-собой...

и поверьте, там где применяют географическое распределение никому в голову не придет не использовать raid.


Ещё раз (следите за моей логикой):
просто рейд - задачу не решает. Пожар, кража - и всё.
Нужно распределённое хранение.
Если оно _уже_ есть - то зачем траты на рейд?
(я разумеется нигде не говорил - про распределённый рейд - это было-бы безумием).

Итак - в архивах - рейды не нужны (ну разве что если деньги не куда девать. Я не говорю что рейд - плохо. Просто не необходимо и не решают ничего в задаче хранения долговременных архивов).

anonymous
()
Ответ на: комментарий от anonymous

>http://www.mscs.dal.ca/~selinger/md5collision/

и во сколько раз возрастает время перебора коллизий при необходимости наличия определенного байта в определенном месте? а? в 2^8 раз если не ошибаюсь

gigabito
()
Ответ на: комментарий от anonymous

Вы готовы записать на ленту - и оставить её внукам?

бггг.. enterprise storage может содержать кучу шкафов, в которых ползает робот и верифицирует данные на картриджах... кроме того обычно данные резервируются и пишутся на разные кассеты... так что всё тип топ :)

shty ★★★★★
()
Ответ на: комментарий от shty

В нашей под-дискуссии речь идёт о долговременных домашних (и не только) архивах, где никто не покупает энтерпрайз.
В случае применении дисков - стоимость практически равна стоимости носителей сегодня (<стоимости_носителей> + <мусорные_старые_писюки> х <количестов_уровней_бекапа>), т.е. порядка $100 за полтора терабайт.

anonymous
()
Ответ на: комментарий от shty

>бггг.. enterprise storage может содержать кучу шкафов, в которых ползает робот и верифицирует данные на картриджах... кроме того обычно данные резервируются и пишутся на разные кассеты... так что всё тип топ :)

Если у Вас в подвале или под столом - куча шкафов, в которых "ползает робот и верифицирует данные на картриджах... кроме того обычно данные резервируются и пишутся на разные кассеты...", тогда круто однако...

anonymous
()

Единственное, что приходит в голову, зачем это нужно - это реализация версий файлов "аля" VAX/VMS

В принципе версия файла вещь весьма полезная.

Evgueni ★★★★★
()
Ответ на: комментарий от EvgGad_303

там где применяют географическое распределение никому в голову не придет не использовать raid

4.2

с чего бы это? на каждой географически распределённой ноде ставится кластер и в нём raid-массив... а как Вы обеспечите сохранность информации при выходе физического диска из строя?

shty ★★★★★
()
Ответ на: комментарий от anonymous

В нашей под-дискуссии речь идёт о долговременных домашних (и не только) архивах, где никто не покупает энтерпрайз.

ну тогда извините... просто параллельно идёт беседа о георафически распределённых кластерах... а это вполне себе ынтерпрайз решения и бабло :)

shty ★★★★★
()
Ответ на: комментарий от anonymous

Просто не необходимо и не решают ничего в задаче хранения долговременных архивов).

4.2 учите матчасть

все нормальные (!) системы долговременного хранения информации поддерживают хранение информации в raid

и да, сами подумайте как Вы будете бороться со старением и последующим отказом физических носителей?

shty ★★★★★
()
Ответ на: комментарий от anonymous

>>просто рейд - задачу не решает. Пожар, кража - и всё.
именно для этого и используют ленты, и в сейф.
>>Если оно _уже_ есть - то зачем траты на рейд?

рэйд - это не только избыточность, выбором правильного типа, в зависимости от соотношения чтение/запись, можно нехило добавить производительности.
>>Итак - в архивах - рейды не нужны

утверждение не совсем корректно. географически распределенные архивы - вот уж, действительно, деньги девать некуда ;)
если очень надо - 2 ленты в разных хранилищах.
а дисковые архивы используют только когда необходима уверенность в НЕИЗМЕННОСТИ данных, на протяжении определенного времени.

EvgGad_303 ★★★★★
()
Ответ на: комментарий от anonymous

>В нашей под-дискуссии речь идёт о долговременных домашних (и не только) архивах, где никто не покупает энтерпрайз.

да кому нафиг нужны домашние архивы? пару винтов на усб купил, один сдох другой жив. кому вообще нужен linux и zfs дома?

gigabito
()
Ответ на: комментарий от EvgGad_303

географически распределенные архивы - вот уж, действительно, деньги девать некуда

некорректно... из-за таких решений когда WTF «выпиливали» куча инфы слилась в /dev/null... и географическое распределение защищает данные (включая архивы) от наводнения/потопа/пожара/«ядрёной бомбандировки» (подчеркните нужное)

shty ★★★★★
()
Ответ на: комментарий от EvgGad_303

ой, сорри... перепутал Вас с вашим оппонентом :)

shty ★★★★★
()
Ответ на: комментарий от gigabito

да кому нафиг нужны домашние архивы? пару винтов на усб купил, один сдох другой жив. кому вообще нужен linux и zfs дома?

+1000

shty ★★★★★
()
Ответ на: комментарий от gigabito

я ждал когда это произойдет - не путаем архивы и просто дисковые массивы =)
хотя, сдается мне, уважаемый анонимус-админ распределенного-географического домашнего архива уже попутал понятия =)

EvgGad_303 ★★★★★
()
Ответ на: комментарий от EvgGad_303

а дисковые архивы используют только когда необходима уверенность в НЕИЗМЕННОСТИ данных, на протяжении определенного времени.

эээ.... поясните фразу

я всегда считал, что дисковые архивы используются для организации online storage, т.к. у них сравнительно небольшое время доступа, не?

shty ★★★★★
()
Ответ на: комментарий от shty

я всеже под архивами имел ввиду data retention =)
и я знаю только несколько контор, которые используют геог. распределение, и то не в моей стране.

EvgGad_303 ★★★★★
()
Ответ на: комментарий от shty

это зовется дисковый массив.
а дисковый архив - я уже несколько раз писал, что это =)
может просто моя русско-язычная терминология меня подводит?

EvgGad_303 ★★★★★
()
Ответ на: комментарий от EvgGad_303

я всеже под архивами имел ввиду data retention =)

это несколько узкое понимание архивов :)

и я знаю только несколько контор, которые используют геог. распределение, и то не в моей стране.

в основном банки биржи, и прочие предприятия с приличным оборотом фин. средств... и они не любят светить чего у них там как... поэтому неудивительно

shty ★★★★★
()
Ответ на: комментарий от EvgGad_303

это зовется дисковый массив. а дисковый архив - я уже несколько раз писал, что это =) может просто моя русско-язычная терминология меня подводит?

возможно, а возможно я с такими устройствами не сталкивался... приведите линк на девайс

shty ★★★★★
()
Ответ на: комментарий от EvgGad_303

если у меня диск вылетает - я легко его меняю и перекидываю данные с одного из уровней.
Гуглу тоже говорили - без серверов энтерпрайз-уровня в бизнес не суйтесь, а ведь поди-ж ты.. Обычные писюки используют, засранцы и энтерпраиз не покупают.

Применении рейда для ускорения доступа - это совсем другая песня, там и другие типы рейдов нужны.

за 20 лет хранения данных у меня масса разных дисков сдохла, не перечесть, начиная с 40М. И ничего не потеряно. И ни разу я не покупал рейд. И ленты не покупал. ЧЯДНТ? Скорость смены и инкрементальные бекапы rsync - гораздо быстрее чем с лентами. Ленты это то-же зло - что и бекапирование на CD. Не масштабируемо, не знаешь - в каком состоянии архивы, переносишь головную боль на будущее и тд.

Но мы конечно о разных вещах говорим. Я - об архивах. Вы - об ентерпрайзе (хотя энтерпрайз со временем тоже постепенно удаляет ненужные сущности для удешевления)

anonymous
()
Ответ на: комментарий от shty

и да... что-то мне подсказывает что «policies of persistent data and records management for meeting legal and business data archival requirements» никак не связано с аппаратной частью... скорее с программной

единственное мне исключение - SOHO storage на dvd дисках

shty ★★★★★
()
Ответ на: комментарий от shty

я уже догадался :р
просто не успеваю строчить ответы.
и вдрук кому еще интересно...

EvgGad_303 ★★★★★
()
Ответ на: комментарий от anonymous

если у меня диск вылетает - я легко его меняю и перекидываю данные с одного из уровней.

э? у Вас, простите, размер архива какой? опишите систему поподробнее, плиз...

Гуглу тоже говорили - без серверов энтерпрайз-уровня в бизнес не суйтесь, а ведь поди-ж ты.. Обычные писюки используют, засранцы и энтерпраиз не покупают.

пруфлинк иде?..

а потом, прости господи, мелкомягкий бинг в несколько раз быстрее результаты выдаёт... может по этому :)

за 20 лет хранения данных у меня масса разных дисков сдохла, не перечесть, начиная с 40М. И ничего не потеряно. И ни разу я не покупал рейд.

начиная с некоторого уровня это делать становится затруднительно...

Ленты это то-же зло - что и бекапирование на CD. Не масштабируемо, не знаешь - в каком состоянии архивы, переносишь головную боль на будущее и тд.

4.2 с rsync-то, конечно...

Но мы конечно о разных вещах говорим. Я - об архивах. Вы - об ентерпрайзе

никак не вижу почему это несовместные понятия... и да, ынтерпрайз решения сейчас идут в массы в связи с удешевлением

shty ★★★★★
()

Этой фиче уже 1000 лет.

Еще в мсдос, в фат12 время от времени возникали общие для нескольких файлов блоки.

AVL2 ★★★★★
()
Ответ на: комментарий от shty

нечего описывать. Домашняя файлопомойка. Но со временем для каждого человека - она становится всё важнее и важнее. Проблема хранения домашних архивов ещё в 2003 или около того году - была на конгрессе компьютер саентистов признана как одна из 10 первоочередных проблем перед компьютингом. Есть линки где-то но облом искать.
усб-диски частично решают проблему.
Но они - только в пользу моего аргумента против рейдов и в пользу rsync - как универсального средства.

Насчёт гугловской архитектуры - полно линков, в том числе проскакивало на лоре. Поищите. Мне искать влом. Факт тот что они первыми перешли на коммодити хардваре и быструю дешёвую смену железа - когда надо.

anonymous
()
Ответ на: комментарий от anonymous

>Гуглу тоже говорили - без серверов энтерпрайз-уровня в бизнес не суйтесь, а ведь поди-ж ты.. Обычные писюки используют, засранцы и энтерпраиз не покупают.

чтобы использовать обычные писюки в энтерпрайзе нужно быть гуглом. запомни это.

gigabito
()
Ответ на: комментарий от anonymous

к усб-дискам - нужна ещё дисциплина периодической синхронизации, верификации и восстановления - на случай дизастера.
Это дисциплина у рядового юзера отсутствует, тем более навыки работы с такими тулами как testdisk, так что софт (стандартизованный, а не закрытые решения от многих компашек) для вендузятников - всё ещё остаётся нерешённой задачей. Чтобы гарантировать - что и через 100 лет - рядовой Вася сможет открыть фотки своих пра-пра-пра-внуков на любой системе.
Я решаю проблемы линуксом, NFS, rsync, скриптами и дисциплиной. И ZFS я не поставлю по нескольким причинам. Одна из них - testdisk не будет работать. Другая - не могу просто создавать резервные копии блоков - как сказано выше.

Так понятнее?

anonymous
()
Ответ на: комментарий от anonymous

нечего описывать. Домашняя файлопомойка. Но со временем для каждого человека - она становится всё важнее и важнее.

тогда Вам и «пары» dvd дисков вкупе с каталогом хватит :)

Но они - только в пользу моего аргумента против рейдов и в пользу rsync - как универсального средства.

тут Вы и допускаете ошибку... универсальное - оно только для Вас. :)

Насчёт гугловской архитектуры - полно линков, в том числе проскакивало на лоре. Поищите. Мне искать влом

трындеть не влом значит, а и искать влом :) распостранённая модель

Факт тот что они первыми перешли на коммодити хардваре и быструю дешёвую смену железа - когда надо.

а я вот сомневаюсь что факт... Вы просто не видите проблем такого решения, но это не значит что их нет

shty ★★★★★
()
Ответ на: комментарий от shty

> тогда Вам и "пары" dvd дисков вкупе с каталогом хватит :)

опять cd/dvd...
как поиск делать будем когда таких дисков сотни будет? Верифицировать периодически как? Моментальный доступ к любому файлу итд.

> тут Вы и допускаете ошибку... универсальное - оно только для Вас. :)

> трындеть не влом значит, а и искать влом :) распостранённая модель


я о себе и говорю. А трындеть начали как раз Вы.

Разрешите раскланяться (Вы правы: надо идти по-делам).

anonymous
()
Ответ на: комментарий от shty

и да... вот Вам маленький пример сегмента серверной фермы... фига-с два Вы там компактно расположите обычные тачки и аккуратно и надёжно разведёте питание и коммуникации

http://episteme.arstechnica.com/eve/forums/a/tpc/f/833003030931/m/762005710041

shty ★★★★★
()
Ответ на: комментарий от anonymous

тогда Вам и «пары» dvd дисков вкупе с каталогом хватит :)

опять cd/dvd... как поиск делать будем когда таких дисков сотни будет? Верифицировать периодически как? Моментальный доступ к любому файлу итд.

Вам сюда:

http://www.lighthdm.com/services_preservation_archive/archiving_data/archive_...

shty ★★★★★
()
Ответ на: комментарий от shty

хотя... нашёл про гугель...

http://www.codinghorror.com/blog/archives/000814.html

и правда надо быть гугелем, чтобы такое заработало...

и тем не менее плотность такого решения серьёзно сливает современным blade-системам, а так же усос идёт по энергопотреблению, back-up'у, надёжности и ещё чуть менее чем 9000 показателям :)

shty ★★★★★
()
Ответ на: комментарий от anonymous

Разрешите раскланяться

слив засчитан, удачи в делах :)

shty ★★★★★
()
Ответ на: комментарий от anonymous

>что и через 100 лет - рядовой Вася сможет открыть фотки своих пра-пра-пра-внуков на любой системе.

да ему ето нахер не надо. ты давно в семейный альбом заглядывал? я - лет 10 назад. а прикинь есть люди коих большинство, которые фоткают, выкладывают на какойнить фликр или вконтакт и через 3-4 месяца их совершенно не волнует что случилось с фоткой.

и таких большинство. никто не трясется над байтиками в домашнем архиве кроме тех кому трястись над байтиками положено и на работе. так понятно?

gigabito
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.