Чтение squashfs с диска медленнее чем из файла на разделе

0

2

Как известно swap можно размещать не только в отдельном разделе но и в обычном файле на существующем разделе, но не рекомендуется по понятным причинам: дополнительная прослойка намекает на меньшую производительность.

Понадобилось заархивировать (и сжать) 1 ТБ диск (забитый где-то на треть) так, чтобы можно было сохранить простой доступ на чтение. Ничего лучше кроме squashfs не нашёл. Зато как раз вовремя подоспела поддержка zstd в ядре (пришлось разве что самому собрать свежий squashfs-tools). В итоге получилось, и быстрее, и без потери в размере (189 ГБ zstd против 193 ГБ gzip).

Сохранил образ с диска и создал раздел, на который через dd записал squashfs образ. Потом примонтировал и проверил на целостность: md5sum -b /mnt/sqfs/raw.hdd.img. Диск этот - внешний 2,5" USB2, так что максимум чтение 30 МБ/с (зато вне зависимости начало диска или конец). Получилось где-то 260 минут.

На всякий случай, решил сделать ext4 раздел минимального подходящего размера с -m 0 -T largefile4 и просто переписать образ в виде файла. Примонтировал, запустил проверку. Закончилась через... 160 минут. Не ожидал.

Выходит, или я что-то упустил, или мне выгоднее оставить тот ext4 раздел с единственным файлом-образом (разве что каждый раз при автомонтировании появляется предупреждение, что на нём осталось слишком мало места)?

Ссылка

←	Не поднимаются мосты для Proxmox

Не работает Read permission для Other users

→

2 раза перечитал и так ничего и не понял. Поздравляю, сегодня ты победил.

anonymous
(11.09.18 00:01:26 MSK)

Ссылка

вероятно это баг. как я понимаю, squashfs не предназначался для записи прямо вместо раздела. по zstd: не лучше ли тогда юзать btrfs? в него тоже недавно впилили.. а вот squashfs не вижу смысла юзать с чем-то другим, ктоме xz..

PexuOne ☆
(11.09.18 00:02:03 MSK)

Можешь забить пустоту нулями, пробить дырки, и оставить как есть — эффективность будет на порядки выше, да и писать данные можно будет. 10 гигов разницы тебе погоды не сделают.

anonymous
(11.09.18 00:06:19 MSK)

Ответ на: комментарий от PexuOne 11.09.18 00:02:03 MSK

вероятно это баг. как я понимаю, squashfs не предназначался для записи прямо вместо раздела.

Я тестировал простейший последовательный доступ (md5sum). Разве что readahead кеш диска мог бы быть не включен / не использован по-умолчанию...

не лучше ли тогда юзать btrfs? в него тоже недавно впилили..

squashfs - это довольно стандартное решение, zstd - это уже несколько экспериментальный момент, но надеюсь что разархивирование не поломают. А вот btrfs лучше не буду трогать.

а вот squashfs не вижу смысла юзать с чем-то другим, ктоме xz..

Так я диск что через USB1, что напрямую по SATA смогу подключать, а скорость чтения будет где-то та же.

gag ★★★★★
(11.09.18 00:29:57 MSK) автор топика

Ответ на: комментарий от anonymous 11.09.18 00:06:19 MSK

Можешь забить пустоту нулями

Это уже предварительно проделано.

пробить дырки, и оставить как есть — эффективность будет на порядки выше, да и писать данные можно будет. 10 гигов разницы тебе погоды не сделают.

Т.е. вытащить raw.hdd.img в виде файла (для чего понадобится 1 ТБ, но немного больше чем можно было бы выделить на разделе на имеющемся 1 ТБ диске, а другого терабайта нет сейчас под рукой) и продырявить его так, что останется только треть (т.е. около 300 ГБ). Потеря всё таки будет не 10, а 100 гигов.

gag ★★★★★
(11.09.18 00:30:03 MSK) автор топика

Ответ на: комментарий от gag 11.09.18 00:29:57 MSK

Разве что readahead кеш диска мог бы быть не включен / не использован по-умолчанию...

hdparm -A /dev/disk/by-id/ata-TOSHIBA_...

/dev/disk/by-id/ata-TOSHIBA_...
 look-ahead    =  1 (on)

По крайней мере включён.

gag ★★★★★
(11.09.18 00:32:20 MSK) автор топика

Ссылка

Ответ на: комментарий от gag 11.09.18 00:30:03 MSK

Останется ровно занятое простанство. Я не знаю может у тебя там одни текстовые файлы, я сжимал образы виртуалок с бинарными данными и разница была довольно незначительна. Накладные расходы перевесили потенциальную пользу стократ.

anonymous
(11.09.18 00:53:22 MSK)

Ссылка

Ответ на: комментарий от gag 11.09.18 00:30:03 MSK

Ты что, храниш в сквоше не файлы с раздела, а образ раздела? Зачем!?

timdorohin ★★★★
(11.09.18 01:09:43 MSK)

Ответ на: комментарий от timdorohin 11.09.18 01:09:43 MSK

ну типа доступ к сжатому файлу без распаковки. это вообще всё, что было понятно из поста, а ты даже в это не смог.

system-root ★★★★★
(11.09.18 01:19:23 MSK)

Ответ на: комментарий от system-root 11.09.18 01:19:23 MSK

Я просто в такое извращение по-началу поверить не мог...

timdorohin ★★★★
(11.09.18 01:34:40 MSK)

Ссылка

Ответ на: комментарий от timdorohin 11.09.18 01:09:43 MSK

Ты что, храниш в сквоше не файлы с раздела, а образ раздела? Зачем!?

И даже не раздела, а всего диска с несколькими разделами.

Там на главном разделе ФС с не самой лучшей поддержкой в линуксе на данный момент.

gag ★★★★★
(11.09.18 02:09:47 MSK) автор топика

Ответ на: комментарий от gag 11.09.18 02:09:47 MSK

Ну так скопируй из сжатого сквоша, по-моему cp теперь и по умолчанию создаёт sparse файлы.

anonymous
(11.09.18 02:17:47 MSK)

Ответ на: комментарий от gag 11.09.18 02:09:47 MSK

А не лучше данные достать? А то я тоже так qcow с нтфс подключал, не очень хорошо получилось (особенно запись удручает).

anonymous
(11.09.18 02:20:57 MSK)

Ответ на: комментарий от anonymous 11.09.18 02:17:47 MSK

Specify --sparse=always to create a sparse DEST file whenever the SOURCE file contains a long enough sequence of zero bytes.

Хорошая дока: «long enough».

Ради бенчмарка можно попробовать.

gag ★★★★★
(11.09.18 02:28:28 MSK) автор топика

Ответ на: комментарий от anonymous 11.09.18 02:20:57 MSK

Там HFS+, а на ней Time Machine. Там столько файлов (и hard ссылок), что любые операции длятся минутами.

gag ★★★★★
(11.09.18 02:31:14 MSK) автор топика

Ссылка

Научный подход. Единственный эксперимент и масштабные выводы. Экстраполяция по одной точке. Интересно, хватит ли духу повторить эксперимент на 260 минут еще раз 5?

anonymous
(11.09.18 10:08:04 MSK)

Ответ на: комментарий от anonymous 11.09.18 10:08:04 MSK

Часто, проблема не в повторах. А в нахождении причин систематических погрешностей и их самих. Будет у него невыровненный раздел, или bad block, там - хоть 100 раз пусть повторит, а погрешность не денется никуда и не отыщется.

Deleted
(11.09.18 10:16:42 MSK)

Ответ на: комментарий от anonymous 11.09.18 10:08:04 MSK

Второй раз повторял. Т.к. эксперимент длится не наносекунды и даже не пару минут, то тут сколько не повторяй, различий нет.

gag ★★★★★
(11.09.18 10:35:19 MSK) автор топика

Ответ на: комментарий от Deleted 11.09.18 10:16:42 MSK

Будет у него невыровненный раздел

Его нет, но даже если бы был, на чтение это не влияет (учитывая что размер блока намного превышает 4K).

или bad block,

Что squashfs-раздел, что ext4-раздел с squashfs-образом создавались в одной и той же области диска.

gag ★★★★★
(11.09.18 10:35:43 MSK) автор топика
Последнее исправление: gag 11.09.18 10:39:15 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Deleted 11.09.18 10:16:42 MSK

Для этого повторение эксперимента и нужно, чтоб понять, что не так с экспериментом или самим экспериментатором, который делает эксперименты на 260 минут

anonymous
(11.09.18 10:38:28 MSK)

Ссылка

Ответ на: комментарий от gag 11.09.18 10:35:19 MSK

Тебе рассказать как поставить более грамотный эксперимент? Может сам догадаешься? Начни с того, что 260 минут на эксперимент - это долговато. Разве нет? Потом можешь перейти к проверке частей: скорость чтения диска, файла с диска, файла с примонтированной фс, потраченное время, влючая системное на каждую операцию. Потом догадаешься играться с размерами блоков, методами сжатия, размера словарей для сжатия, степень сжатия и тд и тп. Этож сколько экспериментов по 260 минут?

anonymous
(11.09.18 10:49:03 MSK)

Ответ на: комментарий от anonymous 11.09.18 10:49:03 MSK

Да нормально, ему будет чем заняться в ближайший месяц. Зато эксперимент будет максимально правдоподобный (хоть и неэффективный).

anonymous
(11.09.18 10:52:59 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.09.18 10:49:03 MSK

А, вот ты о чём.

скорость чтения диска

уже сообщал: в среднем 30 МБ/с

файла с диска

смотря какой регион файла считывается: с нулями - тогда скорость разархивирования нулей (сильно упирается в скорость чтения с диска) или данных (тогда не так сильно).

файла с примонтированной фс

да, это было бы самым показательным числом, но достаточно большого файла там, по-моему, нет, пришлось бы искать несколько не очень больших.

играться с размерами блоков, методами сжатия, размера словарей для сжатия, степень сжатия и тд и тп.

Но я всего-то хотел образ диска заархивировать. И так уже провозился значительно больше чем ожидал. Целую статью писать не планировал.

gag ★★★★★
(11.09.18 11:00:30 MSK) автор топика

Ответ на: комментарий от gag 11.09.18 11:00:30 MSK

Ты ничего не понял.
Делаешь тестовый диск, закидываешь туда некоторое количество разделов с разнообразными файловыми системами, содержащими разноцветные файлы в разношерстных директориях. Посредством первых экспериментов выявляешь годность материала для дальнейших исследований, годность - включая по затратам времени.

смотря какой регион файла считывается: с нулями - тогда скорость разархивирования нулей (сильно упирается в скорость чтения с диска) или данных (тогда не так сильно).

Скорость распаковки исходных нулей, в правильных (де)компрессорах упирается в скорость записи распакованных нулей (и не только нулей, а одинаковых кусочков).

Но я всего-то хотел образ диска заархивировать. И так уже провозился значительно больше чем ожидал. Целую статью писать не планировал.

Так ты его сжал, но зачем-то начал дальше над результатом извращаться, сравнивая с чем-то другим в поисках виноватого. Тебе сжать надо или искать виноватого?

anonymous
(11.09.18 11:17:28 MSK)

Ответ на: комментарий от anonymous 11.09.18 11:17:28 MSK

Ну, да-да.

Так ты его сжал, но зачем-то начал дальше над результатом извращаться, сравнивая с чем-то другим в поисках виноватого. Тебе сжать надо или искать виноватого?

Запостив тут я надеялся, что после описания симптомов, может, найдётся кто-то, кто уже находил виноватого.

А так оставлю образ в файле на ext4 - и всё.

И другим для инфы: исключение из правила «меньше прослоек - больше производительность».

gag ★★★★★
(11.09.18 11:23:59 MSK) автор топика

Ответ на: комментарий от gag 11.09.18 11:23:59 MSK

Запостив тут я надеялся, что после описания симптомов, может, найдётся кто-то, кто уже находил виноватого.

usb2, squashfs, образ диска, md5sum. Мало кто работает в таком окружении, еще меньше тех кто обращает на всякие симптомы в таком окружении.

И другим для инфы: исключение из правила «меньше прослоек - больше производительность».

Перешел на portage в squashfs, да еще через fuse, «производительность» выросла. Использую squashfuse_ll, без _ll - эталонный тормоз на тормозе(fuse) , а так на всего на 15% медленее ядерного.

anonymous
(11.09.18 11:38:05 MSK)

Ссылка

Ответ на: комментарий от gag 11.09.18 02:28:28 MSK

Попробовал, даже --sparse= не пришлось указывать. Вышло 315 ГБ. Потеря от ёмкости диска по сравнению со squashfs+zstd: 13,5% (126 ГБ от 932 ГБ).

Да и чтение+md5sum оказалось медленнее: почти 200 минут. Принципиальной разницы, что быстрее читается с диска: хорошо упакованные нули или sparse-дырки, я не вижу. Значит, было достаточно данных, которые хорошо утрамбовались и были распакованы без потери производительности (т.е. со скоростью не меньшей скорости чтения с диска).

gag ★★★★★
(14.09.18 15:34:21 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Не поднимаются мосты для Proxmox

General

Не работает Read permission для Other users

→

Похожие темы