Архивирование исходников

Используйте tar и zstandard:

tar --zstd -cf output.tar.zst input_dir

Или, если версия tar старая:

tar -I zstd -cf output.tar.zst input_dir

ValdikSS ★★★★★
(15.06.19 13:08:58 MSK)

Ответ на: комментарий от ValdikSS 15.06.19 13:08:58 MSK

zstandard

Спасибо, добрый и мудрый ValdikSS, без тебя бы я и таких слов не узнал)
В работе.

athost ★★★★★
(15.06.19 13:24:02 MSK) автор топика

Ссылка

Ответ на: комментарий от ValdikSS 15.06.19 13:08:58 MSK

А как этот zstandard в сравнении с xz / 7z ?

rumgot ★★★★★
(15.06.19 13:32:51 MSK)

Ответ на: комментарий от rumgot 15.06.19 13:32:51 MSK

А предлагай команду сжатия, а я проверю.
По крайней мере по степени сжатия, я предыдущую без time запустил.

athost ★★★★★
(15.06.19 13:36:43 MSK) автор топика

Ссылка

Ответ на: комментарий от rumgot 15.06.19 13:32:51 MSK

А как этот zstandard в сравнении с xz / 7z ?

Должен быть быстрее..

Tanger ★★★★★
(15.06.19 13:42:05 MSK)

Ссылка

А что ты потом будешь делать с архивом?.

Tanger ★★★★★
(15.06.19 13:43:29 MSK)

Ответ на: комментарий от ValdikSS 15.06.19 13:08:58 MSK

tar --zstd -cf output.tar.zst input_dir

Что-то сжатие не впечатляет. Получилось 32 и 35, но достаточно быстро имхо.

athost ★★★★★
(15.06.19 13:50:44 MSK) автор топика

Ответ на: комментарий от Tanger 15.06.19 13:43:29 MSK

На гуглодрайв залью.
Попросил человек из Крыма, говорит, что никак не может сам.

athost ★★★★★
(15.06.19 13:51:49 MSK) автор топика

Ссылка

Ответ на: комментарий от rumgot 15.06.19 13:32:51 MSK

Запустил из Krusader'a «tar c сжатием xz»
Посмотрим на результат.
Предыдущее заняло приблизительно 30 мин.

athost ★★★★★
(15.06.19 13:55:56 MSK) автор топика
Последнее исправление: athost 15.06.19 13:57:20 MSK (всего исправлений: 1)

Ответ на: комментарий от athost 15.06.19 13:50:44 MSK

У zstd в широких пределах настраивается степень сжатия и скорость , так-что гугли как в tar подкрутить уровень сжатия

MrClon ★★★★★
(15.06.19 14:07:20 MSK)

Ответ на: комментарий от athost 15.06.19 13:55:56 MSK

Krusader

tar cJf file.tar.xz source

Tanger ★★★★★
(15.06.19 14:07:49 MSK)

Ответ на: комментарий от MrClon 15.06.19 14:07:20 MSK

Да мне хотелось конкретных рекомендаций от уже опытных именно в этом людей.
Твой совет бесполезен, т.к. если бы я проводил неспешное тестирование методов архивирования исходников, я бы естественно прогуглил все варианты)

athost ★★★★★
(15.06.19 14:18:54 MSK) автор топика
Последнее исправление: athost 15.06.19 14:19:11 MSK (всего исправлений: 1)

Ссылка

сжать репо с github'а

Репо с github'а уже содержит упакованные файлы и диффы:

$ ls -l .git/objects/pack/*.pack

Так что сильного сжатия не получишь. «Выигрыш» может дать только перепаковка git-овского pack-а:

$ git gc --prune=now --aggressive

Deleted
(15.06.19 14:22:57 MSK)

Ответ на: комментарий от Deleted 15.06.19 14:22:57 MSK

Спасибо, было такое подозрение исходя их результатов попыток упаковки.

athost ★★★★★
(15.06.19 14:54:58 MSK) автор топика

Ответ на: комментарий от athost 15.06.19 14:54:58 MSK

было такое подозрение

Только перепаковка pack-а ~ 30+G - это не быстро будет. :)

Deleted
(15.06.19 14:57:48 MSK)

Ссылка

git --depth=1 ..., лол.

anonymous
(15.06.19 15:06:04 MSK)

Ответ на: комментарий от Tanger 15.06.19 14:07:49 MSK

tar cJf file.tar.xz source

300 метров упакованного за 7 минут. Вырубил.
Даже результат упаковки не интересен.
Похоже, что Архивирование исходников (комментарий) от ValdikSS — это оптимальный вариант.
Всем спасибо за умные мысли)

athost ★★★★★
(15.06.19 15:06:12 MSK) автор топика
Последнее исправление: athost 15.06.19 15:11:18 MSK (всего исправлений: 4)

Ответ на: комментарий от rumgot 15.06.19 13:32:51 MSK

Zstd показывает отличные результаты. В режиме максимального сжатия файлы немного меньше чем с xz, и всё ещё на 25% быстрее. В умолчательном режиме (троечка) прогоняет гигабайты за секунду и сжимает лучше rar и bz2).

там одинаковые файлы присутствуют, многие архиваторы почему-то не складывают их, сжимают отдельно.

~~linuxnewbie~~
(15.06.19 15:11:23 MSK)

Git держит историю упакованной, поэтому данные выглядят как случайные, и жмутся плохо. Для упаковки нужно вызывать git gc --aggressive --prune=now во всех отдельных репозиториях. Их, правда, полтыщи, если не больше. Но в итоге с 50 гигов можно выиграть что-то около десяти. И приготовься к тому, что ОЗУ для этих операций тебе понадобится больше 16 гигов.

i-rinat ★★★★★
(15.06.19 15:18:42 MSK)

Ссылка

Ответ на: комментарий от linuxnewbie 15.06.19 15:11:23 MSK

одинаковые файлы присутствуют, многие архиваторы почему-то не складывают их, сжимают отдельно.

Тогда стоит попробовать lrzip, у него первой стадией идёт дедупликация.

i-rinat ★★★★★
(15.06.19 15:19:56 MSK)

Ответ на: комментарий от athost 15.06.19 15:06:12 MSK

Вы неправильно делаете, нужно вот так

XZ_OPT='-9 -T4' tar -cvJf archive.txz dir1/ dir2/ dir3/

9e не стоит – намного дольше, а профита пару байтов.

Для zstd параметры можно указывать вот так (мой сниппет)

tar -cvf - dir1/ dir2/ dir3/ | zstd -T4 --ultra -22 -c - > "${SAVEPATH}/${SAVEFILE}"

~~linuxnewbie~~
(15.06.19 15:20:33 MSK)

Ответ на: комментарий от i-rinat 15.06.19 15:19:56 MSK

Xz справляется когда словарь побольше (режим помедленней умолчательного), 7z вроде тоже. Ап bz2 так и не получилось победить по-моему, он мне совсем не понравился. Медленный, неэффективный, фу.

~~linuxnewbie~~
(15.06.19 15:22:57 MSK)

Ответ на: комментарий от linuxnewbie 15.06.19 15:20:33 MSK

9e не стоит – намного дольше, а профита пару байтов.

После ZPAQ 9e уже не кажется таким уж медленным.

i-rinat ★★★★★
(15.06.19 15:26:47 MSK)

Ссылка

Ответ на: комментарий от linuxnewbie 15.06.19 15:20:33 MSK

Спасибо, поэкспериментирую попозже.

athost ★★★★★
(15.06.19 15:28:42 MSK) автор топика

Ответ на: комментарий от linuxnewbie 15.06.19 15:22:57 MSK

когда словарь побольше

Ну как бы да, но это работает только если совпадающие части попадают в некое скользящее окно. Поэтому степень сжатия зависит от последовательности файлов.

lrzip это не какой-то особый способ сжатия, он может использовать в том числе и lzma. Но с дедупликацией перед сжатием. Зачем надеяться на большой словарь, если поиск больших повторяющихся кусков можно сделать явно?

i-rinat ★★★★★
(15.06.19 15:30:52 MSK)

Ссылка

git archive

anonymous
(15.06.19 15:33:20 MSK)

Ссылка

Ответ на: комментарий от athost 15.06.19 15:28:42 MSK

Можно -T0 писать, чтобы использовались все ядра. Многопоточность появлась только в недавних версиях. Возможно на каком-то железе будет лучше когда больше потоков, там зависимость не то чтобы линейная.

~~linuxnewbie~~
(15.06.19 15:43:32 MSK)

Ответ на: комментарий от linuxnewbie 15.06.19 15:43:32 MSK

А вот памяти нужно значительно больше с каждым потоком.

~~linuxnewbie~~
(15.06.19 15:45:02 MSK)

Ссылка

Ответ на: комментарий от linuxnewbie 15.06.19 15:43:32 MSK

Комп очень слабый, поэтому обходимся тем, что имеем на данный момент)
Intel(R) Pentium(R) CPU G3260 @ 3.30GHz — это только 2 ядра и памяти 4

athost ★★★★★
(15.06.19 15:51:18 MSK) автор топика

Ссылка

Ответ на: комментарий от linuxnewbie 15.06.19 15:20:33 MSK

XZ_OPT='-9 -T4' tar -cvJf archive.txz

За 5 минут заархивирвало 7 метров и комп встал колом.

athost ★★★★★
(15.06.19 15:58:23 MSK) автор топика

Ответ на: комментарий от athost 15.06.19 15:58:23 MSK

Тогда -T1 ?

~~linuxnewbie~~
(15.06.19 15:58:59 MSK)

Ответ на: комментарий от athost 15.06.19 15:58:23 MSK

Но это хорошее сжатие, оно очень медленно будет работать. Если запаковывать не ежедневно, можно сэкономить места.

~~linuxnewbie~~
(15.06.19 16:00:11 MSK)

Ссылка

Ответ на: комментарий от linuxnewbie 15.06.19 15:58:59 MSK

Тогда -T1 ?

Ну 85 метров за 5 минут. Ты же понимаешь, что для архивирования 35Г это не решение.

athost ★★★★★
(15.06.19 16:47:09 MSK) автор топика

Ответ на: комментарий от athost 15.06.19 16:47:09 MSK

Почему это? 85*12 = 1 ГБ в час. Получается полторы сутки — вполне приемлемое решение, если нужно не прямо сейчас, а можно поставить архивироваться на сервере и заниматься дальше другими делами.

anonymous
(15.06.19 16:53:33 MSK)

Ссылка

Ответ на: комментарий от linuxnewbie 15.06.19 15:20:33 MSK

T4

рука-лицо.txz

А если число ядер в проце ТС != 4?

T0 же! Автоматический выбор количества потоков, на основе CPU хоста.

yurikoles ★★★
(18.06.19 22:34:59 MSK)

Ссылка

Ответ на: комментарий от anonymous 15.06.19 15:06:04 MSK

Лорчую анонимуса. Я бы перекачал сначала исходники.

repo init --depth 1 -u <git-url> -b <branch>
repo sync -f --force-sync --no-clone-bundle --no-tags -j$(nproc --all)

yurikoles ★★★
(18.06.19 22:45:21 MSK)

Ответ на: комментарий от yurikoles 18.06.19 22:45:21 MSK

Я сам не проверял, но ещё кажется можно безболезненно удалить всё кроме каталога .repo, потом repo forall -c 'git checkout'

yurikoles ★★★
(18.06.19 22:59:24 MSK)

Ссылка

pigz, быстро и параллельно.

Имхо для передачи самое то.

anonymous
(18.06.19 23:13:52 MSK)

Ссылка

Похожие темы