Список файлов в архивах внутри архивов внутри архивов

0

1

Есть архивы. zip, jar (==zip), 7z, rar, tar.gz, tar.bz2, всё в таком роде. В архивах могут быть архивы в произвольном порядке вложенности.

Я хочу получить список файлов. В общем что-то вроде find . > files.txt. Только этот find должен заглянуть внутрь каждого архива, внутрь каждого архива внутри и тд. Т.е. что-то вроде

./backups/laptop.7z!/Users/Temp/old.rar!/tomcat-7.0/lib/servlet.jar!/javax/servlet/Servlet.class как пример одной из строк того, что долго получиться.

Архивы относительно большие, десятки гигабайтов некоторые. И очень хочется, чтобы оно ничего никуда не распаковывало, а работало исключительно каким-нибудь поточным режимом в памяти, уж не знаю, возможно ли это хотя бы в теории.

Может кто видел такую утилиту или что-то, позволяющее её соорудить.

Ссылка

←	grub hd0,msdos not found

Как завести оптический выход на fedora 34?

→

Для получения списка файлов, содержащихся внутри архива, запакованного в другой архив, вложенный архив нужно распаковать и получить в нём список файлов, а если в нём тоже есть архивы, то и распаковать все их.

Ты можешь сам написать скрипт.

anonymous
(31.05.21 02:04:41 MSK)

Ссылка

Напиши рекурсивную функцию, которая на вход будет получать имя архива, определять его тип, получать список файлов. Выделять среди списка файлов архивы и рекурсивно их обрабатывать.

anonymous
(31.05.21 02:09:47 MSK)

Ссылка

И очень хочется, чтобы оно ничего никуда не распаковывало

Перехочется. Ты как себе это представляешь вообще?

crutch_master ★★★★★
(31.05.21 04:18:18 MSK)

Ответ на: комментарий от crutch_master 31.05.21 04:18:18 MSK

На Java есть понятие потока. Когда ты читаешь в память по 8 КБ (например) и обрабатываешь одновременно. Насколько я знаю, ни один формат архива не требует держать его в памяти целиком. Т.е. технически задача решаема.

~~Legioner~~ ★★★★★
(31.05.21 10:25:57 MSK) автор топика

Ответ на: комментарий от Legioner 31.05.21 10:25:57 MSK

На Java есть понятие потока. Когда ты читаешь в память по 8 КБ (например) и обрабатываешь одновременно

Ничего не обрабатывается «одновременно» затрахаешься контексты тредов переключать быстрее, чем что-то обработаешь.

Насколько я знаю, ни один формат архива не требует держать его в памяти целиком

И какая тебе польза от того, что ты разархивируешь кусок какого-то непонятного архива? Они все разные, какие-то надо перечитывать полностью, чтобы там что-то найти. В итоге ты всё равно должен делать всю или большинство работы по распаковке, только с багами, глюками и траходромом.

crutch_master ★★★★★
(31.05.21 10:30:22 MSK)
Последнее исправление: crutch_master 31.05.21 10:31:14 MSK (всего исправлений: 1)

Ссылка

XY problem

zip, jar (==zip), 7z, rar, tar.gz, tar.bz2

Т.е. всё подряд нужно уметь? Что-то я сомневаюсь, что из этого что-то приемлемое получится. Если бы это был строго грутый tar и gzip и bzip2, можно было бы быстренько на бусте скриптик накатать, а так хз даже.

Архивы относительно большие, десятки гигабайтов некоторые

Дикое количество времени будет занимать, может ну его? Или это разово нужно будет выполнить?

Цель-то какая?

~~WitcherGeralt~~ ★★
(31.05.21 10:48:00 MSK)
Последнее исправление: WitcherGeralt 31.05.21 10:48:59 MSK (всего исправлений: 1)

Ответ на: комментарий от Legioner 31.05.21 10:25:57 MSK

как обычно
делаешь скрыпт, который выводит листинг архива в некоторый файл. если он в листинге находит архив, то из архива найденный архив распаковывается в /run /tmp или что пожелаш. и на этот распакованный архив натравливается скрыпт по листингу архива. … профит

т.е. «чтобы понять что такое итерация надо просто понять что такое итерация».
выполнимость зависит от вложенности и размеров /run /tmp
плюс оптимизации: к примеру для безиндексового tar его можно сразу расжимать, если в нем предполагаются архивы.

pfg ★★★★★
(31.05.21 10:49:04 MSK)
Последнее исправление: pfg 31.05.21 10:50:39 MSK (всего исправлений: 1)

Ответ на: комментарий от pfg 31.05.21 10:49:04 MSK

Я не хочу трогать диск. Это будет медленно и сожрёт много ресурса.

~~Legioner~~ ★★★★★
(31.05.21 11:25:42 MSK) автор топика

Ответ на: XY problem от WitcherGeralt 31.05.21 10:48:00 MSK

Дикое количество времени будет занимать, может ну его? Или это разово нужно будет выполнить?

Разово.

Цель-то какая?

Цель - быстро определить, где есть нужный файл. А то бэкапов и бэкапо-подобных архивов накопилось много, а поиска по ним нет.

~~Legioner~~ ★★★★★
(31.05.21 11:26:34 MSK) автор топика
Последнее исправление: Legioner 31.05.21 11:26:49 MSK (всего исправлений: 1)

Ответ на: комментарий от Legioner 31.05.21 11:26:34 MSK

Если разово, то я бы сделал tmpfs на 10гб и запустил 2 скрипта, один тупо распаковывает, а второй параллельно делает find в цикле, записывает пути файлов и тут же удаляет.

~~WitcherGeralt~~ ★★
(31.05.21 11:47:38 MSK)

Ссылка

Ответ на: комментарий от Legioner 31.05.21 11:25:42 MSK

хех без tmp распаковок будет дольшее и медленнеее, а скрипт сложнеееее…
скрипт должон уметь собрать цепочку разархивирования для произвольного архива внутри архива внутри архива… насколь в глубину хочешь залезть :).

pfg ★★★★★
(31.05.21 11:50:04 MSK)