Как разбить файл на несколько а потом собрать?

0

1

Дано, файл контейнер 20ГБ, нужно разбить его на N файлов разной длинны, где длинна выходных файлов указывается в диапазоне например от 100М до 500M и послений отрезок, если он не подпал под условие 100500 пишется как есть. Затем, зная последовательность разбивки, нужно это всё склеить так чтобы контрольные суммы до и после сошлись.

Думаю можно сделать dd, но как заставить dd писать каждый новый файл с места где была прервана запись предыдущего?

Правда dd не хотелосьбы т.к. любит он ОЗУ, во всяком случае при чтении из urandom.

UDP1: ключ skip у dd позволяет пропускать заданое количество блоков, выходит можно размер в байтах основного файла побить на куски, требуемым алгоритмом и потом складывая размер уже скопированных частей нарезать следующие.

UPD2: ключ conv=notrunc у dd позволяет дописывать из if в of.

Ссылка

← [жж] словил сбойные сектора на nvme ssd

Как удалить ненужный криптоконтейнер Veracrypt →

split, cat

anonymous
(23.02.20 07:02:52 MSK)

в вебе json, который хранит данные частей откуда потом splt читает, вроде юзают.

~~pyallnik~~
(23.02.20 07:10:53 MSK)

Ссылка

Ответ на: комментарий от anonymous 23.02.20 07:02:52 MSK

split, cat

не умеют читать с заданного места. cat разве что при склеивании cat in >> out

Paramushir
(23.02.20 08:37:47 MSK) автор топика

Ответ на: комментарий от Paramushir 23.02.20 08:37:47 MSK

не умеют читать с заданного места

Тайлом обреж:

tail -c 24M you.file | split -b 8M - test

anonymous
(23.02.20 09:05:37 MSK)

Ссылка

Ответ на: комментарий от Paramushir 23.02.20 08:37:47 MSK

не умеют читать с заданного места

Если разбивка нужна «по содержимому», см. csplit. Например:

mkdir po; csplit -n 4 -f po/obj. file.pdf /obj/ /endobj/1 '{*}'

anonymous
(23.02.20 09:09:14 MSK)

Ссылка

Вот и выросло поколение

которое не знает что такое многотомные архивы. Во времена дискеток этим занимались примерно все, кому хоть что-то надо было перенести с одного компа на другой.

justAmoment ★★★★★
(23.02.20 10:58:50 MSK)

Ответ на: Вот и выросло поколение от justAmoment 23.02.20 10:58:50 MSK

Покажит пожалуйста, как сделать многотомный архив тома которого будут иметь разный размер.

Paramushir
(23.02.20 11:03:17 MSK) автор топика

Ответ на: комментарий от Paramushir 23.02.20 11:03:17 MSK

Покажит пожалуйста, как сделать многотомный архив тома которого будут иметь разный размер.

ты каким архиватором предпочитаешь пользоваться? образ уже готовый или тебе прямо сейчас его надо снять?

justAmoment ★★★★★
(23.02.20 11:09:55 MSK)

Написал скриптег, размер пересобранного контейнера совпадает но не совпадает контрольная сумма.

#!/bin/bash

rm -f /tmp/*\.part > /dev/null 2>&1

fileSize=`du -b $1  | awk '{print $1}'`
echo "Before"
echo $fileSize
md5sum $1
remain=$fileSize
minSize=500000
maxSize=1000000
sizesP=()
sum=0
while true
do
        sizePart=`shuf -i $minSize-$maxSize -n 1`
        if [ $sizePart -gt $remain ]; then
                sizesP+=("$remain")
                for sizeP in ${sizesP[@]}
                do
                        #echo $sizeP
                        dd if=$1 of=$sizeP.part skip=$sum iflag=skip_bytes > /dev/null 2>&1
                        sum=$(($sum+$sizeP))
                done
                echo $sum
                break
        else
                remain=$(($remain-$sizePart))
                sizesP+=("$sizePart")
        fi
done

# Клеим
if [ -d /tmp/kk/ ]; then
        if [ -f /tmp/kk/test ]; then
                rm -f /tmp/kk/test
        else
                sleep 0
        fi
else
        mkdir /tmp/kk/
fi

for sizeP in ${sizesP[@]}
do
        dd if=$sizeP.part of=/tmp/kk/test conv=notrunc > /dev/null 2>&1
done
echo "After"
du -b /tmp/kk/test  | awk '{print $1}'
md5sum /tmp/kk/test
exit 0

Before
10485760
e6fe5f7625d3423606915be815d80c73  /tmp/test
10485760
After
10485760
>6d0ccdd49e3359ceec5f632141dd79e5  /tmp/kk/test

Где косяк? Спойлер не получился.

Paramushir
(23.02.20 11:12:22 MSK) автор топика

Ответ на: комментарий от justAmoment 23.02.20 11:09:55 MSK

Например tar.

Paramushir
(23.02.20 11:13:09 MSK) автор топика

Ответ на: комментарий от Paramushir 23.02.20 11:12:22 MSK

сам написал и не знаешь? где то параметров не хватает скорее всего

~~pyallnik~~
(23.02.20 11:16:48 MSK)

Ответ на: комментарий от Paramushir 23.02.20 11:03:17 MSK

Разный размер? Вот вообще разный? Можно так:

< файл tail -c +1 | head -c размер1 > фрагмент1
< файл tail -c +$((1+размер1)) | head -c размер2 > фрагмент2
< файл tail -c +$((1+размер1+размер2)) | head -c размер3 > фрагмент3

Можно то же самое сделать на dd.

Сборка банальным cat фрагмент*.

legolegs ★★★★★
(23.02.20 11:19:15 MSK)

Ответ на: комментарий от legolegs 23.02.20 11:19:15 MSK

М-ду размерами зависимость видна.

Paramushir
(23.02.20 11:39:36 MSK) автор топика

Ответ на: комментарий от pyallnik 23.02.20 11:16:48 MSK

Сам, ясно дело где-то, скорее всего в вызовах dd.

Paramushir
(23.02.20 11:40:22 MSK) автор топика

Ссылка

Ответ на: комментарий от Paramushir 23.02.20 11:39:36 MSK

М-ду размерами зависимость видна

Какая?

Просто обычно людям достаточно split.

legolegs ★★★★★
(23.02.20 11:52:09 MSK)

dd … любит ОЗУ, во всяком случае при чтении из urandom.

Это неправда.

legolegs ★★★★★
(23.02.20 11:53:32 MSK)

Ответ на: комментарий от legolegs 23.02.20 11:52:09 MSK

Какая? Невнимательно смотрел.

Paramushir
(23.02.20 11:56:43 MSK) автор топика

Ответ на: комментарий от Paramushir 23.02.20 11:56:43 MSK

Т.е. ты не знаешь что тебе нужно?

legolegs ★★★★★
(23.02.20 11:57:46 MSK)

Ссылка

Ответ на: комментарий от legolegs 23.02.20 11:53:32 MSK

Это неправда.

а где он тогда работает если его ctrl+C в терминале вырубить или это не про то я?

~~pyallnik~~
(23.02.20 12:00:19 MSK)

Ответ на: комментарий от pyallnik 23.02.20 12:00:19 MSK

Я тебя нераспарсил. Разупорись.

legolegs ★★★★★
(23.02.20 12:01:57 MSK)

Ответ на: комментарий от legolegs 23.02.20 12:01:57 MSK

распарсил, не про то прст я соласен,но вопрос есть только уловить не могу. наверное насколько эфективно использование рам в дд, эталонное?

~~pyallnik~~
(23.02.20 12:07:55 MSK)

Ссылка

Ответ на: комментарий от Paramushir 23.02.20 11:12:22 MSK

Починил.

                        dd if=$1 of=$sizeP.part skip=$sum iflag=skip_bytes > /dev/null 2>&1

меняем на

                        dd if=$1 of=$sizeP.part skip=$sum > /dev/null 2>&1

Т.е. ты не знаешь что тебе нужно?

Я разве об этом писал где-то? А так, денег много и паспортов.

Paramushir
(23.02.20 12:10:39 MSK) автор топика

Ответ на: комментарий от Paramushir 23.02.20 12:10:39 MSK

Починил.

отметь решеннной)

~~pyallnik~~
(23.02.20 12:14:14 MSK)

Ответ на: комментарий от pyallnik 23.02.20 12:14:14 MSK

отметь решеннной) Как?

Paramushir
(23.02.20 12:15:35 MSK) автор топика

Ответ на: комментарий от Paramushir 23.02.20 12:15:35 MSK

в теле поста пункт есть)

~~pyallnik~~
(23.02.20 12:17:36 MSK)

Ответ на: комментарий от pyallnik 23.02.20 12:17:36 MSK

темы а не поста!)

~~pyallnik~~
(23.02.20 12:20:08 MSK)

Ссылка

Ответ на: комментарий от Paramushir 23.02.20 12:10:39 MSK

Не починил, на маленьких файлах, до 500М контрольные суммы сходятся, на больших нет.

Paramushir
(23.02.20 14:18:32 MSK) автор топика

Ответ на: комментарий от Paramushir 23.02.20 14:18:32 MSK

https://github.com/madsen/vbindiff

vbindiff old.file new.file

[ENTER]
[ENTER]
[ENTER]
...

anonymous
(23.02.20 15:00:42 MSK)

Ссылка

Ответ на: комментарий от Paramushir 23.02.20 11:13:09 MSK

https://superuser.com/questions/290986/how-to-create-tar-archive-split-into-or-spanning-multiple-files

anonymous
(23.02.20 15:04:23 MSK)

Ссылка

Ответ на: комментарий от Paramushir 23.02.20 14:18:32 MSK

на маленьких файлах, до 500М контрольные суммы сходятся, на больших нет

ничего себе, вот это поворот)

~~pyallnik~~
(23.02.20 15:08:04 MSK)

Ссылка

Ответ на: комментарий от Paramushir 23.02.20 14:18:32 MSK

наверное какие то ограничители снять надо в параметрах.

~~pyallnik~~
(23.02.20 15:09:59 MSK)

Ответ на: комментарий от pyallnik 23.02.20 15:09:59 MSK

Может. А может проблема в железе. Но на сегодня хватит.

Paramushir
(23.02.20 15:14:00 MSK) автор топика

Ответ на: комментарий от Paramushir 23.02.20 15:14:00 MSK

проблема в железе.

согласен поворотов достаточно)

~~pyallnik~~
(23.02.20 15:15:01 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← [жж] словил сбойные сектора на nvme ssd

General

Как удалить ненужный криптоконтейнер Veracrypt →

Вот и выросло поколение

Похожие темы