Склейка росыпи pdf в одно pdf-блобище

0

1

охото время склейки заасимптотить к времени копирования исходного набора это очевидная оценка с низу

и второе при склейке (а по факту формирования выходного pdf-ища) - что бы очередные добавленные куски валились на диск а не отжирало всю ram -

ибо склейка в 1 терабайтный pdf (при некотором безумии сей затеи) привозит пробуксовку(ни дня без нового словио)(thrashing) ежель не flush уже зачитанные части

вооот

крч есть чё? верхний скрипт можно и питон но ч>т из увиденных библиотек всё сначала пихуется в озу что огорчает pdf вроде как же типо контейнерный тип и по факту тока дерево достаточно в памяти для навигации сами куски

да и вообще прилепление нового мелкого файла к уже имеющемуся комку оно квадратично что-ли деградирует?

Ссылка

←	Python: сменить timezone стандартной библиотекой

Где документация на Haskell ?

→

Смотря под какой лицухой. Есть бодрый mupdf, но там дуал, если это не «для себя» то платить. Если pdfium и биндинги к пистону. Если podofo, биндинги сделать легко но весь файл в память высасывает и медленный на больших файлах шопесец

Попробуй первые два, они вроде могут потоком читать/писать

upcFrost
(20.08.22 01:58:50 MSK)
Последнее исправление: upcFrost 20.08.22 01:59:12 MSK (всего исправлений: 1)

Ответ на: комментарий от upcFrost 20.08.22 01:58:50 MSK

Предвкушаю амбивалентно ныряние в формат структуры pdf - всякие флатены укуренные

вопрос упирается по факту как флашить смерженное в процессе докидывания очередных кусочков

что pymupdf что pypdf2 отжирают память(озу) в размере 70%-130% исходного набора (конечного файла)

блин как по басурмански поточная склейка? пока не выгугливается :(

qulinxao3 👍
(20.08.22 02:06:41 MSK) автор топика

Ответ на: комментарий от upcFrost 20.08.22 01:58:50 MSK

incremental merge?

qulinxao3 👍
(20.08.22 02:13:02 MSK) автор топика

Ответ на: комментарий от qulinxao3 20.08.22 02:06:41 MSK

что pymupdf что pypdf2 отжирают память(озу) в размере 70%-130% исходного набора

Второе да, а первое - странно. Он точно умел с потоком работать. На англ ищи streaming. Pdfium тоже точно умел, вернее там смотря как напишешь write, если в пистоне то ctypes и буфер.

Но вообще pdf поточно хреново обрабатывается если в нем есть хоть один апдейт и если он не линеаризован. Тебе надо в любом случае пройти по всему файлу, найти там все таблицы ссылок (которые для не-линеаризованных в конце каждого апдейта) и разрешить все объекты наложив на них все изменения всех апдейтов. В общем случае это довольно геморройно.

upcFrost
(20.08.22 02:13:36 MSK)

Ссылка

Ответ на: комментарий от qulinxao3 20.08.22 02:13:02 MSK

Incremental там update, а тут скорее streaming merge

upcFrost
(20.08.22 02:14:26 MSK)

А вообще можешь попробовать хитрое решение - набей эти файлы в portfolio. Тут правда придётся немного покрасноглазить ибо portfolio ни одна свободная софтина из коробки не умеет (надо создавать словать под это дело), но в этом случае у тебя будет натурально файл с файлами, который и на чтение быстрый, и на запись.

upcFrost
(20.08.22 02:40:40 MSK)

Ответ на: комментарий от upcFrost 20.08.22 02:14:26 MSK

фроде циклится по грязному doc.inser_pdf(next);doc.saveIncr();doc.close();doc.«reopen» оно - память «ровно» размер очередного кусочка - но :( из за закрытия открытия и прочего получается медленней когда памяти на весь блоб достаточно - выгрыш тока когда итоговый приближается к размеру оперативы

qulinxao3 👍
(20.08.22 03:10:37 MSK) автор топика

Ссылка

smallpdf.com

eternal_sorrow 🤡🤡🤡
(20.08.22 04:29:43 MSK)

Ответ на: комментарий от upcFrost 20.08.22 02:40:40 MSK

эээ оно список файлов эдак 100к спортфелит?

пока вроде как зогдачка на две части - как не гоняя сами файлы сшить их словари(т.е построить переводы из старых словарей в итоговый) и финальным проходом с новым словарём всё «заинкрементить»

пока хватает быстрой памяти узкое место чтение запись при билде мегаpdf

когда же память заведомо недостаточно

saveIncr - но оно каждый раз при сохраниние по факту добилдивет словарь и когда ид>т следующий чанк то по ходу проходит линейно во размазанному словарю что да>т линейное замедление вроде как

забавно насколько тонок слой цивилизации если достаточно обычная задача на чуть больших величинах деградирует на отличненько

qulinxao3 👍
(20.08.22 10:37:34 MSK) автор топика

Ответ на: комментарий от eternal_sorrow 20.08.22 04:29:43 MSK

как ты представляешь мердж 1 Тб ?

qulinxao3 👍
(20.08.22 10:38:51 MSK) автор топика

ждем тему «чем открыть терабайтный pdf»

olelookoe ☕☕☕
(20.08.22 11:35:56 MSK)

Ссылка

Ответ на: комментарий от qulinxao3 20.08.22 10:38:51 MSK

Никак. А зачем?

eternal_sorrow 🤡🤡🤡
(20.08.22 14:05:40 MSK)

Ссылка

Ответ на: комментарий от qulinxao3 20.08.22 10:37:34 MSK

эээ оно список файлов эдак 100к спортфелит?

Хз, в стандарте ограничений на этот счёт емнип нету. Но конечно можно нарваться на переполнение где-нибудь

пока вроде как зогдачка на две части - как не гоняя сами файлы сшить их словари(т.е построить переводы из старых словарей в итоговый) и финальным проходом с новым словарём всё «заинкрементить»

Тут несколько больше частей чем тебе кажется. Для начала у тебя могут быть жатые файлы где вместо чистого словаря жатый стрим. Далее могут быть вложенные файлы. Могут быть апдейты. Могут быть подписи и права на чтение/запись. Может быть шифрование. Может вообще быть скриптованный файл который сам себя меняет все время, видел пару раз такое.

В общем (ключевое слово - общем) случае склейка пдф страница за страницей, по опыту, это путь в никуда, это реально очень сложно даже без оптимизации по памяти. И библиотеки как ты понимаешь пытаются реализовать именно общий случай.

Портфолио придумали именно для этого, потому что скажем эцп тупо запрещает тебе сшивать файлы. Плюс в этом случае у тебя вместо одного плоского xtef table на 100500 позиций будет 100500 вложенных файлов со сравнительно небольшими таблицами. Реально, попробуй этот вариант, может взлетит

upcFrost
(20.08.22 14:08:29 MSK)

Ссылка

Кстати

PDF itself has one architectural limit. Because ten digits are allocated to byte offsets, the size of a file is limited to 10 10 bytes (approximately 10GB)."

upcFrost
(20.08.22 17:53:51 MSK)

Ответ на: комментарий от upcFrost 20.08.22 17:53:51 MSK

это если и было то в до PDF 1.5

ща спокойно merge - одно повторюсь не удобно так как «файловая структура» по факту размазывается по итоговому файлу - по происходит квадратичное замедление ибо при обьединение словарей происходит его линейное сканирование - не охота нырять в си-реализации что-бы получить ускорение чисто на задачах слияния при подобных файлах

охото чисто подёргать либы = пока лучшим вариантов (из 3ех) оказалась mupdf

вдруг есть ч> для слияния более быстрое и заточенное на большие многотысячестроничные файлы?

зы/ портфолио не подходит :(

1Тб это чисто в идеале по факту итоговый файл будет врядли больше 64G - получается при текущих реализациях при синтезе такого файлы жетально от 128G рамы для минимизации свапа

qulinxao3 👍
(22.08.22 16:24:58 MSK) автор топика

Ответ на: комментарий от qulinxao3 22.08.22 16:24:58 MSK

Более быстрого нет, чисто из-за сложности открытия pdf «в общем виде». Там есть тонны optional и by-default вещей которые даже в стандарте особо не фигурируют, их можно найти только закидыванием файла в акробат, сохранением и изучением в каком-нибудь itext

upcFrost
(22.08.22 16:37:28 MSK)