LINUX.ORG.RU
ФорумJob

Создание скрипта в bash для массового переименования отсканированных документов(.pdf)

 , ,


0

1

Доброго времени, форумчани!

В общем, подкинули задачку мне: автоматически переименовать отсканированные документы( сканы сохраняются в .pdf ) в соответствии с данными из самого скана.

Итак, что имеем:

папку со сканами *.pdf ( в папке лежат овер900 pdf-файлов. В каждом pdf есть по несколько страниц, на каждой странице - свой скан );

Задача:

переименовать все *.pdf в соответствии с данными, находящиеся на первой странице этого .pdf-а ( шаблон : номер документа@дата документа@тип документа и город( полное название без номера документа )@номер штрих-кода( на сканированном документе имеется наклейка со штрих-кодом )@440( остаётся без изменений ).pdf ). Пример: 02#35#08@09=08=2018@Акт_проверки_средств_учета_Усолье@0000006637@440

Сложность задачи в том, что сканированные документы не имеют единой структуры( для примера прикрепляю пару образчиков ). Т.е. предположительно, необходимые нам данные будут находиться в разных сегментах скана. Похожую задачу решали тут: bash скрипт+распознавание текста+и массовое переименнование

Так же имеются документы, в которых не указаны какие-то значения из шаблона( например, в некоторых нет номера или даты документа, документ является схемой( что и нужно указать в названии ), дата в виде «месяц-год» ). Пример: БН@БД@Однолинейная_схема@0000004210@440 БН@28=06=2004@Акт_установления_границ_Губаха@00000000901440

Примеры тут: https://dropmefiles.com/i56vC

По вопросам оплаты сюда: lebo031@protonmail.com

Ограничение на отправку комментариев: только для зарегистрированных пользователей, score>=0