Создание скрипта в bash для массового переименования отсканированных документов(.pdf)

0

1

Доброго времени, форумчани!

В общем, подкинули задачку мне: автоматически переименовать отсканированные документы( сканы сохраняются в .pdf ) в соответствии с данными из самого скана. Потратив уйму времени на поиск решений аналогичных задач в интернете, понял, что не обойтись без написания скрипта. На вашем ресурсе наткнулся на пост товарища @isaecf с очень похожей задачкой, но применить на практике его решение задачи, с заменой его условий на свои, не получилось. Совсем нет опыта работы с кодированием и написанием скриптов(

Уповаю на местных удальцов и умельцев помочь справиться с этой задачкой.

Итак, что имеем:

папку со сканами *.pdf ( в папке лежат овер900 pdf-файлов. В каждом pdf есть по несколько страниц, на каждой странице - свой скан );
cygwin( необходимо решить задачку на windows 7 );

Задача:

переименовать все *.pdf в соответствии с данными, находящиеся на первой странице этого .pdf-а ( шаблон : номер документа@дата документа@тип документа( полное название )@номер штрих-кода( на сканированном документе имеется наклейка со штрих-кодом )@440( остаётся без изменений ).pdf ).

Буду очень благодарен за помощь!

Ссылка

← tc qdisc htb, prio + iptables classify

Linux Advanced Routing и сервера →

переименовать отсканированные документы в соответствии с данными из самого скана.

Так там нет данных кроме картинки! А говорили, что дурных нема.

anonymous
(09.11.20 19:50:58 MSK)

Первая созданная тема: 09.11.20 19:41:35

anonymous
(09.11.20 19:54:36 MSK)

Ссылка

необходимо решить задачку на windows 7

повершелл вам поможет

З.Ы на винфак еще не посылали ?

anonymous
(09.11.20 19:54:59 MSK)

Натрави тесеракт, грепай нужный текст и переименовывай.

TalkingMudcrab
(09.11.20 19:55:52 MSK)

Ответ на: комментарий от TalkingMudcrab 09.11.20 19:55:52 MSK

Натрави тесеракт

Всё сломается, не успев запуститься. «В умелых руках, так сказать…»

anonymous
(09.11.20 19:57:49 MSK)

Ссылка

man rename посмотри

anonymous
(09.11.20 20:04:45 MSK)

Ссылка

применить на практике его решение задачи, с заменой его условий на свои, не получилось

Вот эта тема: bash скрипт+распознавание текста+и массовое переименнование

необходимо решить задачку на windows 7

Каеф

anonymous_sapiens ★★★★★
(09.11.20 20:45:56 MSK)

Ссылка

В общем, подкинули задачку мне

Уповаю на местных удальцов и умельцев помочь справиться с этой задачкой.

Классика. Вам вот сюда: https://www.linux.org.ru/forum/job/

anonymous
(10.11.20 00:24:20 MSK)

Ссылка

Буду очень благодарен за помощь!

В каком размере предполагается благодарность?

mord0d ★★★★★
(10.11.20 00:40:27 MSK)

Ссылка

Отсканированные документы не имеют текста в обычном понимании, это картинка. И эта картинка обычно ещё и спазиционорована рандомно, под любым углом. Чтобы перевести картинку в текст никакой bash не поможет, это что-то вроде файнридера нужно. Возможно ещё и развернуть картинку ровно перед этим придётся.

В общем, все части этой задачи сейчас решаются с помощью нейросетей, а не наколеночных скриптов в баше.

system-root ★★★★★
(10.11.20 02:12:50 MSK)

Ссылка

Если данные в виде картинки, то без программы распознавания текста, как уже говорили, не обойтись. Но и она может неправильно распознать, поэтому полностью автоматизировать даже с нею не получится. Если же эти данные в текстовом виде, то см. команды sed и mv. Нативный это Linux или Cygwin — в данном случае неважно. Но в cygwin может работать значительно медленнее.

Общая схема скрипта может быть примерно такой (не для копипасты, а для дальнейших размышлений):

for i in *.pdf
  do
    mv $i $(sed 's/регулярное выражение для входных данных/выходное регулярное выражение/' "$i").pdf
  done

aureliano15 ★★
(10.11.20 02:47:49 MSK)

Ссылка

Ответ на: комментарий от anonymous 09.11.20 19:54:59 MSK

повершелл вам поможет

Он только в 10 появился, а у ТС’а 7.

З.Ы на винфак еще не посылали ?

Куча анонимусов туда зачем-то послала, хотя cygwin c bash как раз про Linux.

aureliano15 ★★
(10.11.20 02:52:05 MSK)

Ответ на: комментарий от anonymous 09.11.20 19:50:58 MSK

Так там нет данных кроме картинки!

Не факт. Может там уже всё распознано.

ТС, ты бы для примера один документ свой сюда скинул, а то без основы никто нормальный тебе ничего толком не посоветует.

Даже если там растр, то можно через tesseract попробовать распознать.

anonymous
(10.11.20 09:08:30 MSK)

Ответ на: комментарий от aureliano15 10.11.20 02:52:05 MSK

Он только в 10 появился, а у ТС’а 7.

да ладно, он и в 2003 виндах был. Виндусятники - на винфак

anonymous
(10.11.20 09:14:56 MSK)

Ответ на: комментарий от anonymous 10.11.20 09:08:30 MSK

Даже если там растр, то можно через tesseract попробовать распознать.

Помолимся, братья. Аминь!

anonymous
(10.11.20 09:56:58 MSK)

Ссылка

Ответ на: комментарий от anonymous 10.11.20 09:08:30 MSK

Даже если там растр, то можно через tesseract попробовать распознать.

Так может там и метаданные наличествуют? Так нахера переименовывать тогда?

anonymous
(10.11.20 10:05:33 MSK)

Ответ на: комментарий от anonymous 10.11.20 09:14:56 MSK

Он только в 10 появился, а у ТС’а 7.

да ладно, он и в 2003 виндах был.

Да, перепутал с Linux on Windows.

aureliano15 ★★
(10.11.20 10:28:48 MSK)

Ссылка

Ответ на: комментарий от anonymous 10.11.20 10:05:33 MSK

Так нахера

Так вот и я не пойму, нахера оно надо. Кому вообще эти pdf-сканы упёрлись? И без них никто бы не умер. Да даже если бы и умер. В нынешних реалиях никто бы и не заметил. ТС’у или его командиру, видать, скучно стало, либо совестно за напрасно получаемую зарплату, вот и сочиняют себе занятия.

anonymous
(10.11.20 11:11:31 MSK)

Ответ на: комментарий от anonymous 10.11.20 11:11:31 MSK

Вот и я думаю, на кой ляд руководству это понадобилось. Да ко всему прочему взвалили на оперов задачку. Выжимают соки из нас, деньги экономят…

lebo031
(10.11.20 20:47:00 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 10.11.20 09:08:30 MSK

Хоть и нельзя, но если так будет проще, то вот: https://dropmefiles.com/iawuJ

lebo031
(10.11.20 20:49:12 MSK) автор топика

Ответ на: комментарий от lebo031 10.11.20 20:49:12 MSK

но если

Нет в твоих PDF ни фига: ни текста, ни метаданных. Для распознавания качество не то. Единственное, что можешь использовать - дату создания (хотя бы это в мете присутствует, хотя не факт, что присутствует в «незамазанном» варианте).

anonymous
(10.11.20 21:49:09 MSK)

Ссылка

Для того чтобы сделать то, что ты хочешь, придётся нехило обмазаться OpenCV, машинным обучением/другими алгоритмами, заточенными под твой формат штрихкода и деньгами. Потому что ни эбби файнридер, ни тессеракты тебе не помогут с распознаванием твоего штрихкода никак. Проблема формирования названия на фоне этой основной проблемы соизмерима с набором этого сообщения в браузере, когда проблема распознавания соизмерима с написанием своего браузера с нуля, в котором можно будет запостить это сообщение.

peregrine ★★★★★
(11.11.20 02:39:56 MSK)

Ответ на: комментарий от peregrine 11.11.20 02:39:56 MSK

Проблема формирования названия на фоне этой основной проблемы соизмерима с набором этого сообщения в браузере, когда проблема распознавания соизмерима с написанием своего браузера с нуля, в котором можно будет запостить это сообщение.

Не умничай, понторез.

anonymous
(11.11.20 06:18:58 MSK)

номер штрих-кода( на сканированном документе имеется наклейка со штрих-кодом )

Миссия провалена

anonymous
(11.11.20 07:11:02 MSK)

Ссылка

Короче придётся всё делать ручками, это будет быстрее чем программно решать.

anonymous
(11.11.20 07:13:34 MSK)

Ссылка

Ответ на: комментарий от aureliano15 10.11.20 02:52:05 MSK

Он только в 10 появился, а у ТС’а 7.

Еще под ХП им пользовался, что-то там ставил. А в 7-ке из коробки, правда нужно обновить до 5-ой версии. Ну и PowerShell Core доступен.

anonymous
(11.11.20 08:19:52 MSK)

Ответ на: комментарий от lebo031 10.11.20 20:49:12 MSK

то вот

Кстати, твои PDF-ки состряпаны по методу FG+BG+Mask. Так что скрипты под это дело подлаживать будет совсем неудачной идеей. Чем PDF-ки стряпали? И почему сразу (ну коли такая продвинутая обработка) HOCR не вшили?

anonymous
(11.11.20 08:33:22 MSK)

Ссылка

Ответ на: комментарий от lebo031 10.11.20 20:49:12 MSK

В принципе, ребята тут верные замечания делают. Но если действительно есть прям крайняя необходимость попердолиться, то вот:

$ ls
pdf_rename.sh  пример.pdf

$ ./pdf_rename.sh пример.pdf

$ ls
'1_1002@29.12.08@АКТ № 1_1002 приемки законченного строительством объекта приемочной комиссией@0000000368@440.pdf'   pdf_rename.sh   пример.pdf

pdf_rename.sh:

#!/usr/bin/bash

# extract images from a PDF (poppler)
pdfimages -l 1 -png "$1" tmp_img

# image of interest
IMG=tmp_img-002.png

# segment the image (imagemagick)
echo '\
2491x750+0+0      barcode
600x350+570+1250  date
2491x1000+0+650   name' \
    | while read geom type; do 
        convert $IMG -crop $geom +repage -negate -blur 0x1 cropped_$type.png
    done

# recognize the segments (tesseract)
barcode=$(tesseract cropped_barcode.png stdout -l rus | egrep -o '[0-9]{10}')
docdate=$(tesseract cropped_date.png stdout -l rus | egrep -o '([0-9]{2}\.?){3}')
docname=$(tesseract cropped_name.png stdout -l rus | sed 's/^$//;T;q' | tr '\n' ' ' | sed 's#/#_#; s/  //')
docnumb=$(echo $docname | sed -r 's#.*([0-9]+_[0-9]+).*#\1#')

# rename
template="${docnumb}@${docdate}@${docname}@${barcode}@440"
#~ mv "$1" "$template".pdf
cp "$1" "$template".pdf

# clean up
rm  tmp_img*.png cropped_*.png

С вероятностью близкой к 100% этот скрипт не будет работать на других документах. Хоть сегментация тут и с большим запасом, но, как верно замечают, надёжнее будет использовать OpenCV. Что касается IMG=tmp_img-002.png, то и сама картинка может иметь другой индекс, разрешение, либо может вообще быть несколько картинок. Тут надо смотреть в целом на весь объём. Так сразу тебе никто не сделает.

Единственное интересное решение в моём скрипте — применить небольшой блёр к картинкам, без которого ни дата ни штрихкод не распознавались. А ещё tesseract плохо распознаёт инвертированные изображения.

Дальше уже сам, наверное.

С вас $15 :)

anonymous
(11.11.20 10:04:21 MSK)

Ответ на: комментарий от anonymous 11.11.20 10:04:21 MSK

А, я вот ещё что хотел сказать. На большинстве ФС есть ограничение на длину имени файла. Обычно это 255 байт или символов. Возможно, что некоторые из твоих документов не впишутся в этот лимит.

Вообще, конечно, сама идея писать мету в имя файла откровенно дикая. Сделали бы лучше БД под это, там и поиск удобный будет и поля какие хотите и сколько хотите, без ограничений, да хоть полный текст документа вместе с картинками туда пихайте.

Начальнику привет, кста.

anonymous
(11.11.20 10:23:00 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.11.20 06:18:58 MSK

ну я думаю, сей анон так крут, что готов вжух и накодить, а не только языком трепать, да?

peregrine ★★★★★
(11.11.20 14:18:37 MSK)

Ответ на: комментарий от peregrine 11.11.20 14:18:37 MSK

да?

ДА!

anonymous
(11.11.20 14:22:45 MSK)

Ответ на: комментарий от anonymous 11.11.20 14:22:45 MSK

Пока шляпа что выше работать будет только с одним документом, я не уверен что все они одинаковые у ТС-а, как и нет оценки точности распознавания текста. Анон гонит и не краснеет.

peregrine ★★★★★
(11.11.20 14:27:06 MSK)
Последнее исправление: peregrine 11.11.20 14:27:18 MSK (всего исправлений: 1)

Ответ на: комментарий от peregrine 11.11.20 14:27:06 MSK

Анон гонит и не краснеет.

Кто бы говорил. Понтарезишь и понтарезишь. Знаешь такое: «Молоко козла»? Походу про тебя.

anonymous
(11.11.20 14:33:05 MSK)

Ссылка

Ответ на: комментарий от peregrine 11.11.20 14:27:06 MSK

Бесконечно можно смотреть на три вещи: огонь, воду и как подгорает у пустомели-пятизвёздочника.

anonymous
(11.11.20 14:52:33 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.11.20 08:19:52 MSK

Еще под ХП им пользовался, что-то там ставил. А в 7-ке из коробки, правда нужно обновить до 5-ой версии. Ну и PowerShell Core доступен.

Да. Я перепутал с wsl (linux on windows), как уже написал.

aureliano15 ★★
(11.11.20 16:55:36 MSK)

Ссылка

Ответ на: комментарий от anonymous 11.11.20 10:04:21 MSK

Товарищ анон, как с вами связаться?)

lebo031
(11.11.20 18:19:04 MSK) автор топика

Ответ на: комментарий от lebo031 11.11.20 18:19:04 MSK

как с вами связаться?

Товарищ ТС, ты лучший в этом топе! Такое только ты мог отмочить! «Как связаться с аноном???»

anonymous
(11.11.20 18:46:25 MSK)

Ссылка

Имаджмаджиком вырезаешь из картинок те куски на которых написано то что тебе нужно положить в название. Полученные картинки скармливаешь OCR. Полученный текст вписываешь в название файла. Емнип тот же тессеракт умеет определять что текст перевернут.

Если подобного описания не достаточно то наверное тебе лучше в раздел job.

ya-betmen ★★★★★
(11.11.20 20:01:01 MSK)