bash скрипт+распознавание текста+и массовое переименнование

Задача следующая, которую хочу оптимизировать с помощью bash скрипта. Хочу предупредить что я в этом деле малознающий.

Есть каталог со сканированными изображениями в формате: сканирование.jpg сканирование1.jpg ... сканированиеN.jpg. В этих *jpg есть строка где указана фамилия имя отчество. Необходимо: эту строку распознать как текст и переименовать этот *jpg в котором распознавали и так все остальные...

Как вижу решения я(может и немного некорректное): С помощью imagemagic кадрировать строку с ФИО командой #convert -crop 830x60+80+235 input.jpg output.jpg в отдельный каталог и уже в этом каталоге с помощью #tesseract output.jpg 1.txt расспознавать текст, который потом необходимо использовать в названиях *jpg .

Далее я не знаю что мне делать. Будьте добры, помогите или скажите какого хода мыслей мне придерживаться?! Заранее спасибо!

Ссылка

← Универсальный watchdog для nginx ($service_name) своими силами

Директива port-share в конфиге VPN →

← 1 2 →

Уточнение

То есть, у вас есть файлы 1.txt... N.txt, в которых есть нужные вам ФИО? и вам нужно эти данные применить?

Или вам нужно подсказать с начала и до конца как на баше это все проделать? от обрезания кусочка картинки ,ее распознавания?

firefedot
(28.05.17 00:29:00 MSK)

Ответ на: Уточнение от firefedot 28.05.17 00:29:00 MSK

Если просто текст использовать, то что-то такое:

name=$(cat 1.txt)
mv сканирование1.jpg "$name".jpg

это все с цикл, как вариант, и вперед)

firefedot
(28.05.17 00:32:51 MSK)

Ответ на: комментарий от firefedot 28.05.17 00:32:51 MSK

На примере одного файла

вот так на примере одного файла

Создал картинку с содержимым: «Иванов Иван Иванович» - , правда в png, но не суть.

И проделала, что вам требуется.

#!/bin/bash

img="сканирование1.png"
txt="1" # он сам вроде .txt  добавляет
tesseract "$img" "$txt"

name=$(cat $txt.txt)
mv $img "$name".jpg

на выходе получил файл 'Иванов Иван Иванович.jpg'

Вот)

firefedot
(28.05.17 01:37:03 MSK)

И хотя во временных файлах не так много и плохого, здесь ни один из обоих не нужен — передавайте по конвейеру.

Zmicier ★★★★★
(28.05.17 03:01:13 MSK)

И да, что за решетки? Вы там под сверхпользователем работаете что ли?

Zmicier ★★★★★
(28.05.17 03:02:47 MSK)
Последнее исправление: Zmicier 28.05.17 03:03:18 MSK (всего исправлений: 1)

Ответ на: комментарий от Zmicier 28.05.17 03:01:13 MSK

Соглашусь полностью. Но тут из tesseract по-моему не получится конвеером получить данные из файла или ошибаюсь?

firefedot
(28.05.17 03:06:27 MSK)

Ответ на: комментарий от Zmicier 28.05.17 03:02:47 MSK

Какие решетки?

а, не... просто комментарий в скрипте написал и сам скрипт копировал

firefedot
(28.05.17 03:07:44 MSK)

Ответ на: комментарий от firefedot 28.05.17 03:07:44 MSK

Какие решетки?

Да не у вас, у ОПа.

Zmicier ★★★★★
(28.05.17 03:13:16 MSK)

Ответ на: комментарий от Zmicier 28.05.17 03:13:16 MSK

прошу прощения, попутал)

хотя решетки может и не рут...

firefedot
(28.05.17 03:16:19 MSK)

Ссылка

Ответ на: комментарий от firefedot 28.05.17 03:06:27 MSK

из tesseract по-моему не получится конвеером

Почему?

#!/bin/bash

for f; do
    ocr=$(convert -crop 830x60+80+235 "$f" jpg:- | tesseract -l rus - -)
    [[ $ocr == *' '*' '* ]] || continue
    mv "$f" "$ocr.jpg"
done

Zmicier ★★★★★
(28.05.17 03:24:29 MSK)

Ответ на: комментарий от Zmicier 28.05.17 03:24:29 MSK

jpg:-

А вообще это я зря. Лучше ppm:-.

Zmicier ★★★★★
(28.05.17 03:32:38 MSK)

Ссылка

Ответ на: На примере одного файла от firefedot 28.05.17 01:37:03 MSK

Спасибо за вашу помощь, но у меня не один файл *.jpg, а их много в каналоге. Вот пытался изобразить: сканирование.jpg сканирование1.jpg ... сканированиеN.jpg.

И файл 1.txt для переименнования файлов мне надо еще получить путем распознавания строки *jpg где указано ФИО

isaecf
(28.05.17 11:45:25 MSK) автор топика

Ссылка

Ответ на: комментарий от Zmicier 28.05.17 03:24:29 MSK

У Вас интересная реализация, но почему то ничего не происходит. Хочу уточнить некоторые моменты: Изображения *.jpg надо помещать туда же где и скрипт находится ?

isaecf
(28.05.17 11:54:39 MSK) автор топика

#!/bin/sh
for filename in *.jpg; do
    newfilename = $(convert -crop 830x60+80+235 "$filename" - | tesseract stdin stdout).jpg
    echo mv "$filename" "$newfilename"
done

Так — тестить. Реально переименовывать — убрать echo перед mv.

~~Psych218~~ ★★★★★
(28.05.17 12:01:07 MSK)
Последнее исправление: Psych218 28.05.17 12:05:23 MSK (всего исправлений: 5)

Ответ на: комментарий от Psych218 28.05.17 12:01:07 MSK

Вот только пробелы вокруг '=' — это не sh :)

vodz ★★★★★
(28.05.17 12:08:42 MSK)

Ответ на: комментарий от vodz 28.05.17 12:08:42 MSK

Да. Ошибся. Спасибо за исправление. Пробелы надо убрать.

~~Psych218~~ ★★★★★
(28.05.17 12:09:31 MSK)

Ссылка

Ответ на: комментарий от isaecf 28.05.17 11:54:39 MSK

но почему то ничего не происходит

Не вижу. УМВР.

Изображения *.jpg надо помещать туда же где и скрипт находится?

Нет, конечно. О_о Как вам вообще такое в голову пришло — перемещать куда-то файлы, когда их надо обработать?

Все файлы передаете аргументами:

$ isaecf-ocr-rename *.jpg

Zmicier ★★★★★
(28.05.17 12:49:47 MSK)

Ссылка

Ответ на: комментарий от Psych218 28.05.17 12:01:07 MSK

tesseract stdin stdout

Какая прлсть.... Вы не знаете фамилию того, кто это придумал?

Zmicier ★★★★★
(28.05.17 12:55:06 MSK)

Ссылка

Ответ на: комментарий от Psych218 28.05.17 12:01:07 MSK

не понятко где эти переменные объявилясь stdin stdout?

isaecf
(28.05.17 12:58:58 MSK) автор топика

Ответ на: комментарий от isaecf 28.05.17 12:58:58 MSK

С чего вы взяли, что переменные? Это прлстный синтаксис Тессеракта. Но нормальный он тоже умеет, я же выше написал.

Zmicier ★★★★★
(28.05.17 13:07:40 MSK)

Ответ на: комментарий от Zmicier 28.05.17 13:07:40 MSK

Всем огромное спасибо!!!! Мне осталось откалибровать попадания imagemagic в строку с ФИО. Скажите где почитать такую литературу, чтобы можно было самостоятельно разбираться с bash скриптами ?

isaecf
(28.05.17 13:17:30 MSK) автор топика

Ответ на: комментарий от isaecf 28.05.17 13:17:30 MSK

нет такой литературы...это тайное знание, передаваемое из уст в уста, от пятизвёздочного отца к однозвёздночному сыну...

zolden ★★★★★
(28.05.17 13:28:50 MSK)

Ссылка

Ответ на: комментарий от isaecf 28.05.17 13:17:30 MSK

Всегда пожалуйста.

откалибровать попадания

А в чем вообще необходимость «целится»? На фотографиях есть еще какие-то надписи?

литературу

Грега Вулиджа, наверное.

И про сопроводительную документацию не забывайте. Ну, которая (info "bash") / $ info bash.

Менделя Купера не читайте.

Zmicier ★★★★★
(28.05.17 13:38:46 MSK)

Ответ на: комментарий от Zmicier 28.05.17 13:38:46 MSK

А в чем вообще необходимость «целится»?

Если это фото задержанных, то на табличках должны быть специальные метки для этого прицельного сканирования :))

vodz ★★★★★
(28.05.17 13:43:07 MSK)

Ответ на: комментарий от vodz 28.05.17 13:43:07 MSK

Вся проблема в том, что такое сканирование провожу каждый день на МФУ через лоток автоматической подачи. Естественно, листы для сканирования в лотки затягиваются не всегда ровно и, естественно, координаты строки на «сканирование1.jpg» отличается от «сканирование2.jpg». Конечно, сканирование со стекла решает эту проблему, но это занимает больше времени...

Поэтому вопрос: может есть решение, когда на листе находим метку или букву (с которой все листы начинаются) и уже с этой метки начинаем кадрирование и далее переименование...

isaecf
(28.05.17 14:53:00 MSK) автор топика

Ответ на: комментарий от isaecf 28.05.17 14:53:00 MSK

Поэтому вопрос: может есть решение

QR-код?

vodz ★★★★★
(28.05.17 15:03:43 MSK)

Ответ на: комментарий от vodz 28.05.17 15:03:43 MSK

нет! И возможности добавить нет, т.к. документ строгой отчетности((

isaecf
(28.05.17 15:12:43 MSK) автор топика

Ответ на: комментарий от isaecf 28.05.17 15:12:43 MSK

Вариант

А если использовать бумажный шаблон?

Правда сканировать придется два раза, но зато, получишь чисто скан с нужными буквами, если они на всех документах в одном месте

не? так не получиться?

firefedot
(28.05.17 15:34:56 MSK)

Ответ на: Вариант от firefedot 28.05.17 15:34:56 MSK

т.е. что бы при 2м сканировании, сканировалась та строка которая мне нужна ?

isaecf
(28.05.17 15:46:51 MSK) автор топика

Ответ на: комментарий от isaecf 28.05.17 15:46:51 MSK

В таком случае мне уже проще сканировать РОВНО со стекла и тем скриптом что мне тут описали кадрировать и переименовывать

isaecf
(28.05.17 15:48:05 MSK) автор топика

Ссылка

Ответ на: комментарий от isaecf 28.05.17 14:53:00 MSK

а если распознавать весь текст, а потом скриптом же выбирать только ту часть, которая нужна? grep'ом, например

anonymous
(28.05.17 20:17:05 MSK)

Ответ на: комментарий от anonymous 28.05.17 20:17:05 MSK

Как вариант! Перед ФИО всегда присутствует «Я, ...». Может как-то от этой буквы начинать распознавать текст. И надо учитывать, что в этом документе присутствует и фото и английские символы. Я не знаю чем в этом случае распознавать если говорить о bash скрипте...

isaecf
(28.05.17 20:22:22 MSK) автор топика

Ответ на: комментарий от isaecf 28.05.17 20:22:22 MSK

grep отлично ищет любые строки в текстовых файлах. он использует регулярные выражения.

если скинешь сюда пример распознанного текста, то помогу составить регулярку. используй теги [code]...текст...[/code], чтобы текст выглядел как в файле.

anonymous
(28.05.17 20:32:12 MSK)

Ответ на: комментарий от anonymous 28.05.17 20:32:12 MSK

К сожалению не могу такие документы Вам отправить. Сможете привести примеры использования grep именно для таких целей ?

isaecf
(28.05.17 20:34:56 MSK) автор топика

Ответ на: комментарий от isaecf 28.05.17 20:34:56 MSK

попробуй заменить строчку ocr=... в скрипте на

ocr=$(tesseract -l rus "$f" - | sed -nr 's/.*Я, ([^ ]* [^ ]* [^ ]*).*/\1/p; T lab; q; :lab')

.*Я, ([^ ]* [^ ]* [^ ]*).* - вот это вот регулярка. .* означает любое количество любых символов, [^ ]* означает любое количество символов, отличных от пробела. то, что заключено в скобки будет выведено.

anonymous
(28.05.17 21:02:07 MSK)

Ответ на: комментарий от isaecf 28.05.17 13:17:30 MSK

Скажите где почитать такую литературу, чтобы можно было самостоятельно разбираться с bash скриптами ?

man bash
«Advansed Bash Scripting Guide»

teod0r ★★★★★
(28.05.17 21:19:56 MSK)

Ссылка

Ответ на: комментарий от anonymous 28.05.17 21:02:07 MSK

Т.е. должно быть вида ??

for f; do ocr=$(tesseract -l ukr «$f» - | sed -nr 's/.*Я, ([^ ]* [^ ]* [^ ]*).*/\1/p; T lab; q; :lab') [[ $ocr == *' '*' '* ]] || continue mv «$f» «$ocr.jpg» done

Если ДА, то ничего не происходит((((

isaecf
(28.05.17 23:15:51 MSK) автор топика

Ответ на: комментарий от isaecf 28.05.17 23:15:51 MSK

ну да. ну я хз. попробуй оттестировать по отдельности каждую команду в консоли:

tesseract -l ukr scan.jpg text.txt
# проверь как распознался весь текст

sed -nr 's/.*Я, ([^ ]* [^ ]* [^ ]*).*/\1/p; T lab; q; :lab' text.txt
# в консоль должно вывестись фио из файла text.txt

возможно запятая распознаётся как точка, тогда можно попробовать вместо неё в регулярке поставить точку, которая будет означать «один любой символ».

anonymous
(28.05.17 23:25:39 MSK)

Ответ на: комментарий от anonymous 28.05.17 23:25:39 MSK

Хорошо, по отдельности протестирую и отпишусь

isaecf
(28.05.17 23:28:35 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 28.05.17 23:25:39 MSK

Отлично! В саму консоль идет выхлоп ФИО как положено. Осталось разобраться как эти выхлопы стопкой файлы переименовать. Будьте добры мне и в этом разобраться...

isaecf
(31.05.17 13:43:09 MSK) автор топика

Ответ на: комментарий от isaecf 31.05.17 13:43:09 MSK

#!/bin/bash

for f; do
    fio=$(tesseract -l ukr "$f" - | sed -nr 's/.*Я, ([^ ]* [^ ]* [^ ]*).*/\1/p; T lab; q; :lab')
    if [ -z "$fio" ]; then
        echo ФИО не найдены в файле \"$f\"
    else
        mv "$f" "$fio.jpg"
    fi
done

anonymous
(31.05.17 17:25:50 MSK)

Ответ на: комментарий от anonymous 31.05.17 17:25:50 MSK

там будет запятая после фио захватываться, надо поменять третью [^ ] в регулярке на [^ ,].

anonymous
(31.05.17 17:36:56 MSK)

Ссылка

Ответ на: комментарий от anonymous 31.05.17 17:25:50 MSK

Ничего не происходит(((( И я не вижу где тут переменной f присваиваются все jpg из текущего каталога ?

isaecf
(01.06.17 03:56:34 MSK) автор топика

Ответ на: комментарий от isaecf 01.06.17 03:56:34 MSK

а как ты запускаешь скрипт? где он у тебя находится? он исполняемый? назначь его исполняемым, сохрани в папку /usr/local/bin/ и запускай из папки со сканами:

# допустим твой скрипт находится в ~ и ты назвал его "ocr-rename.sh"

# назначить исполняемым:
chmod +x ~/ocr-rename.sh

# сохранить в /usr/local/bin/:
sudo cp ~/ocr-rename.sh /usr/local/bin/

# перейти в папку со сканами (например ~/scans)
cd ~/scans

# выполнить скрипт
ocr-rename.sh *.jpg

если будешь вносить изменения в скрипт, то его надо будет снова сохранять в /usr/local/bin/ из-под суперпользователя.

anonymous
(01.06.17 04:13:52 MSK)

Ссылка

Ответ на: комментарий от isaecf 01.06.17 03:56:34 MSK

Понял))) немного добавил в начале и работает))

#!/bin/bash for f in ./input_picture/*.jpg; do fio=$(tesseract -l ukr «$f» - | sed -nr 's/.*Я, ([^ ]* [^ ]* [^ ]*).*/\1/p; T lab; q; :lab') if [ -z «$fio» ]; then echo ФИО не найдены в файле \«$f\» else mv «$f» "./output_picture/$fio.jpg" fi done

Но лени нет предела. Если поможете еще улучшить этот скрипт буду очень благодарен)) Я так понимаю что ФИО будут выбираться если она состоит только из трех слов, но бывают граждане у которых ФИО состоит из 5ти слов или более...

tesseract обрабатывает так этот документ, что ФИО заключена между словами «Я,» ФИО «Фото». Можно ли сделать так чтобы все слова выбирались между этими символами ?

isaecf
(01.06.17 04:28:07 MSK) автор топика

Ответ на: комментарий от isaecf 01.06.17 04:28:07 MSK

конечно, замени регулярку .*Я, ([^ ]* [^ ]* [^ ]*).* на .*Я, (.*) Фото.*. если не хочешь, чтобы какие-то символы попадали в вывод, замени точку в скобках на [^символы]. андерстенд?

даже если в фио будет «фото», то оно попадёт в вывод.

anonymous
(01.06.17 04:39:36 MSK)

Ответ на: комментарий от anonymous 01.06.17 04:39:36 MSK

После последнего редактирования не срабатывает. В Bash вывод: ФИО не найдены в файле "./input_picture/ГОЛОВАШКІНА Г.С.jpg" ФИО не найдены в файле "./input_picture/ГОЛОВАШКІН П.О.jpg"

Вот какой скрипт сейчас #!/bin/bash for f in ./input_picture/*.jpg; do fio=$(tesseract -l ukr «$f» - | sed -nr 's/.*Я, (.*)Фото.*/\1/p; T lab; q; :lab') if [ -z «$fio» ]; then echo ФИО не найдены в файле \«$f\» else mv «$f» "./output_picture/$fio.jpg" fi done

P.S. И еще вопрос: как участники на этом форуме вставляет код что он нормально читабельный, а не съежается в одно строчку как у меня ?

isaecf
(01.06.17 04:48:09 MSK) автор топика

Ответ на: комментарий от isaecf 01.06.17 04:48:09 MSK

ну хз. скинь на pastebin.com или bpaste.net то, что распознаёт tesseract, я тебе составлю нормальную регулярку. так, в слепую, долго будем переписываться.

про разметку в комментариях вот тут написано: www.linux.org.ru/help/lorcode.md

используй [code][/code] для форматирования кода.

anonymous
(01.06.17 05:00:02 MSK)

Ответ на: комментарий от anonymous 01.06.17 05:00:02 MSK

В том то и дело что не могу этот документ скинуть... Ладно и на этом всем огромное спасибо!

isaecf
(01.06.17 05:28:50 MSK) автор топика

Ответ на: комментарий от isaecf 01.06.17 05:28:50 MSK

В том то и дело что не могу этот документ скинуть...

Судя по «Я, ...» вы случаем не криминальную камеру установили и сканируете заявления с лицами?

vodz ★★★★★
(01.06.17 05:35:30 MSK)

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← Универсальный watchdog для nginx ($service_name) своими силами

Admin

Директива port-share в конфиге VPN →

Уточнение

На примере одного файла

Вариант

Похожие темы