LINUX.ORG.RU

Распознавание цифр с картинки

 


1

2

Есть картинка, которую сфоткали с экрана компа, открыв в редакторе hex. На картинке на белом фоне четко различимы и не сливаются все цифры. Нужно разбить на символы и распознать потом. Есть ли готовый софт под это дело ?

Ответ на: комментарий от Mixa

img2txt вообще ничего не распознал, хотя на картинке нормально видно и четко все. Надеюсь бинаризацию он сам проводит.

user2132
() автор топика
Ответ на: комментарий от Mixa

Заметил, что img2txt более менее но с ошибками распознает фотку hex файла, если сфоткано нормально, не под углом. Но почему-то распознает только первые 8 байт в строках, у hex редакторе пробел побольше между 8 и 8 байт в строках. И вот 2-ые 8 байт не замечает. Под углом небольшим пробовал ему пихнуть, совсем ничего не выдал. А про Tesseract можно поподробнее, что там и как использовать.

user2132
() автор топика

Ставь виртуалку с оффтопиком и Finereader. Все, что есть в линуксе, из распозновальщиков - ужас ужасный.

knd
()
Ответ на: комментарий от user2132

Честно говоря, или я не удачный или руки кривые, но какие OCR не пробовал, то после него проверять ещё надо, проще пальцами наклацать.

Mixa
()
Ответ на: комментарий от user2132

Ты хочешь вывести изображение в hex формате в текстовый файл? Тогда юзай hexdump.

Зачем эти пляски с распознаванием?

Mixa
()
Последнее исправление: Mixa (всего исправлений: 1)
Ответ на: комментарий от Mixa

Не, у меня фотка просто Hex файла, самого то файла нет, мне по фотке надо цифры восстановить, чтобы их руками не переписывать.

user2132
() автор топика
Ответ на: комментарий от Mixa

Ты бы уже давно руками ввел. ;-)

«Лень - двигатель прогресса», ну же :)))

p.s. я за Tesseract

metawishmaster ★★★★★
()
Последнее исправление: metawishmaster (всего исправлений: 1)

Tesseract отлично справляется с этим. Вверху все правильно по поводу него подсказали

trader1601
()
Ответ на: комментарий от knd

С установкой есть [url=https://appdb.winehq.org/objectManager.php?sClass=version&iId=18371]проблемы[/url], да, а так вполне работает.

luiswoo
()

Если устроит качество тессеракта, то норм. Если нет, то очень-очень много боли с машинным обучением.

peregrine ★★★★★
()
Ответ на: комментарий от Mixa

какие OCR не пробовал

Доверять бинаризацию OCR-ам не стоит. Лучше попробовать самому получить достойный вариант, например так:

gm convert -verbose +dither -colors 2 -normalize input.jpg output.tiff

или так: https://github.com/mauvilsa/imgtxtenh, или даже так: https://github.com/ImageProcessing-ElectronicPublications/aithreshold .

А лишь потом скармливать результат tesseract-у.

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.