Компьютерное зрение и распознавание текста на картинке

Форум — General

Добрый день ЛОР! Нужен совет по улучшению точности распознавания текста на картинке. Картинки взяты из видео, видео сопровождается комментариями и подсказками в виде текста. Текст как правило белый, но иногда может изменять цвет на более тёмные оттенки. Размер шрифта тоже варьируется. Видео нарезается на множество картинок, чтобы в дальнейшем документировать текст на них.

Что пробовал:

Просто через tesseract:

tesseract input.jpg output

Этот способ пока работает лучше чем другие два.

Подготовка изображения в ffmpeg. Что происходит: Конвертация изображения в grayscale -> увеличение контрастности -> увеличение размера изображения и следственно текста -> подавление шумов максимально допустимым параметром.

ffmpeg -i input.jpg -vf hue=s=0,eq=brightness=-0.06:saturation=0:contrast=5,scale=1920:-1,nlmeans=s=30 output.png

Дальше сам tesseract:

tesseract output.png result

Этот способ хуже первого, но иногда справляется с тем с чем не смог справиться первый способ.

Баш-скрипт textcleaner использующий imagemagick отсюда - fmwconcepts.com/imagemagick/textcleaner/index.php

textcleaner input.jpg output.png

tesseract output.png result

Если на одном изображении использовать все три способа, то получается точность 5-10%, в зависимости от видеоряда. Прошу ваших советов! Что можно такого сделать с изображением чтобы увеличить точность компьютерного зрения?

computer vision, ffmpeg, imagemagick, tesseract

Dante93
(19.12.20 10:45:22 MSK)

4 комментария

Сообщения Dante93

Компьютерное зрение и распознавание текста на картинке