Компьютерное зрение и распознавание текста на картинке

computer vision, ffmpeg, imagemagick, tesseract

0

2

Добрый день ЛОР! Нужен совет по улучшению точности распознавания текста на картинке. Картинки взяты из видео, видео сопровождается комментариями и подсказками в виде текста. Текст как правило белый, но иногда может изменять цвет на более тёмные оттенки. Размер шрифта тоже варьируется. Видео нарезается на множество картинок, чтобы в дальнейшем документировать текст на них.

Что пробовал:

Просто через tesseract:

tesseract input.jpg output

Этот способ пока работает лучше чем другие два.

Подготовка изображения в ffmpeg. Что происходит: Конвертация изображения в grayscale -> увеличение контрастности -> увеличение размера изображения и следственно текста -> подавление шумов максимально допустимым параметром.

ffmpeg -i input.jpg -vf hue=s=0,eq=brightness=-0.06:saturation=0:contrast=5,scale=1920:-1,nlmeans=s=30 output.png

Дальше сам tesseract:

tesseract output.png result

Этот способ хуже первого, но иногда справляется с тем с чем не смог справиться первый способ.

Баш-скрипт textcleaner использующий imagemagick отсюда - fmwconcepts.com/imagemagick/textcleaner/index.php

textcleaner input.jpg output.png

tesseract output.png result

Если на одном изображении использовать все три способа, то получается точность 5-10%, в зависимости от видеоряда. Прошу ваших советов! Что можно такого сделать с изображением чтобы увеличить точность компьютерного зрения?

Ссылка

←	reminna невозможно подключиться к rdp серверу

Файлы прошивки регистратора DDPai Mola N3

→

Понял что ffmpeg не лучшая утилита для обработки изображений. В gimp выяснил что неплохо работает greyscale в сочетании с color threshold, аналог опция -colorspace gray -contrast-stretch {значение},{значение}% в утилите convert.

Dante93
(19.12.20 11:42:37 MSK) автор топика

Текст как правило белый, но иногда может изменять цвет на более тёмные оттенки.

Распознавание текста не должно зависеть от фона, поэтому перед анализом изображение фильтруют, разбеливают © (scask.ru), для инвариантности к аффинным преобразованиям используют синтаксис цепного кодирования контура, двумерные грамматики © (rsl.ru)…
Теорию можно найти тут (machinelearning.ru).

Что можно такого сделать с изображением чтобы увеличить точность компьютерного зрения?

Глянь OpenVINO™ Toolkit Components © (openvinotoolkit.org). Он может работать с «железяками» типа Intel® Movidius™ Myriad™ X © (intel.ru), NCS2 © (towardsdatascience.com).

quickquest ★★★★★
(19.12.20 12:46:05 MSK)
Последнее исправление: quickquest 19.12.20 12:48:09 MSK (всего исправлений: 1)