LINUX.ORG.RU

Компьютерное зрение и распознавание текста на картинке

 , , ,


0

2

Добрый день ЛОР! Нужен совет по улучшению точности распознавания текста на картинке. Картинки взяты из видео, видео сопровождается комментариями и подсказками в виде текста. Текст как правило белый, но иногда может изменять цвет на более тёмные оттенки. Размер шрифта тоже варьируется. Видео нарезается на множество картинок, чтобы в дальнейшем документировать текст на них.

Что пробовал:

  1. Просто через tesseract:

tesseract input.jpg output

Этот способ пока работает лучше чем другие два.

  1. Подготовка изображения в ffmpeg. Что происходит: Конвертация изображения в grayscale -> увеличение контрастности -> увеличение размера изображения и следственно текста -> подавление шумов максимально допустимым параметром.

ffmpeg -i input.jpg -vf hue=s=0,eq=brightness=-0.06:saturation=0:contrast=5,scale=1920:-1,nlmeans=s=30 output.png

Дальше сам tesseract:

tesseract output.png result

Этот способ хуже первого, но иногда справляется с тем с чем не смог справиться первый способ.

  1. Баш-скрипт textcleaner использующий imagemagick отсюда - fmwconcepts.com/imagemagick/textcleaner/index.php

textcleaner input.jpg output.png

tesseract output.png result

Если на одном изображении использовать все три способа, то получается точность 5-10%, в зависимости от видеоряда. Прошу ваших советов! Что можно такого сделать с изображением чтобы увеличить точность компьютерного зрения?

Понял что ffmpeg не лучшая утилита для обработки изображений. В gimp выяснил что неплохо работает greyscale в сочетании с color threshold, аналог опция -colorspace gray -contrast-stretch {значение},{значение}% в утилите convert.

Dante93 ()

Текст как правило белый, но иногда может изменять цвет на более тёмные оттенки.

Распознавание текста не должно зависеть от фона, поэтому перед анализом изображение фильтруют, разбеливают ©, для инвариантности к аффинным преобразованиям используют синтаксис цепного кодирования контура, двумерные грамматики ©
Теорию можно найти тут.

Что можно такого сделать с изображением чтобы увеличить точность компьютерного зрения?

Глянь OpenVINO™ Toolkit Components ©. Он может работать с «железяками» типа Intel® Movidius™ Myriad™ X ©, NCS2 ©.

quickquest ★★★★★ ()
Последнее исправление: quickquest (всего исправлений: 1)

лучше всего тессеракт распознаёт чёрные буквы, высотой около 30—32 пикселей, на белом фоне. покажи картинки, которые плохо распознаются?

а исходник видео или текста на нём у автора нельзя запросить?

anonymous ()
Ответ на: комментарий от Dante93

Понял что ffmpeg не лучшая утилита для обработки изображений.

слишком поспешные выводы

Harald ★★★★★ ()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.