LINUX.ORG.RU

OCR из любой программы

 ,


1

1

В Powertoys Винды есть такая программа – Text Extractor. Она позволяет выделить мышкой область в любой программе и перевести ее в текст.
Решил, что тоже хочу такое, но ничего юзабельного ненагуглил.
TextSnatcher – это какое-то угребище, которое не может вызваться по хоткею, отметить область и ее распознать.

Есть ли какая-нибудь приблуда, желательно для KDE и с русским, которая так умеет?

★★★★★

Ответ на: комментарий от vvn_black

Да, видел такие скрипты.
Результат пока неутешительный. Все эти программы и скрипты для распознавания используют Tesseract, а он даже с установленным русским выдает вот такую дичь. Это твое сообщение)

   MHe KaxKeTCA MOXKHO KaKYIO-TO CBA3KY TOIO XKe TeccepakKTa C K&KMM-HVIóy,qb

Прикольно, что Tesseract из манджаровких реп по умолчанию устанавливает пакет языка Afrikaans.

athost ★★★★★
() автор топика

Не Юникс-вэй: можно какую-то связку с Телеграм попробовать.

Телеграм усмеет пользовать встроенный в ОС OCR, и так как в Unix нет встроенного OCR, то можно попробовать какой-то Телеграм-робот для этого (гуглится легко по «OCR»).

SerW
()

textsnatcher без проблем работает в вяленом. У меня выбранным русским распознал то предложение со скрина как

Мне кажется можно какую-то связку того же тессеракта с каким-нибудь хспр попробовать

ради интереса тоже сижу пробую, похоже он лучший из всех. Наверно надо доустанавливать langpack-и. Тот же русский tesseract-langpack-rus не был установлен в федоре

monkdt
()
Последнее исправление: monkdt (всего исправлений: 2)
Ответ на: комментарий от athost

Он по умолчанию использует только английский, так что для того что бы распознавать сразу на нескольких языках используй что то подобное:

#!/bin/sh
COPY_COMMAND=wl-copy
if test "$XDG_SESSION_TYPE" = "x11";then
	COPY_COMMAND="xclip -select clipboard"
fi
gnome-screenshot -a -f ~\.cache\screen4tess.png && tesseract -l eng+rus ~\.cache\screen4tess.png stdout | $COPY_COMMAND
rm ~\.cache\screen4tess.png

arax ★★
()

Решил проблему с помощью NormCap, установки языковых пакетов eng/rus Tesseract и настройки NormCap.
Теперь все ок.
Всем откликнувшимся большое спасибо.

athost ★★★★★
() автор топика