LINUX.ORG.RU

image 2 text


1

1

Доброго дня господа.
Встала задача отсканить, для себя, с ~100 страничек документов, и конвертнуть это дело в pure text.
Нагуглил GOCR, Ocrad, Ocropus, Tesseract-ocr.
Что бы не учиться на своих ошибках, те, кто уже имели дело с вопросом:
1) какое из решений самое удобное?
2) каков шанс и обычный процент ошибок? (при среднем качестве скана, предположим)
Заранее спасибо ответившим.

	cuneiform -l ruseng -f smarttext ${PPM} -o ${PPM}.txt

потом

cat *txt > result.txt

Если качество изображений отличное, распознает на ура (конечно, не должно быть формул и всякого мусора вроде картинок, но их можно будет позже подчистить).

Anon
()

каков шанс ... ошибок?

146%

и обычный процент

25-146%

anonymous
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.