LINUX.ORG.RU
ФорумTalks

OCR


0

1

Хочу в отсканенные документы добавить текстовый слой. Какие там OCR есть у нас, чтобы работали?

Язык немецкий.

★★☆☆☆

Последнее исправление: dikiy (всего исправлений: 1)

Ответ на: комментарий от dikiy

Про линукс? Никак. Шаг вправо-влево, и тебе уже нужна нормальная ОС, под которую есть программы. Может под вайном заработает, я не знаю.
Для линакса есть Cuneiform, но оно кривое.

Inshallah
()
Ответ на: комментарий от Dude

Ну плохое сравнение.

Линуксовый finereader - это такая дорогущая штука для серверного применения без гуев.

Применять его для скана пары книжек дома...

Естественно на около нем крутится онлайновый сервис https://finereaderonline.com/ru-ru

fornlr ★★★★★
()
Последнее исправление: fornlr (всего исправлений: 1)
Ответ на: комментарий от feofan

кроме cuneiform есть еще tesseract. Оба умеют работать из коммстроки.

К ним и гуй есть - YAGF

Только отстают они от того же finereader просто страшно как.

Их можно применять разве что для идеальных сканов текстов без смешения языков, спец символов, таблиц.

fornlr ★★★★★
()
Последнее исправление: fornlr (всего исправлений: 2)
Ответ на: комментарий от fornlr

К ним и гуй есть - YAGF

Я в курсе, но ТС просил консольные.

Их можно применять разве что для идеальных сканов текстов без смешения языков, спец символов, таблиц.

С таблицами и формулами всё плохо, да. А двуязычные документы, ЕМНИП, вполне распознаются.

feofan ★★★★★
()

tesseract или cuneiform, лучше первое, если нужен GUI то gimagereader, yagf ну и еще наверное куча всяких, в принципе все работает если слишком высоких требований не предъявлять

mbivanyuk ★★★★★
()
Ответ на: комментарий от Inshallah

В общем, tesseract дает в принципе отличный результат.

Буду юзать gscan2pdf для создание пдфок с текстовым слоем. Правда странно, что tesseract напрямую иногда выдает ошибки в словах. А, когда его стартует gscan2pdf, то лучше результат...

dikiy ★★☆☆☆
() автор топика
Ответ на: комментарий от dikiy

ага. Понятно. gscan2pdf просто сканирует с другими опциями...

dikiy ★★☆☆☆
() автор топика
Ответ на: комментарий от fornlr

у нас cuneiform в продакшене. если ровно укладывать при сканировании, то run-eng распознавание для индексирования pdf сканов заказчиков устроило.

немецкий там тоже есть - скачивай, да смотри результат.

vtVitus ★★★★★
()
Последнее исправление: vtVitus (всего исправлений: 1)

Без ручного редактирования ни одна OCR произвольный текст точно не распознает целиком.

Quasar ★★★★★
()
Ответ на: комментарий от Inshallah

Inshallah> Finereader?

По моему опыту пользования FineReader, который шёл вместе со сканером, это кусок говна, которому предпочесть ручной набор требуемых отрывков текста намного выгоднее.

Quasar ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.