OCR

Про линукс? Никак. Шаг вправо-влево, и тебе уже нужна нормальная ОС, под которую есть программы. Может под вайном заработает, я не знаю.
Для линакса есть Cuneiform, но оно кривое.

~~Inshallah~~
(21.01.17 14:53:10 MSK)

Ответ на: комментарий от Inshallah 21.01.17 14:53:10 MSK

кроме cuneiform есть еще tesseract. Оба умеют работать из коммстроки.

feofan ★★★★★
(21.01.17 15:04:04 MSK)

Ответ на: комментарий от Inshallah 21.01.17 14:53:10 MSK

Видимо, разработчики с тобой не согласны http://www.ocr4linux.com/en:kb:documentation:start

Я правда хз как там с функционалом в отношении оригинала.

~~Dude~~ ★
(21.01.17 15:09:56 MSK)

Ответ на: комментарий от Dude 21.01.17 15:09:56 MSK

Ну плохое сравнение.

Линуксовый finereader - это такая дорогущая штука для серверного применения без гуев.

Применять его для скана пары книжек дома...

Естественно на около нем крутится онлайновый сервис https://finereaderonline.com/ru-ru

fornlr ★★★★★
(21.01.17 15:18:38 MSK)
Последнее исправление: fornlr 21.01.17 15:27:01 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от feofan 21.01.17 15:04:04 MSK

кроме cuneiform есть еще tesseract. Оба умеют работать из коммстроки.

К ним и гуй есть - YAGF

Только отстают они от того же finereader просто страшно как.

Их можно применять разве что для идеальных сканов текстов без смешения языков, спец символов, таблиц.

fornlr ★★★★★
(21.01.17 15:21:30 MSK)
Последнее исправление: fornlr 21.01.17 15:23:11 MSK (всего исправлений: 2)

Ответ на: комментарий от Dude 21.01.17 15:09:56 MSK

Каюсь, был неправ.

~~Inshallah~~
(21.01.17 15:36:18 MSK)

Ссылка

Ответ на: комментарий от fornlr 21.01.17 15:21:30 MSK

К ним и гуй есть - YAGF

Я в курсе, но ТС просил консольные.

Их можно применять разве что для идеальных сканов текстов без смешения языков, спец символов, таблиц.

С таблицами и формулами всё плохо, да. А двуязычные документы, ЕМНИП, вполне распознаются.

feofan ★★★★★
(21.01.17 15:43:37 MSK)

Ссылка

tesseract или cuneiform, лучше первое, если нужен GUI то gimagereader, yagf ну и еще наверное куча всяких, в принципе все работает если слишком высоких требований не предъявлять

mbivanyuk ★★★★★
(21.01.17 15:45:15 MSK)

Ссылка

Ответ на: комментарий от Inshallah 21.01.17 14:53:10 MSK

В общем, tesseract дает в принципе отличный результат.

Буду юзать gscan2pdf для создание пдфок с текстовым слоем. Правда странно, что tesseract напрямую иногда выдает ошибки в словах. А, когда его стартует gscan2pdf, то лучше результат...

~~dikiy~~ ★★☆☆☆
(21.01.17 16:40:52 MSK) автор топика

Ответ на: комментарий от dikiy 21.01.17 16:40:52 MSK

ага. Понятно. gscan2pdf просто сканирует с другими опциями...

~~dikiy~~ ★★☆☆☆
(21.01.17 16:57:14 MSK) автор топика

Ссылка

Ответ на: комментарий от Inshallah 21.01.17 14:51:18 MSK

Плевс, ну т.е. плюсую Finereader. Ты чего вообще?

soslow ★
(21.01.17 17:11:31 MSK)

Ссылка

Ответ на: комментарий от fornlr 21.01.17 15:21:30 MSK

у нас cuneiform в продакшене. если ровно укладывать при сканировании, то run-eng распознавание для индексирования pdf сканов заказчиков устроило.

немецкий там тоже есть - скачивай, да смотри результат.

vtVitus ★★★★★
(22.01.17 00:43:43 MSK)
Последнее исправление: vtVitus 22.01.17 00:46:03 MSK (всего исправлений: 1)

Ссылка

Без ручного редактирования ни одна OCR произвольный текст точно не распознает целиком.

~~Quasar~~ ★★★★★
(23.01.17 08:18:27 MSK)

Ссылка

Ответ на: комментарий от Inshallah 21.01.17 14:46:54 MSK

Inshallah> Finereader?

По моему опыту пользования FineReader, который шёл вместе со сканером, это кусок говна, которому предпочесть ручной набор требуемых отрывков текста намного выгоднее.

~~Quasar~~ ★★★★★
(23.01.17 08:30:40 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← Опечатка в русской ArchWiki

Talks

Что помогает вам оставаться бодрыми и работоспособными на протяжении дня? →

Похожие темы