LINUX.ORG.RU

История изменений

Исправление token_polyak, (текущая версия) :

В общем да, единственная свободная сюита, в которой я видел большинство необходимого - это монструозный OCR-D, ориентированный на пропуск через пайплайны целых книг. Вот там тебе и предобработка изображения, и нарезка на колонки-абзацы-строки, и распознавание несколькими OCR (а то из тессеракта >=4 вырезали, например, распознавание жирный ли текст или курсивом написан), и вывод в разные форматы - всё в одном.

А сохранять в один PDF gImageReader всё-таки умеет.

Исправление token_polyak, :

В общем да, единственная свободная сюита, в которой я видел большинство необходимого - это монструозный OCR-D, ориентированный на пропуск через пайплайны целых книг. Вот там тебе и предобработка изображения, и нарезка на колонки-абзацы-строки, и распознавание несколькими OCR (а то из тессеракта >=4 вырезали, например, распознавание жирный ли текст или курсивом написан), и вывод в разные форматы - всё в одном.

Исправление token_polyak, :

В общем да, единственная свободная сюита, в которой я видел все функции файнридера - это монструозный OCR-D, ориентированный на пропуск через пайплайны целых книг. Вот там тебе и предобработка изображения, и нарезка на колонки-абзацы-строки, и распознавание несколькими OCR (а то из тессеракта >=4 вырезали, например, распознавание жирный ли текст или курсивом написан), и вывод в разные форматы - всё в одном.

Исходная версия token_polyak, :

В общем да, единственная свободная сюита, в которой я видел все функции файнридера - это монструозный OCR-D, ориентированный на пропуск через пайплайны целых книг. Вот там тебе и предобработка изображения, и нарезка на колонки-абзацы-строки, и распознавание несколькими OCR (а то из тессеракта >=4 вырезали, например, распознавание жирный ли текст или курсивом написан), и выход в разные форматы - всё в одном.