Подскажите аналоги finereader или лучше не тратить время на поиски, а под виндой пользоваться этой прогой?
tesseract может дать более-менее вменяемое качество. Но не finereader конечно. Если не готов жертвовать качеством – то под вайном идет только в путь. 11 версия вроде. Я пользуюсь.
но как только разметка страницы отклоняется от стандартной, то есть появляются картинки, таблицы, вставочки, то tesseract начинает всасывать с заглотом у finereader. Такие вот пироги.
Как ни странно finereader который под линукс. Tesseract вполне годно распознает plain text, а вот в форматирование и таблицы не может. Есть некое подобие ocrfeeder, но с finereader не сравнится.
Я использую tesseract в составе башскрипта для снятия скриншота и дальнейшего распознавания и вставки без форматирования.
ЕГа е ЕЛО п Шаецето е й Кодде о арДИТе ИЛ сеаа ееа аТОЛ ее) ор ога ЕТеЦИ Ь ЕОа ААа Я- 1еа о1е о оЕН ото ее НЕ ауе ее еЙ тто л келя < уИа КЕЙ Де н оТЯ
ИЕВ но с Ппегеайег не сравнится. Я использую ‘еззегас! в составе башскрипта для снятия скриншота и дальнейшего распознавания и вставки без
ПУОН ЫЕ Е ОИИВ
Как ни странно Ппегеачег который под линукс. Теззегас! вполне годно распознает р1атп 1еху, а вот в форматирование и таблицы не может. Есть некое подобие
оспеечег, но с Нпегеадег не сравнится. Я использую {еззегас! в составе башскрипта для снятия скриншота и дальнейшего распознавания и вставки без
СЕИ е ЕООВ
Как ни странно Япегеадег который под линукс. Теззегас вполне годно распознает ра {ехк, а вот в Форматирование >и таблицы не может. Есть некое подобие осПеечег, но с Япегеадег не сравнится. Я использую {еззегас в составе башскрипта для снятия скриншота и >дальнейшего распознавания и вставки без форматирования.
Отдельный английский или предложения на английском распознает замечательно.
Как ни странно finereader который под пинукс. Tesseract вполне годно распознает ptain text, а вот в форматирование и таблицы не может. Есть
некое подобие ocrfeeder, но с finereader не сравнится. Я использую tesseract в составе башскрипта для снятия скриншота и дапьнейшего
распознавания и вставки без форматирования.
convert -negate -adaptive-resize 300%
+
cuneiform -f text -l ruseng
cuneiform лучше читает с экрана, а вот сканы увы хуже
Дык зависит от.
Некоторые сканы и tesseract как бессвязную кашу вываливает (и 3-й, и 4-й), а cuneiform их прилично распознает. И наоборот.
Так что при распознавании djvu десяток случайных страниц распознаю им и тессерактом, чтобы решить, чем распознавать весь документ. Получается примерно 50/50.
за cuneiform не слежу, он развивается?
По-моему нет, только баги правят.
Правда я как его собрал последний раз года полтора назад, так обновления больше и не проверял.
Перацкую венду в виртуалку, в венду перацкий finereader. Рекомендую 14-й, он по-моему самый лучший сейчас из всех версий и лучше последнего сейчас - 15-го.
Где-то так. Opensource-ные OCR - это боль и страдание для серьёзной работы. Хотя если качество распознавания не так важно, как автоматизация, то лучше опенсорс, ибо тут уже проприетарные распознавалки - боль и страдание.
Из опенсорсных - самый лучший это tesseract, на втором месте - cuneiform. Tesseract, если всерьёз использовать, надо натренировать на нужный текст, статьи как это делать гуглятся. Тренированный tesseract заметно лучше распознает, но чудес все-равно не жди
А да, чуть не забыл. Предварительно для тессеракта очень сильно желательно, для файнридер просто желательно обработать и подготовить сканы к распознаванию. Рекомендую с помощью ScanTailor. Если есть время и силы разбираться - ScanKromsator
Cuneiform застыл по качеству примерно в 1999-2000 и с тех пор не развивался. Через лет 9 его движок заопенсорсили, а саму программу перевели во freeware. Надежды на улучшение движка не оправдались, его просто быстро портировали под линукс и с тех пор только мелкие баги правили. А ведь даже теоретический материал выкладывали, но никто не стал в математику лезть
Tailor и kromsator нужны в первую очередь для создания хорошей электронной книги, нежели распознавания текста.
Finereader нужен в первую очередь для сохранения форматирования книги и перегонки в Ворд. Для технической литературы формат Ворда для меня неприемлем.
Для добавления текстового слоя к djvu и pdf tesseract вполне достаточен.
Растровый текст уже сходу делает книгу нехорошей. Другое дело, что даже ручного векторизатора на пайтоне никто не сподобился соорудить. Хотя известно почему - на пайтоне полная байда с метриками в reportlab, подогнать текст под прямоугольник можно только методом «научного» многотыканья.
Я бы с ходу согласился, но нет. У меня рядом лежат две книги 3,5Мб djvu на 160 страниц и 45Мб pdf весь из себя векторный на 100 страниц. И первый гораздо удобнее за счёт своего небольшого размера. А так да, вектор по умолчанию лучше.
две книги 3,5Мб djvu на 160 страниц и 45Мб pdf весь из себя векторный на 100 страниц.
Весь?! Мне «весь» не нужен! Мне только текст векторный нужен, чтобы я его поверх чего угодно наложить мог (в отличии от растра), а всё остальное извольте в растр. Ну если это не так, то вбейте гвоздь в голову тому «манагеру», который эту книгу состряпал.