LINUX.ORG.RU

Tesseract 3.00 — новая версия ПО для оптического распознавания текста

 , ,


0

1

Программисты компании Google выпустили третью версию Tesseract, системы оптического распознавания текста.

В новой версии добавлена поддержка множества языков, включая русский.

В числе прочих изменений:

  • добавлен новый модуль анализа структуры документа;
  • добавлена поддержка формата HOCR;
  • библиотека Leptonica стала основной для работы с изображениями;
  • переписан код для работы с неоднозначно распознанными символами;
  • удалена поддержка VC++6.

Загрузить можно здесь.

>>> Подробности



Проверено: isden ()
Последнее исправление: MuZHiK-2 (всего исправлений: 5)

Ответ на: комментарий от anonymous

Я _пользователь_ этих OCR программ. А не программер. А файнридерокапец придёт, когда будет хороший гуй для этого тессеракта, а не те примитивные тулзы, которые есть сейчас.

gregg128
() автор топика
Ответ на: комментарий от anonymous

В OCR гуй вроде как играет довольно значительную роль. Например, можно указать вручную, какие места распознавать и какая ориентация текста, а какие — нет. Через консоль это будет немного труднее.

Ttt ☆☆☆☆☆
()
Ответ на: комментарий от Deleted

>Пользователям следует уметь собирать пакеты.

Пользователям следует уметь программировать драйвера для своих устройств и прикладные программы для своих нужд. Опенсорц, чо.

Dimanc ★★
()

Подскажите, как исправить. Пробовал усановить переменную export LIBDIR=/usr/local/lib - не помогло. Kubuntu amd64.

$ tesseract page.tiff 
tesseract: error while loading shared libraries: libtesseract_api.so.3: cannot open shared object file: No such file or directory

Droid790
()
Ответ на: комментарий от Deleted

2 dimqua Не ну ясно, все должны быть такими же задротами, как ты сам, да ?

Вот нах мне, пользователю, этот скилл нужен ? Когда я лет десять назад для обучения собирал дистр LFS - у меня был скилл сборки чего угодно откуда угодно, с попутным подпиливанием исходников на сях.

Но сейчас мне в моей убунте, в работе, никак не связанной с программированием, все эти скиллы нах не нужны. Это тебе, задроту, операционная система нужна как объект дрочева.

А нормальным людям она нужна для выполнения разных прикладных задач, в том числе обычных офисных.

gregg128
() автор топика
Ответ на: комментарий от gregg128

Ну тебе трудно скопипастить три команды? Это уже задротством считается?

Ttt ☆☆☆☆☆
()
Ответ на: комментарий от Droid790

Всё, понял, надо было установить переменную export LD_LIBRARY_PATH=/usr/local/lib

Droid790
()
Ответ на: комментарий от gregg128

> Не ну ясно, все должны быть такими же задротами, как ты сам, да ?

Почему же, совсем необязательно.

Вот нах мне, пользователю, этот скилл нужен ?


Чтобы не зависить от сборщиков дебов. Или, чтобы помочь другим пользователям, например.

Но сейчас мне в моей убунте, в работе, никак не связанной с программированием, все эти скиллы нах не нужны.


Для работы может вообще ПК не нужен, но это не значит, что не надо его иметь вообще.

Это тебе, задроту, операционная система нужна как объект дрочева.


Ну разумеется, как же может быть иначе?! :-D

Deleted
()

Мутный скан из русскоязычной книги по биологии - с ошибочками, но вполне читабельно.

Droid790
()
Ответ на: комментарий от Deleted

> большого ума не надо.
Предлагаю повесить это вместо новостной ленты на главной странице ЛОРа. Шрифтом 72.

Да, насчет ума - соберите хотя бы ... гном, чтоб безглючно работал. Без jhbuild и пр., разумеется - только кучка tar.bz2

svu ★★★★★
()

И хреновый скан из русскоязычной книжки по j2me, с исходником на странице - одни закорючки :(

Droid790
()
Ответ на: комментарий от minakov

>Ждем ебилдов

нет, с некоторых пор треды на ЛОРе следует открывать так:

Ждем дебилов

metadon
()
Ответ на: комментарий от svu

> Предлагаю повесить это вместо новостной ленты на главной странице ЛОРа. Шрифтом 72.

Зачем? Чтобы написать хорошую новость ум как раз требуется.

Да, насчет ума - соберите хотя бы ... гном, чтоб безглючно работал. Без jhbuild и пр., разумеется - только кучка tar.bz2


Можно всё что угодно попробовать сделать, но зачем? :-)

Deleted
()
Ответ на: комментарий от svu

>Да, насчет ума - соберите хотя бы ... гном, чтоб безглючно работал.

А про такие программы, как гном, разве шла речь? Его с сабжем по сложности сборки сравнивать некорректно.

Ttt ☆☆☆☆☆
()

Не разобрался

Как русский прикрутить. Закинул в /usr/share/tessdata rus.traineddata. Но tesseract-gui.py не даёт выбрать язык.

kraftello ★★★★★
()
Ответ на: комментарий от Ttt

Если из консоли всё нормально, значит, скорее всего, в gui.py баг.

Ttt ☆☆☆☆☆
()
Ответ на: комментарий от petrosyan
$ tesseract page.tiff output -l eng
Tesseract Open Source OCR Engine
Image has 8 * 3 bits per pixel, and size (1021,1168)
Resolution=96

По моему личному опыту знакомства с cuneiform, распознает лучше, но это было давно, правда.

Droid790
()
Ответ на: комментарий от gregg128

gregg128> Не ну ясно, все должны быть такими же задротами, как ты сам, да ?

То есть открыть файлик README, и выполнить три команды оттуда - это задротство?

gregg128> А нормальным людям она нужна для выполнения разных прикладных задач, в том числе обычных офисных.

Нормальные _пользователи_ должны уметь работать со своим персональным компьютером и уметь его администрировать - это прямая обязанность всех нормальных пользователей. Хозяин компьютера - его администратор. И никак иначе.

Но ежели таки хочешь отсутствующий пакетик получить - я могу тебе его за бабло сделать.

Quasar ★★★★★
()
Ответ на: комментарий от ArsenShnurkov

ArsenShnurkov> Не говорите пользователям, что им надо делать, и они не скажут, куда Вам мойти

И при этом будут продолжать жрать кактус из вирусни, троянов и граблей, которые своими кривыми руками они себе же и понаделали.

Quasar ★★★★★
()
Ответ на: комментарий от gregg128

Я все больше убеждаюсь, что такие пользователи Linux-у не нужны. Кроме непомерного ЧСВ, они ему ничего дать не могут.

CryAngel
()
Ответ на: комментарий от Quasar

>И при этом будут продолжать жрать кактус из вирусни, троянов и граблей, которые своими кривыми руками они себе же и понаделали.

При помощи вот таких вот криворуких программёров, которые даже скрипт для автосборки не могут осилить, а просят бабушек копировать и вставлять себе в терминал какие-то буквы.

sid350 ★★★★★
()
Ответ на: комментарий от Quasar

>То есть открыть файлик README, и выполнить три команды оттуда - это задротство?

Часто эти три команды оборачиваются геморроем с разруливанием зависимостей, а иногда и с правкой исходников. К тому же речь шла о сборке деб пакетов, а там нужны более сильные колдунства.

petrosyan ★★★★★
()

Ох как я надеюсь, что соберется под ARM. Хочу сканер с распознаванием на свое Maemo :] Отпишусь как попробую.

Bad_Habit
()
Ответ на: комментарий от impr

>Установка с сорцов уже не модно что-ли? Бинарники подавайте им.
А в случае удаления ты сам ошметки вычищать будешь, оставшиеся после make uninstall? Или зависимости искать, компилить и ставить тоже ты? Осиль уже какой нить пакетный менеджер и прекрати писать глупости.

px ★★★
()
Ответ на: комментарий от Quasar

И при этом будут продолжать жрать кактус из вирусни, троянов

и граблей, которые своими кривыми руками они себе же и понаделали.


Я вот сижу на генте и предлагаю тебе убить себя об стену.
Потому что я простой пользователь.

ArsenShnurkov
()
Ответ на: комментарий от anonymous

Без гуи от этой штуки все равно толку мало. Не зависимо от того есть deb или нет

Вроде как OCRFeeder с ним умеет работать. На сколько не проверял, но в ReadMe упомянуто.

AlexVR ★★★★★
()
Ответ на: комментарий от anonymous

>Без гуи от этой штуки все равно толку мало. Не зависимо от того есть deb или нет

Абсолютно согласен, без гуи грош цена этой программе.

Frolic
()
Ответ на: комментарий от Frolic

А будет гуй, так другие причины найдутся обосрать.

anonymous
()

>для оптического

Можно узнать какая часть оптики задействована в тессеракте?

фаперы на термины такие фаперы

r ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.