LINUX.ORG.RU

Cоздана открытая OCR ;-)


0

0

Группа сотрудников ПМ-ПУ при поддержке компании Digital Design разработала систему распознавания графических изображений с открытыми исходными текстами.

В июне 2004 группа сотрудников факультета ПМ-ПУ Санкт-Петербургского государственного университета при поддержке компании Digital Design завершила последний этап работы над проектом по разработке и публикации продукта с открытым кодом ?Система распознавания текстов?. С результатами работы инициативной группы можно ознакомиться на сайте ocr.apmath.spbu.ru.

Идея разработать открытую программу распознавания текста возникла на кафедре ПМ-ПУ так как, несмотря на наличие большого количества программных продуктов для распознавания текста (Fine Reader фирмы ABBYY, CuneiForm фирмы Cognitive Technologies, Caere OmniPage), на рынке нет программ с открытым кодом, позволяющих встраивать функции распознавания текста в системы, разработанные независимыми производителями.

>>> Подробности

anonymous

Проверено: Demetrio ()

Re: Cоздана открытая OCR ;-)

Молодцы. Правда пара матмеховцев вроде бы те же алгоритмы реализовывала, но код открытым не делали.

daebear ()

Re: Cоздана открытая OCR ;-)

>> ?Система распознавания текстов?.

Ты не этой прогой случайно статью распознавал?

>>> наличие большого количества программных продуктов для распознавания текста

всё никак не пойму, три - это куча или не куча?

anonymous ()

Re: Cоздана открытая OCR ;-)

":-)" в заголовке, по видимому, означает, что она только создана, но пока не работает. По крайней мере, на сайте есть только алгоритмы сегментации. Все равно молодцы, начало положено.

anonymous ()

Re: Cоздана открытая OCR ;-)

Ну Столлман в помощь.

anonymous ()

Re: Cоздана открытая OCR ;-)

Ура, товарищи!

AngryElf ★★★★★ ()

Re: Cоздана открытая OCR ;-)

Вы меня конечно извините, но то что там лежит это не OCR, IMHO. У них такие сильные ограничения на входные данные: это должен быть просто текст без блочной структуры, высокое разрешение, нет клякс, он должен быть набран почти одним шрифтом и.т.д. Это разве OCR? Им ничего серьезного сделать нельзя. Такое поделие за неделю на коленке делается, а не за пол года. >на рынке нет программ с открытым кодом, позволяющих встраивать функции распознавания текста в системы, разработанные независимыми производителями. как не было так и нет. С выходом этой поделки ничего не изменилось.

anonymous ()
Ответ на: Re: Re: Cоздана открытая OCR ;-) от Sun-ch

Re: Re: Re: Cоздана открытая OCR ;-)

>> Чё за мехматовцы?

C матом и со смехом... Адаптивно выражаясь, - веселые ребята.

anonymous ()

Re: Cоздана открытая OCR ;-)

Н-да, работает пока криво, да и возможности скачать что-то не заметил...

Будем надеяться на дальнейшее развитие..

anonymous ()
Ответ на: Re: Cоздана открытая OCR ;-) от anonymous

Re: Re: Cоздана открытая OCR ;-)

> Все равно молодцы, начало положено.

Это начало больше смахивает на "конец".

anonymous ()
Ответ на: Re: Re: Cоздана открытая OCR ;-) от AngryElf

Re: Re: Re: Cоздана открытая OCR ;-)

Даже и не собираюсь. Но как человек с 9 класса занимающийся КГ и в данный момент состоящий в группе КГ могу вполне обоснованно судить о качестве этого проекта. Очень сложно в академических условиях создать проект такого класса как FineReader. Для этого требуются годы тюнинга параметров разных моделей распознования. И много разработчиков.

anonymous ()

Re: Cоздана открытая OCR ;-)

А кто нить пробовал зайти на freshmeat.net и поискать там OCR ? штук 5 разных, правда все -- поделки :) так что не велика новость имхо

Я наприм уже год в студ. лаборатории тем же занимаюсь, так сделали куда поинтересней, права ещё не все баги пофиксили. И не выкладывали нашару, потому что люди типа научные работы пишут ). Но ничего, скоро выложим. Kстати , удаление клякс, отделение текста от изображения (и вообще много полезного)можно эффективно выдрать из кода djvulibre )))

nickitos ()
Ответ на: Re: Re: Re: Re: Cоздана открытая OCR ;-) от Sun-ch

Re: Re: Re: Re: Re: Cоздана открытая OCR ;-)

Это как сравнивать яблоки и апельсины на вкус :). Unix и FineReader настолько разные вещи, что сравнивать сложность их создания некорректно. Кстати, для справки: первый UNIX был очень простой OS. Да и не могло работать на машине с 16 разрядами и 64к оперативки нечто сложное( да и первый Linux тоже. Сколько там исходников было? Всего ничего). А первый FineReader уже умел больше чем все эти поделки вместе взятые :)

anonymous ()
Ответ на: Re: Cоздана открытая OCR ;-) от anonymous

Re: Re: Cоздана открытая OCR ;-)

>Это разве OCR? Им ничего серьезного сделать нельзя.

А может и не надо сразу СЕРЬЕЗНОЕ?
На вскидку...
1) Спам с этим американским английским, который теперь придумали в картинках рассылать, резать. Картинки делаются на компе. Их не сканируют.
2) Всякие рекламные картинки с сайтов резать. Сквид не все может поопределению.
3) Вот у нас огромная база сидюков с верстками. Прошерстить их, на предмет ключевых слов, и в базу. Потом искать проще будет. А пойди найди тот единственный компакт в котором в верстке ошибка в слове Петербугр :)
Да еще много всякой мелочевки придумать можно.

>С выходом этой поделки ничего не изменилось

Ну так и что? Все так тебе сразу? Главное нАчить.

vada ★★★★★ ()
Ответ на: Re: Re: Cоздана открытая OCR ;-) от vada

Re: Re: Re: Cоздана открытая OCR ;-)

Оно даже и для этих простых целей не сгодится. Там ограничение на вход - текст должен иметь очень простой layout. Иначе не поидет. А я думаю что для всех предложенных Вами применений это ограничение очень важно :(

anonymous ()
Ответ на: Re: Re: Re: Re: Re: Cоздана открытая OCR ;-) от anonymous

Re: Re: Re: Re: Re: Re: Cоздана открытая OCR ;-)

Что характерно, большинство алгоритмов распознавания открыты и даже публиковались в журналах типа "Монитор" (кто-то помнит этот обалденный журнал?). Другое дело, что такие сложные проекты не реализуемы без устойчивой команды. Потому как делаются не по дефолтному опенсорсному способу (это оно не умеет, а я хочу, и допишу), а путем совершенствования алгоритмов, где без высшей математики делать нечего. Форк для таких проектов и вовсе гибелен, так как отвлекает силы на разные ветви.

algor (когда-то учившийся в физ.-мат. классе)

anonymous ()
Ответ на: Re: Re: Re: Re: Re: Cоздана открытая OCR ;-) от anonymous

Re: Re: Re: Re: Re: Re: Cоздана открытая OCR ;-)

А при чем тут первый юникс?

Однако, именно в академической среде пишется самый сложный и наукоемкий
софт.

Это конечно не будет законченным продуктом, но это вполне можно развить

до юзабельного состояния.

Sun-ch ()
Ответ на: Re: Re: Cоздана открытая OCR ;-) от Sun-ch

Re: Re: Re: Cоздана открытая OCR ;-)

>Чё за мехматовцы?

Студенты математико-механичесокго факультета СПбГУ

KAM ()

Re: Cоздана открытая OCR ;-)

Поднимeтесь - замочим. WBR, ABBYY.

anonymous ()
Ответ на: Re: Re: Re: Re: Re: Re: Cоздана открытая OCR ;-) от Sun-ch

Re: Re: Re: Re: Re: Re: Re: Cоздана открытая OCR ;-)

1) Нет нельзя. Ты читал описание их метода? То что там написано развить нельзя. IMHO. :) Слишком уж он у них детерминированный. 2) Сложный и наукоемкий - да. Но как это относится к распознавалке текста? Все основные алгоритмы известны, остается их вылизывание и улучшение. IMHO.

anonymous ()

Re: Cоздана открытая OCR ;-)

ПМ-ПУ - при МатМехе ПТУ

=)

без обид - мое личное мнение

-- Матмеховец

GogaN ()
Ответ на: Re: Cоздана открытая OCR ;-) от GogaN

Re: Re: Cоздана открытая OCR ;-)

не при мат-мехе, а: ПМ-ПУ = ПТУ при ЛГУ ! т.е. ь ниразу

зы. ПМ-ПУ = П(М-У) = ПУ(М\У-1) = П(М\У-1)У ] М\У-1 = Т => ПМ-ПУ = ПТУ

!!

=)

deil ()
Ответ на: Re: Cоздана открытая OCR ;-) от anonymous

Re: Re: Cоздана открытая OCR ;-)

> всё никак не пойму, три - это куча или не куча?

Классику не помнишь: "Три рубля кучка. В кучке три штучки" (c) фильм "Спортлото 86" :)

Вообще-то их больше, раз уж в OfficeXP такую штуку давно всунули :)

anonymous ()
Ответ на: Re: Cоздана открытая OCR ;-) от anonymous

Re: Re: Cоздана открытая OCR ;-)

>> всё никак не пойму, три - это куча или не куча?

куча - это помойка из дистров с различиями в мелочах. А три продукта - это мало.

anonymous ()

Re: Cоздана открытая OCR ;-)

Я вот заинтересовался OCR-софтом под линукс и задал вопрос в форуме General. Уже спрашивая я знал что таки прог довольно много (минимум 6 штук и вопрос только какого они качества и поддерживается ли русский)

http://www.linux.org.ru/view-message.jsp?msgid=509245&back=view-group.jsp...

anonymous ()
Ответ на: Re: Cоздана открытая OCR ;-) от anonymous

Re: Re: Cоздана открытая OCR ;-)

PS: Я сам не програмист и не смог ничего в этих прогах исправить но чтение документации показало следующее:

1. Некоторые из свободных OCR не поддерживают ничего кроме английского, а другие не зависят от языка но требуют спец обучения.

2. Большинство из этих прог это command-line утилиты (меня это устраивает)

3. Некий hooj сказал что "исходники gocr-а смотрел" и что "придется таки списаться насчет того чтобы с этой функции он не char снимал а wchar_t (все догадались почему :) )"

4. Для нормальной поддержки нескольких языков нельзя "механически расширять базу сравнения" лучше придумать каким образом автоматически определять язык. Ну например распознавать используя все языковые базы по-очереди и для каждого слова выбирать ту где меньше "неуверенно распознаных" символов.

anonymous ()
Ответ на: Re: Re: Cоздана открытая OCR ;-) от anonymous

Re: Cоздана открытая OCR ;-)

> всё никак не пойму, три - это куча или не куча?

Насамом деле под винду ещё много есть. Но качеством похуже.

anonymous ()
Ответ на: Re: Re: Cоздана открытая OCR ;-) от OpenStorm

Re: Re: Re: Cоздана открытая OCR ;-)

> А тебе прямо сразу FineReader подавай?!

Да нет тот аноним совершенно прав. Посмотри например те проги которые я видел. Ссылки внизу страницы вот тут: http://jocr.sourceforge.net/links.html

там в принципе есть то что он хотел но конечно надо доделать

anonymous ()
Ответ на: Re: Re: Cоздана открытая OCR ;-) от vada

Re: Re: Re: Cоздана открытая OCR ;-)

> "Монитор" (кто-то помнит этот обалденный журнал?).
Хороший был журнал. Из нашей заводской библиотеки
его "приватизировали" какие-то чудаки в конце 90-х.
Насчет попыток СПбГТУ создать OCR пара замечаний:
- интересно их отношение к GNU Public License;
- насколько они продались заказчику и открыты для сотрудничества;
- как они относятся к альтернативным open-source проектам.
Если можно, ответы здесь.

pacify ★★★★★ ()
Ответ на: Re: Re: Re: Cоздана открытая OCR ;-) от anonymous

Re: Re: Re: Re: Cоздана открытая OCR ;-)

Меж тем, Kognition, поправьте, если ошибаюсь, -- единственная не завязанная на тип шрифтов свободная OCR. Народ, ну подберите уж её. Ведь есть что развивать.

AP ★★★★★ ()
Ответ на: Re: Re: Re: Cоздана открытая OCR ;-) от pacify

Re: Re: Re: Re: Cоздана открытая OCR ;-)

> - как они относятся к альтернативным open-source проектам.

А мне интересно почему они не стали доводить до ума существующие проекты.

anonymous ()

Re: Cоздана открытая OCR ;-)

> ПМ-ПУ - при МатМехе ПТУ > без обид - мое личное мнение > -- Матмеховец

Мы поняли, что не официальная позиция... ;-)

> ПМ-ПУ = П(М-У) = ПУ(М\У-1) = П(М\У-1)У ] М\У-1 = Т => ПМ-ПУ = ПТУ

Красиво, оценил :-|

Но гонор матмеховцев все равно поражает: чем ругать конкурента, сделали бы лучше. Где Ваш OCR, уважаемые???

onz, выпускник упомянутого ПМ-ПУ.

anonymous ()
Ответ на: Re: Cоздана открытая OCR ;-) от anonymous

Re: Re: Cоздана открытая OCR ;-)

> Где Ваш OCR, уважаемые???

Прально нефиг возиться с тем что сделали другие. Дайошь каждому выпускнику по своей OCR ;)

anonymous ()
Ответ на: Re: Cоздана открытая OCR ;-) от anonymous

Re: Re: Cоздана открытая OCR ;-)

Она не мультифонтовой, а омнифонтовой называется :)

В КлёвоЧтеце, насколько я помню, до сих пор приходится переключаться между "распечаткой" и "пишмашинкой". Омнишрифтовые OCR этого не просят.

AP ★★★★★ ()
Ответ на: Re: Re: Cоздана открытая OCR ;-) от AP

Re: Re: Re: Cоздана открытая OCR ;-)

> Она не мультифонтовой, а омнифонтовой называется :)

Один хрен стандартного названия всё равно нет.

> В КлёвоЧтеце

А это кто? Вообще половина тех которые я видел нужно обучать и значит как научишь так и будет. Но конечно рукописный труднее да и сам алгоритм сегментации может немного другой.

anonymous ()
Ответ на: Re: Re: Re: Re: Cоздана открытая OCR ;-) от AP

Re: Cоздана открытая OCR ;-)

> Fine(Клёво)Reader(Чтец)

Ну тада я не врубаюсь что там "переключать надо"? Поскольку в последней версии 7 всего три кнопки реально нужны :) Сканировать-Распознать-Сохранить. Всё автоматом и довольно прилично по качеству.

anonymous ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.