LINUX.ORG.RU

Открыт код ядра системы распознавания текстов Cuneiform

 ,


0

0

Компания Cognitive Technologies объявила об открытии кода ядра системы распознавания печатных текстов Cuneiform. Скачать архив с исходными текстами можно отсюда (37 Мб). В настоящий момент для сборки требуется Microsoft Visual C++ версии 6.0 или новее. Для распространения программы выбрана собственная, но BSD-подобная лицензия (Berkeley Software Distribution). Сама программа Cuneiform Master v.12 остаётся под закрытой лицензией, хотя и бесплатной и по-прежнему доступной: http://www.cuneiform.ru/downl... (34 Мб)

На текущий момент заявку на участие в проекте уже подали более 30 человек из разных стран мира. В планах на 2008 г. подготовка первой версии OCR с открытым кодом на базе Cuneiform, при разработке которой приоритетными направлениями будут: создание современного интерфейса, поддержка Linux и добавление новых языков распознавания.

отредактировано anonymouse_incognito

>>> Подробности

ура! настал и в этой области праздник!

maloi ★★★★★
()

Респект! Давно уже пора создать нормальную распознавалку.

anonymous
()

> Скачать архив с исходными текстами можно отсюда

Предупреждать надо о размере! 37 МБ.

AEP ★★★★★
()

Очень полезно. Учителя в интервью все как один указывают на нехватку систем распознавания, хотя я так и не понял зачем. Но если указывают, значит действительно не хватает :)

Evgueni ★★★★★
()
Ответ на: комментарий от AEP

> Предупреждать надо о размере! 37 МБ.

Добавил указание на размер, но по-моему, и так должно быть ясно, что размер такой программы не может быть маленьким.

Посмотрел я немножко эти исходники. В общем, задачка портировать их под Linux будет довольно непростой. Они очень сильно завязаны на винду, система выглядит как набор COM сервисов, которые регистрируются в системе, кажется используется OLE и всё это именно в движке. Иностранцев, наверное смутят комментарии на русском языке в cp1251...

anonymous_incognito ★★★★★
()
Ответ на: комментарий от Evgueni

Интересно, а откуда у Линуксоидов лицензионный Visual C++ 6.0 Pro, которому уже 10 лет?

HP
()

как раз портируют к лету, к лету же выйдет wine 1.0 с поддержкой автокад 1с и фотошоп, доплят KDE4 и настанет винкапец.

anonymous
()
Ответ на: комментарий от HP

> Нет. Отставание - 10 лет.

Я немного покрутил cuneiform, меня качество распознавания приятно удивило, оно в общем-то на уровне finereader'а, ну может несколько хуже, но не сильно. Finereader лучше сохраняет сложное форматирование, но если формат не очень сложный и качество сканирования нормальное, cuneiform распознаёт на уровне finereader'а, может быть даже лучше, но это надо серьёзные тесты на большом количестве материала устраивать, чтобы выявить победителя. Есть и явное преимущество в том, что распознаёт существенно быстрее, чем 9-ая версия finereader'а.

Отставание на 10 лет в основном в интерфейсе и поддерживаемых форматах.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от anonymous_incognito

>Иностранцев, наверное смутят комментарии на русском языке в cp1251... Ну, качество кода "на высоте", фиг ли.

Меня другое смущает. На фига в _ядре_ распознавалки COM-сервисы и OLE?

JackYF ★★★★
()
Ответ на: комментарий от anonymous

> нет все самое вкустное абби позаимствует

Насколько я себе это представляю - вряд ли, разве что специально для этого потратят значительные ресурсы на переписывание своей системы.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от Evgueni

> Очень полезно. Учителя в интервью все как один указывают на нехватку систем распознавания, хотя я так и не понял зачем.

Чтобы компьютер распознавал пьяных учеников и выгонял их из класса.

anonymous
()

Жду и желаю разработчикам, которые за это возьмутся, всяческих успехов!!!

Будет и на нашей улице праздник :)

anonymous
()
Ответ на: комментарий от Gregon

> Теперь только ждать, когда на линукс портируют.

Во-первых, не ждать, а двигать телом. А во-вторых, ещё не известно что там в лицензии накорябано.

anonymous
()
Ответ на: комментарий от anonymous

> А ссылка на лицензию есть?

Лицензия внутри zip'а с исходниками.

/*
Copyright (c) 1993-2008, Cognitive Technologies
All rights reserved.

Разрешается повторное распространение и использование как в виде исходного кода,
так и в двоичной форме, с изменениями или без, при соблюдении следующих условий:

      * При повторном распространении исходного кода должны оставаться указанное
        выше уведомление об авторском праве, этот список условий и последующий 
        отказ от гарантий. 
      * При повторном распространении двоичного кода в документации и/или в 
        других материалах, поставляемых при распространении, должны сохраняться
        указанная выше информация об авторском праве, этот список условий и
        последующий отказ от гарантий.  
      * Ни название Cognitive Technologies, ни имена ее сотрудников не могут 
        быть использованы в качестве средства поддержки и/или продвижения 
        продуктов, основанных на этом ПО, без предварительного письменного
        разрешения. 

ЭТА ПРОГРАММА ПРЕДОСТАВЛЕНА ВЛАДЕЛЬЦАМИ АВТОРСКИХ ПРАВ И/ИЛИ ДРУГИМИ ЛИЦАМИ "КАК
ОНА ЕСТЬ" БЕЗ КАКОГО-ЛИБО ВИДА ГАРАНТИЙ, ВЫРАЖЕННЫХ ЯВНО ИЛИ ПОДРАЗУМЕВАЕМЫХ, 
ВКЛЮЧАЯ ГАРАНТИИ КОММЕРЧЕСКОЙ ЦЕННОСТИ И ПРИГОДНОСТИ ДЛЯ КОНКРЕТНОЙ ЦЕЛИ, НО НЕ
ОГРАНИЧИВАЯСЬ ИМИ. НИ ВЛАДЕЛЕЦ АВТОРСКИХ ПРАВ И НИ ОДНО ДРУГОЕ ЛИЦО, КОТОРОЕ 
МОЖЕТ ИЗМЕНЯТЬ И/ИЛИ ПОВТОРНО РАСПРОСТРАНЯТЬ ПРОГРАММУ, НИ В КОЕМ СЛУЧАЕ НЕ 
НЕСЁТ ОТВЕТСТВЕННОСТИ, ВКЛЮЧАЯ ЛЮБЫЕ ОБЩИЕ, СЛУЧАЙНЫЕ, СПЕЦИАЛЬНЫЕ ИЛИ 
ПОСЛЕДОВАВШИЕ УБЫТКИ, СВЯЗАННЫЕ С ИСПОЛЬЗОВАНИЕМ ИЛИ ПОНЕСЕННЫЕ ВСЛЕДСТВИЕ 
НЕВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ ПРОГРАММЫ (ВКЛЮЧАЯ ПОТЕРИ ДАННЫХ, ИЛИ ДАННЫЕ, 
СТАВШИЕ НЕГОДНЫМИ, ИЛИ УБЫТКИ И/ИЛИ ПОТЕРИ ДОХОДОВ, ПОНЕСЕННЫЕ ИЗ-ЗА ДЕЙСТВИЙ 
ТРЕТЬИХ ЛИЦ И/ИЛИ ОТКАЗА ПРОГРАММЫ РАБОТАТЬ СОВМЕСТНО С ДРУГИМИ ПРОГРАММАМИ, 
НО НЕ ОГРАНИЧИВАЯСЬ ЭТИМИ СЛУЧАЯМИ), НО НЕ ОГРАНИЧИВАЯСЬ ИМИ, ДАЖЕ ЕСЛИ ТАКОЙ 
ВЛАДЕЛЕЦ ИЛИ ДРУГОЕ ЛИЦО БЫЛИ ИЗВЕЩЕНЫ О ВОЗМОЖНОСТИ ТАКИХ УБЫТКОВ И ПОТЕРЬ.

Redistribution and use in source and binary forms, with or without modification,
are permitted provided that the following conditions are met:

    * Redistributions of source code must retain the above copyright notice,
      this list of conditions and the following disclaimer.
    * Redistributions in binary form must reproduce the above copyright notice,
      this list of conditions and the following disclaimer in the documentation
      and/or other materials provided with the distribution.
    * Neither the name of the Cognitive Technologies nor the names of its
      contributors may be used to endorse or promote products derived from this
      software without specific prior written permission.

THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED 
WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE 
DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE LIABLE 
FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL 
DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR 
SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER 
CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, 
OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE 
OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
*/

anonymous_incognito ★★★★★
()
Ответ на: комментарий от JackYF

> Меня другое смущает. На фига в _ядре_ распознавалки COM-сервисы и OLE?

Меня это тоже смущает :)

anonymous_incognito ★★★★★
()
Ответ на: комментарий от anonymous_incognito

>Они очень сильно завязаны на винду, система выглядит как набор COM сервисов

интересно, портировать под gcc/XPCOM из Мозиллы сложно будет? Взять собрать под wine сначала MSVC, потом mingw-ом, потом XPCOM прикрутить?

anonymous
()

А как там tesseract поживает? Его разрабатывают сколь нибудь активно сейчас? OCRopus, опять-же...

one_more_hokum ★★★
()
Ответ на: комментарий от AEP

В общем сами исходники 19Мб (3Мб в сжатом виде), много занимают "словари" (причём пока не совсем ясно что там)

yaleks
()
Ответ на: комментарий от Gregon

Ждем тезерракт, ибо ин гугол ви траст.

anonymous
()
Ответ на: комментарий от JackYF

>Меня другое смущает. На фига в _ядре_ распознавалки COM-сервисы и OLE?

Сдаётся мне, что главный интерес представляет не как и на чём ядро написано, а алгоритмы и словари применяемые при распознавании. Интересно кстати , а там ничего патентоопасного нет ?

Renso ★★
()

УРА!!! Пойду набухаюсь от счатья, виндекапец грядет!!!

MMouXe
()
Ответ на: комментарий от JackYF

Вообще-то сервис распознавания сделан как COM. К твоему сведению любое достаточно сложное ПО под Win должно так разработано: МСО, Promt, Linvo, FineReader,...

HP
()

Да. Вторая очень хорошая новость. Можно сказать, вечер задался.

StepAs
()
Ответ на: комментарий от JackYF

>Меня другое смущает. На фига в _ядре_ распознавалки COM-сервисы и OLE?

Меня смущает, а где ты 10 лет назад был? Тоже умничал в какой-нибудь ГосДуме? Или писал драйверы на Паскале?

anonymous
()
Ответ на: комментарий от AEP

>> Предупреждать надо о размере! 37 МБ.

А curl -I набрать и посмотреть размер перед скачиванием не судьба?

vyazovoi ★★★
()
Ответ на: комментарий от Demon37

>>Интересно кстати , а там ничего патентоопасного нет ?

> Было б, хрен бы открыли.

В России программы не патентуются.

anonymous_incognito ★★★★★
()
Ответ на: комментарий от ceeqwer

>Ещё один гвоздь в гроб винды..

Да там уже гроб из гвоздей, наверное даже не один, но блин, когда же закапывать то будут?

wfrr ★★☆
()
Ответ на: комментарий от Renso

> Сдаётся мне, что главный интерес представляет не как и на чём ядро написано, а алгоритмы и словари применяемые при распознавании.

Словари входят в состав исходников, целый ряд статей по алгоритмам (не обязательно используемым в cuneiform) также опубликован ещё в декабре: http://www.cuneiform.ru/forum/viewtopic.php?t=15

anonymous_incognito ★★★★★
()
Ответ на: комментарий от anonymous

Скажите, товарищ, вы кретин? И 10 лет назад ТАК никто в здравом уме не писал.

anonymous
()
Ответ на: комментарий от Demon37

>Было б, хрен бы открыли.
Да действительно:http://www.cuneiform.ru/forum/viewtopic.php?t=933

1. Нами завершена юридическая оценка возможности открытия кодов и выбрана лицензия, по которой мы планируем открыть коды.

Renso ★★
()


ну что же, теперь у OSS community есть вполне реальный шанс доказать, что FR таки на самом деле какашка, а продукты с открытым кодом действительно рулят :)

// wbr

klalafuda ★☆☆
()
Ответ на: комментарий от anonymous_incognito

>Словари входят в состав исходников, целый ряд статей по алгоритмам (не
>обязательно используемым в cuneiform) также опубликован ещё в декабре:
>http://www.cuneiform.ru/forum/viewtopic.php?t=15

Ну вот и замечательно, а теперь можно ещё и посмотреть как это в коде реализовано пусть даже и на VC )))
Вообще хорошую политику выбрали ребята, респект им.

Renso ★★
()
Ответ на: комментарий от anonymous

>конкурент finereader`у. ура!

извините, бугога

другое дело, что файнридер нужен раз в сто лет

а вот формочиталка в линупсе не помешает

geek ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.