Вышла новая версия web-системы распознавания текста CuneWebForm

0

0

CuneWebForm — web-система распознавания текста, использующая в качестве движка проект CuneIForm-Linux.

Основные возможности:

Пакетное распознавание документов.
Загрузка набора изображений в zip-архивах.
Выгрузка распознанного текста в формате odt.
Постраничное распознавание с выводом текста в соседний фрейм.
Работает в большинстве существующих операционных систем.
Не требует установки дополнительного ПО на компьютер пользователя.

Проект начинался как дипломная работа студента Нижегородского РадиоТехнического Колледжа. На данный момент, развивается усилиями сотрудников Вычислительного Центра НРТК. Активно используется сотрудниками и студентами Колледжа.

>>> Скачать новую версию
>>> Рабочая система на сайте Нижегородского РадиоТехнического Колледжа

>>> Сайт проекта

Ссылка

← Работа с открытыми форматами документов: Часть 2. Средства проекта ODF Toolkit

Nouveau DRM скоро будет включён в Lucid →

← 1 2 →

Ответ на: комментарий от terminat0r 02.12.09 03:38:56 MSK

> с таблицами у CuneIForm совсем худо.

Соответствующие части исходного кода ещё не открыли (по состоянию на весну 2009-го). Обещали открыть где-нибудь через год после основной части: https://bugs.launchpad.net/cuneiform-linux/+bug/260327/comments/7 .

question4 ★★★★★
(02.12.09 04:45:15 MSK)

Ссылка

Ответ на: комментарий от terminat0r 02.12.09 03:38:56 MSK

>Нда, с таблицами у CuneIForm совсем худо.

Только у Linux-версии. Оригинальное приложение от Cognative Technologies хорошо работает с таблицами. Ждем когда ребята из CuneIForm-Linux портируют и эту функцию.

~~gumanoed~~ ★★★
(02.12.09 06:21:14 MSK) автор топика

Ответ на: комментарий от gumanoed 02.12.09 06:21:14 MSK

Очень странно, почему никто не пишет об успешных процессах распознавания. Я вижу время от времени народ загружает договора и страницы из книг, которые распознаются со 100% результатом вплоть до сохранения форматирования и «жирности» текста в нужных местах.

~~gumanoed~~ ★★★
(02.12.09 06:31:38 MSK) автор топика

Ссылка

Работает и распознаёт. Молодцы, развивайте дальше.

Lucius ★
(02.12.09 08:15:49 MSK)

Ссылка

Идея хороша, но работает пока коряво!

И где кнопка-«Распознать документ» ?

anonymous
(02.12.09 09:16:19 MSK)

Ответ на: комментарий от anonymous 02.12.09 02:49:02 MSK

круто) закинул пару картинок, все отлично и быстро распознал!

ExpertOff ★
(02.12.09 09:21:50 MSK)

Ссылка

Ответ на: комментарий от anonymous 02.12.09 09:16:19 MSK

>И где кнопка-«Распознать документ» ?

А зачем вам кнопка? Щелкайте слева по картинке, которую хотите распознать.

Или по кнопке «Распознать Все», если хотите пакетно распознать все загруженные изображение.

Можете так же, нахать «Выгрузить в ODT» что тоже запустит процесс распознавания и выдаст вам odt документ с текстом.

~~gumanoed~~ ★★★
(02.12.09 09:29:30 MSK) автор топика

Ссылка

Ответ на: комментарий от sergey_be 01.12.09 20:10:49 MSK

по поводу кривизны кода, Хочу выступить в защиту! обратиться ко всем не «быдлокодерам» особенно тем у кого есть предложения а еще лучше руки и хоть не много времени, на сколько я понимаю к данному проекту можно присоединиться http://fireforge.net/projects/cunewebform/ и не просто от души обгадить проект в коментах а предложить или сделать как надо.

З.Ы. а так идея очень интересная и востребованная, надеюсь достойная реализация общими усилиями не заставит долго ждать.

nomorrison
(02.12.09 09:45:50 MSK)

Ссылка

Попробовал распознать скриншот текста на английском (72 dpi) - распознался практически без ошибок

nvl ★★★★
(02.12.09 10:36:53 MSK)

Ответ на: комментарий от nvl 02.12.09 10:36:53 MSK

У меня прекрасно всё распозналось! Хорошее начинание, если туда набежит разработчиков и всё зарефакторит, будет неплохо.

anonymous
(02.12.09 11:55:30 MSK)

Ссылка

Ответ на: комментарий от gumanoed 01.12.09 23:42:54 MSK

> А «Колледж» - это ПТУ, или техникум?

Это место, где людей учат как делать а не как красиво рассказывать как это делается :)

Техникум.

Не может быть! Я сам в колледже учился, даже диплом есть.
Со всей ответственностью могу сказать: колледж - это ПТУ.

Хотя верно, там учат как делать.

valich ★★★
(02.12.09 12:44:01 MSK)

Ответ на: комментарий от valich 02.12.09 12:44:01 MSK

>Со всей ответственностью могу сказать: колледж - это ПТУ.

Молодой человек, в случае с НРТК вы совершенно не правы. В Нижегородском РадиоТехническом Колледже студенты учатся 4 года и получают диплом о средне-специальном образовании с квалификацией «Техник».

~~gumanoed~~ ★★★
(02.12.09 12:50:57 MSK) автор топика

Эх, жаль djvu загружать нельзя. Так бы совсем красота была скажем для онлайн-библиотек. Загрузил файл в библиотеку, если нет в дежавюшке текстового слоя он сам добавляется и индексируется... Тем более экспорт в djvu есть

DNA_Seq ★★☆☆☆
(02.12.09 13:05:53 MSK)

Ответ на: комментарий от DNA_Seq 02.12.09 13:05:53 MSK

>Эх, жаль djvu загружать нельзя.

На самом деле экспорт в djvu пока лиш в планах. Мы просто попросили Михаила Солуянова сделать картинки для всех запланированных опций :)

Идея описанная вами интересная. Я думаю мы это сделаем в будующем.

~~gumanoed~~ ★★★
(02.12.09 13:11:53 MSK) автор топика

Ответ на: комментарий от gumanoed 02.12.09 13:11:53 MSK

>На самом деле экспорт в djvu пока лиш в планах.

Я уже заметил. Как я понимаю вы и есть автор? А интерфейс между прочим довольно приятный, сейчас про фреймы все как-то позабыли

DNA_Seq ★★☆☆☆
(02.12.09 13:18:12 MSK)

Ответ на: комментарий от gumanoed 01.12.09 23:47:39 MSK

> Так случилось, что в ubuntu /bin/sh по умолчанию указывает на /bin/dash. Но в таком варианте CuneIForm не срабатывает корректно. Так что, пользуемся тем что имеется!

И правильно, если нужен bash то и пишем #!/bin/bash. А то задолбали своим #!/bin/sh когда вовсю юзаются фичи bash3.

gloomdemon ★
(02.12.09 13:24:14 MSK)

Ссылка

Ответ на: комментарий от DNA_Seq 02.12.09 13:18:12 MSK

>Как я понимаю вы и есть автор?

Как я написал на http://fireforge.net/mediawiki/index.php/Cunewebform/%D0%98%D1%81%D1%82%D0%BE... я являюсь инициатором проекта и автором первоначального концепта интерфейса. Нынешние картиночки для нас сделал Михаил Солуянов, наш художник и эксперт по InkScape и Blender.

А интерфейс между прочим довольно приятный, сейчас про фреймы все как-то позабыли

Спасибо, мы старались сделать его простым и удобным. А вот по поводу фреймов нынешние разработчики говорят что сессии будет проце реализовавыть с div'ами. Так что, видимо, новая версия CuneWebForm будет выглядеть так же, но без фреймов :)

~~gumanoed~~ ★★★
(02.12.09 13:31:06 MSK) автор топика

Ответ на: комментарий от gumanoed 02.12.09 13:31:06 MSK

У меня всё время

The requested URL /convert/img_0037.jpg.html was not found on this server.

Что не так? Картинки свои вижу.

anonymous
(02.12.09 13:47:50 MSK)

Ответ на: комментарий от anonymous 02.12.09 13:47:50 MSK

>Что не так? Картинки свои вижу.

Скорее всего CuneIForm не может распознать ваши картинки и не выдаеть ничего на выходе. Мы пока не обрабатываем ошибки.

Попробуйте удалить с взображения все посторонние элементы оформления и оставить только текст.

~~gumanoed~~ ★★★
(02.12.09 13:55:12 MSK) автор топика

Ссылка

Ответ на: комментарий от anonymous 02.12.09 13:47:50 MSK

>Что не так? Картинки свои вижу.

В вашем случае это не актуально, но часто загружают картинки с русскими именами.

Постарайтесь имена картинок делать латиницей!

~~gumanoed~~ ★★★
(02.12.09 13:58:10 MSK) автор топика

Ссылка

http://panoptus.mk.ua/?category=ubuntu&altname=raspoznavanie_teksta_v_ubuntu_...

panoptus
(02.12.09 15:06:39 MSK)

Ответ на: комментарий от panoptus 02.12.09 15:06:39 MSK

>http://panoptus.mk.ua/?category=ubuntu&altname=raspoznavanie_teksta_v_ubuntu_...

Замечательный проект, отлично работает в Школьном Linux. Пользуем даже в Ubuntu кое где. Но он требует установки на компьютер и использует процессор вашего компьютера. И, помоему, не делает пакетное распознавание.

~~gumanoed~~ ★★★
(02.12.09 15:19:24 MSK) автор топика

Ссылка

Это:

rm /bin/sh 
ln -s /bin/bash /bin/sh

Сюда: http://govnokod.ru

~~anonimous~~ ☆
(02.12.09 15:21:14 MSK)

Ссылка

Ответ на: комментарий от gumanoed 02.12.09 12:50:57 MSK

получают диплом о средне-специальном образовании с квалификацией «Техник».

У меня был знакомый «Техник» с дипломом.

«Технология и искусственное осеменение самок».

~~Sun-ch~~ ☆
(02.12.09 15:23:37 MSK)

Ответ на: комментарий от Sun-ch 02.12.09 15:23:37 MSK

> У меня был знакомый «Техник» с дипломом. ...

Ну что я могу сказать, я рад за его замечательную специальность. Надеюсь он повышает свою квалификацию.

~~gumanoed~~ ★★★
(02.12.09 15:33:23 MSK) автор топика

Ответ на: комментарий от gumanoed 02.12.09 15:33:23 MSK

А вот и мы!

Комманда разработчиков CuneWebForm

http://blog.nntc.nnov.ru/wp-content/uploads/2009/12/cunewebform-team.jpg

~~gumanoed~~ ★★★
(02.12.09 15:34:02 MSK) автор топика

Прикрутить к сканеру и принтсерверу и цены этому продукту не будет.

ei-grad ★★★★★
(02.12.09 20:38:50 MSK)

Ссылка

Ответ на: комментарий от gumanoed 02.12.09 15:34:02 MSK

Пиарится научились, а код писать еще нет. А вроде не малолетки-школьники.

sergey_be ★
(03.12.09 08:24:29 MSK)

Ответ на: комментарий от sergey_be 03.12.09 08:24:29 MSK

> Пиарится научились, а код писать еще нет. А вроде не малолетки-школьники.

Мы исправимся. У нас сейчас Aceler читает курс по «Командной разработке», результаты должны улучшиться в ближайшее время :)

~~gumanoed~~ ★★★
(03.12.09 10:14:03 MSK) автор топика

Ответ на: комментарий от gumanoed 03.12.09 10:14:03 MSK

Давайте, ребята! Доведите эту фигнь до нормального рабочего состояния. Удачи!

sergey_be ★
(03.12.09 10:42:08 MSK)

Ссылка

По поводу http://cunewebform.nntc.nnov.ru/

Для каких целей пингвина с рванным контуром влепили в страницу? - он совсем не к месту. Что это и зачем? Логотип? Не понятно. Это web - т.е. зависимости от ОС нету.

Влепите лучше какой значек из клинописи (cuneiform) в качестве логотипа и его же используйте для favicon (ее нет - очень не удобно в табах выискивать).

Вот..

nvl ★★★★
(03.12.09 13:55:00 MSK)

Кстати, cuneiform-linux умеет работать с дореволюционным текстом?

Vovanchic ★
(03.12.09 14:19:51 MSK)

Ответ на: комментарий от Vovanchic 03.12.09 14:19:51 MSK

Not Found

The requested URL /convert/cunei1.JPG.html was not found on this server.

ЛОР-эффект детектед? В левой колонке показывает загруженный файл, но при по пытке распознать выдает приведенное выше. Кстати, наблюдаю еще такой эффект. Загружаю файл с именем cunie.jpg. потом удаляю. Делаю еще один скан с таким же именем. При попытке загрузить, все якобы грузиться. Но содержимое осталось от старого файла... :(

Milker ★★
(03.12.09 16:02:52 MSK)

Ответ на: комментарий от Milker 03.12.09 16:02:52 MSK

> При попытке загрузить, все якобы грузиться. Но содержимое осталось от старого файла... :(

Спасиба, завтра проверим.

~~gumanoed~~ ★★★
(03.12.09 22:58:18 MSK) автор топика

Ссылка

Ответ на: комментарий от nvl 03.12.09 13:55:00 MSK

> Для каких целей пингвина с рванным контуром влепили в страницу? - он совсем не к месту. Что это и зачем? Логотип? Не понятно. Это web - т.е. зависимости от ОС нету

Нам так больше нравиться :) Все разработчики пользуются Linux и нам нравятся связанные с ним вещи.

~~gumanoed~~ ★★★
(03.12.09 23:03:24 MSK) автор топика

Ссылка

Ответ на: комментарий от Vovanchic 03.12.09 14:19:51 MSK

>Кстати, cuneiform-linux умеет работать с дореволюционным текстом?

Не совсем вас понял. Ленин дал Советскому народу письменность?

~~gumanoed~~ ★★★
(03.12.09 23:04:31 MSK) автор топика

Ответ на: комментарий от gumanoed 03.12.09 23:04:31 MSK

Видимо имеется ввиду старославянский/церковнославянский.
http://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B0%D1%80%D0%BE%D1%81%D0%BB%D0%B0...
Сомнительно что cuneiform это умеет, коммерческие, наверное, и то не умеют.

ls-h ★★★★★
(04.12.09 00:20:28 MSK)

Ответ на: комментарий от gumanoed 02.12.09 00:31:08 MSK

> У CuneIForm свои алгоритмы распознавания, как мне известно, на базе фракталов. Некоторые пользователи этой системы говорят что увеличение файла в размерах приводит к некоторому улучшению в распознавании. Сам пока не пробовал, но допускаю такую возможность.

Попробовал. Двухуровневую страницу 300 dpi (44 строки текста из книги, 5,5 тысяч знаков) уменьшил вдвое и втрое, затем увеличил до первоначального размера, затем увеличил всё вдвое. Интерполяцией и более сложными преобразованиями не пользовался.

Изначальный скан Cuneiform распознал с 1 ошибкой.

На 100 dpi правильно не распознало ничего, на утроенном и ушестерённом 100 dpi — читаемый текст, правда по нескольку ошибок на строку.

Мин. разрешение     300 300 100  100 100 150 150 150
Распознавал при     300 600 100  300 600 150 300 600
Ошибок              1   2   5500 131 339 34  9   21
Строк с ошибками    1   1   44   38  41  9   2   4
Неразборчивых строк 0   0   44   0   0   1   0   0

Получается, алгоритм позволяет «вытянуть» текст из плохой картинки, но если этим злоупотреблять, полезут ошибки. Наверное, можно осуществить это в самой программе, чтобы избежать возни с созданием нескольких картинок? Использовать какой-нибудь статистический критерий, чтобы оценивать, где остановиться...

Кстати, время от времени происходят сбои при преобразовании cp1251->UTF-8, отдельные слова преобразуются как cp1252. Почему-то на качественных сканах такой глюк не встречается :)

question4 ★★★★★
(04.12.09 07:43:42 MSK)

Ответ на: комментарий от ls-h 04.12.09 00:20:28 MSK

>>Кстати, cuneiform-linux умеет работать с дореволюционным текстом?

Видимо имеется ввиду старославянский/церковнославянский.

Сомнительно что cuneiform это умеет, коммерческие, наверное, и то не умеют.

Finereader умеет работать и с дореволюционной орфографией, и с церковнославянским языком, но там это оформлено как отдельные от русского языки. То есть можно и для Cuneiform создать такой язык, но в версии 0.7.0 «дореволюционного русского» языка не было.

question4 ★★★★★
(04.12.09 07:48:42 MSK)

Ссылка

Ответ на: комментарий от question4 04.12.09 07:43:42 MSK

>Попробовал. Двухуровневую страницу 300 dpi

Огромное спасибо за статистику. Мы как раз обсуждали вопрос добавления функции автоматического увеличения размера маленьких изображений, но не знали по каким критериям определять необходимость увеличения и необходимый конечный размер.

Полученные тобой данные очень помогут! Еще раз, спасибо.

~~gumanoed~~ ★★★
(04.12.09 10:39:00 MSK) автор топика

Ответ на: комментарий от gumanoed 04.12.09 10:39:00 MSK

> Мы как раз обсуждали вопрос добавления функции автоматического увеличения размера маленьких изображений, но не знали по каким критериям определять необходимость увеличения и необходимый конечный размер.

По-моему должны быть какие-то статистические критерии наподобие дисперсии адекватности, «goodness of fit» и т.п. Определённое соотношение числа параметров, степеней свободы, экспериментальных точек. Не знаю точнее.

В моих экспериментах количество ошибок от размера шрифта зависело немонотонно, на каждом тексте было несколько минимумов и выбросов. Лучше всего получалось при высоте строчных букв 10-30 пикселов. Ниже 8 практически не распознаёт. Если символы слишком крупные — начинает бредить, но чётко установить границу я не смог.

question4 ★★★★★
(04.12.09 21:28:46 MSK)

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

← 1 2 →

← Работа с открытыми форматами документов: Часть 2. Средства проекта ODF Toolkit

Open Source

Nouveau DRM скоро будет включён в Lucid →

Похожие темы