LINUX.ORG.RU

Программа распознавания речи


0

0

"К сожалению, не существует программы для распознавания речи под Linux, что является большим пробелом. В попытке закрыть эту брешь, мы выпустили Sphinx-4, современную, реченезависимую(буквально "независимую от диктора"), завершенную систему распознования речи, полностью написаную на Java. Она была написана исследователями и инженерами Sun, CMU, MERL, HP, MIT and UCSC. Вопреки (или благодаря) тому, что она написана на Java, Sphinx-4 работает также хорошо, как подобные системы, написаные на С."
release notes: http://blogs.sun.com/roller/page/plam...
performance data: http://cmusphinx.sourceforge.net/sphi...
PS. Прошу прощения за столь вольный перевод

>>> Подробности

★★

Проверено: Demetrio ()

По-моему когда-то давно, еще в KDE-1, я видел запускалку различных команд по голосу.

anonymous
()

>работает также хорошо, как подобные системы, написаные на С

... а ресурсов кушает в 100 раз больше что тоже замечательно

anonymous
()
Ответ на: комментарий от anonymous

> ... а ресурсов кушает в 100 раз больше что тоже замечательно

ресурсы - это фигня. главное, что люди алгоритмы разработали и реализовали работающий макет. а кому надо, те и в С перепишут и в VHDL, если понадобится

anonymous
()

Просто реклама. Подобные программы существуют и разного качества и калибра. Старая IBM - одна из лучших (хотя и не развивается), потом действительно в кедах что то делали давно-давно (не знаю как сейчас потому что не юзаю кеды). И консольные проги - названия не помню... Так что не звиздите господа. Скорее всего и остальное - просто брехня...

anonymous
()
Ответ на: комментарий от anonymous

Re:Программа распознавания речи

Неуловимый Джо на JAVE.

anonymous
()
Ответ на: комментарий от anonymous

>работает также хорошо, как подобные системы, написаные на С

Также хорошо, не значит хорошо :)

Dmt
()
Ответ на: комментарий от anonymous

> Compuvisor и Sphinx - это одно и то же?

на сайте компьювизора есть маленькая презентация - на ней видно что компьювизор это набор программ 1) распознования речи 2) синтеза голоса 3) скрипты по обработке запросов и вытаскивании нужной информации 4) интерактивные демоны . Сфинкс 4 используется как основной движок по распознованию речи. Всё это требует добрых ресурсов - ЦПУ не ниже Атлон 2000, память 512 - под кде или гнома желательно 700.
скоро допишу возможность работы с календарём и тогда выложу все необходимые библиотеки и файлы для установки всей системы - то есть я выложу скомпилированного сфинкса то же.

сейчас виртуальный агент умеет уже общаться боле-менее сносно, причём по желанию можно выбрать как немецкий так и английский язык общения. умеет он пока немного, но после "стабильно работающего" планировщика-календаря думаю популярность программы сильно возрастёт. я рассчитываю на такие диалоги:
-"Джек, у меня на завтра во сколько встреча там то и там то ?"
-"В 12.30 у вас встреча с тем то и тем то"
-"Отмени её"
.....
то что агент умеет сейчас = пример диалога можно послушать на сайте компьювизара,
там лежит ваф 600 кб

vm ★★
()
Ответ на: комментарий от vm

> -"Джек, у меня на завтра во сколько встреча там то и там то ?" > -"В 12.30 у вас встреча с тем то и тем то" > -"Отмени её" > .....

По-русски?

anonymous
()
Ответ на: комментарий от anonymous

>По-русски?

Ага. Только в переводе на английский, или неметский.

ЗЫ. Тормоз, да? :)

vada ★★★★★
()
Ответ на: комментарий от vm

2 vm:

> cкоро допишу возможность работы с календарём и тогда выложу все необходимые библиотеки и файлы для установки всей системы - то есть я выложу скомпилированного сфинкса то же.

...

> то что агент умеет сейчас = пример диалога можно послушать на сайте компьювизара, там лежит ваф 600 кб

впечатляет. супер!

пишется всё только на java или есть API, к которому есть возможность "подцепиться" чем-нибудь ещё?

этой программе требуется предварительное обучение, настройка на голос и т.п.?

по Вашим оценкам насколько сложно реализовать поддержку русского языка?

anonymous
()
Ответ на: комментарий от vm

>после "стабильно работающего" планировщика-календаря думаю популярность программы сильно возрастёт

Вот если она текст вместо ральцев набирать будет, тогда ТОЧНО успех обеспечен. Есть и профессиональные писатели, а есть и инвалиды. Им очень надо. Да хоть письмо корешу продиктовать.

И еще в догонку к русскому языку.
Текст набирать умеет?
Произносить текст из файла, я так понял, умеет. Форматы файлов?
Давно мечтаю, ехать в машине, и чтоб мне нотебяка балаболила текст. А то читать просто некогда, а на дорогу времени тратится 3-4 часа в день.

Вообще, великое дело делаете ребята! Уважаю!

ЗЫ. Помню, на полуоси от ИБМ такая штука была. Даже мой английский понимала.

vada ★★★★★
()

Насколько я помню, были программы на основе движка IBM под названием viavoice. И сам viavoice существовал под linux и даже выкладывался в rpm. Правда сейчас почему-то убрали.

jackill ★★★★★
()
Ответ на: комментарий от vada

>Давно мечтаю, ехать в машине, и чтоб мне нотебяка балаболила текст. А >то читать просто некогда, а на дорогу времени тратится 3-4 часа в день.

А нах так все сложно?

Продаются диски с записанными лит. произведениями, там и читают и

песняки поют.

"Муха-цыкотуха" например.

Sun-ch
()
Ответ на: комментарий от Sun-ch

2 all:
прежде чем вопросы задавать, внимательно посмотрите веб-презентацию
на сайте http://compuvisor.net, там же аудио файл.

1) русский язык не поддерживается и если будет поддерживаться то это произойдёт если этим кто нибудь займётся. (сейчас распознование речи ведётся только с английского)

2) синтез русской речи возможен, но к сожалению вызывают сложности тот факт что в сети мало русских сайтов а следоват. и "вытаскивать" необходимую информацию в основном приходится с сайтов англоязычных (хотя можно переводить). более того, есть синтез речи и многих других языков --- вообще система в целом не зависит от определённых синтезаторов или распознователей. я попытался собрать только чистые GNU или с похожими лицензиями программы

3) система - не для диктанта. пока(!) распознаются только "конкретные" фразы.

4) система не мешает в работе - то есть система начинает "разговор" с юзером только после определённой фразы - у меня это "Jack, can you help me ?", а значит можете разговаривать или слушать музыку без страха что система начнёт вмешиваться в разговор людей

5) в машине можете ехать и слушать новости, попросить погоду сказать или торговать не eBay;
в общем в идеале можно всё то, что можно в интернете с помощью скриптов (а можно ой как много)

6) учить систему НЕ НАДО. распознаётся любой голос, мало-мальски правильный английский выговор.

7) имеется возможность подключить специальную программу, которая "читает" поток с веб-камеры и даёт информацию агенту о том, что "хозяин" в поле зрения (смотрите презентацию на сайте). сейчас я немного заморозил её развитие но непременно продолжу(или "продолжим "после того как проект положу на sourceforge.



8) Самое главное --- цель проекта:
Создание "Rational Intellectual Agent" - сия тварь переводится как интеллектуальный агент. Следовательно, цели, которые должна обеспечивать система являются:
а)выполнение приказов, куда входит выдача нужной информации по запросу,
б)Забота о "Хозяине", куда входит "слежение" за нужной информацией и при соблюдении некоторых условий, совершение сделки (например выгодная покупка товара на интернет аукционе, акции, книги, заказ билетов)

в общем кому интересно, поищите Agent Road Map в гугле, там хорошие примеры того что должен уметь делать агент



vm ★★
()
Ответ на: комментарий от vm

Не могу добиться записи звука. Читал Troubleshooting, но ничего не помогло. Убил aRts, всё равно, ноль на массу. Интересно было попробовать, но, видать, сегодня - не судьба

fAX ★★
()
Ответ на: комментарий от KirG0FF

Интересно, что легче по ресурсам - Qt или Java ?

Я склоняюсь к первому варианту. Тем более, что для меня Qt проще в освоении и использовании :) Однако в политике лицензирования под Win она несомненно проигрывает.

PS. Я знаю, чем они отличаются, но всё-таки написать исходник, который без переделывания будет компилиться везде не составляет особого труда как в одном продукте, так и в другом.

X
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.