LINUX.ORG.RU

Ситуация с распознаванием речи в Линуксе


0

0

Как бы это не было прискорбно, но, к сожалению, набор текста с распознаванием речи - это до сих пор больная тема в Линуксе. Наверное, не все помнят, что в операционной системе OS/2 от IBM, которая появилась более десяти лет назад, эта функция была уже встроена, и, как оказалось, корпорация Microsoft встроит эту возможность в Windows Vista. Самое грустное в этой истории это то, что ни IBM, ни компания Nuance, которая владеет системой распознавания речи Dragon, не желают переносить свои продукты под Линукс.

>>> Подробности

Re: Ситуация с распознованием речи в Линуксе

В венде оно вообще давно (в XP точно есть, вроде даже встроено) - только никому не нужно ;)

AiLr ★★ ()

Re: Ситуация с распознованием речи в Линуксе

А нужно ли оно вообще, распознование речи? С таким низким КПД то... руками всяко и быстрее, и удобнее получается...

Ramen ★★★★ ()

Re: Ситуация с распознованием речи в Линуксе

>В венде оно вообще давно (в XP точно есть, вроде даже встроено) - только никому не нужно ;)

Врешь косой, в винде есть только синтез, а с распознованием такая же херня, что и в линуксе, конечно когда-то во времена Win95 и PII-350 был Dragon Dictate... но толку от него было не очень много.

anonymous ()

Re: Ситуация с распознаванием речи в Линуксе

На это распознавание положили уже давно, лишь отдельные конторы пытаются пеариться всякими "аппаратными ускорительями распознавания" и всем в этом роде. А ответ прост - хорошо вышколенная секретарша заменяет могучий кластер упичканный подобным софтом.

Gharik ()

Re: Ситуация с распознованием речи в Линуксе

Это не то. Сие умеет, насколько помню, только голосовое управление (и то отвратительно). Конвертить же речь в текст оно не может.

Да и вообще, с распознованием русской речи ситуация одинакова что в линухе, что в венде, что в досе, да хоть что в менует-оси :)

Ramen ★★★★ ()

Re: Ситуация с распознованием речи в Линуксе

В венде есть Speech SDK, такой ужоснах, что ни приведи Аллах тебе его поставить. Он еще какой-то дополнительный голос в венду инсталлирует, напоминает "отрыжка из колонок в исполнении женщин и роботов".

Gharik ()

Re: Ситуация с распознаванием речи в Линуксе

> как оказалось, корпорация Microsoft встроит эту возможность в Windows Vista

Обычно слова "как оказалось" употребляют по отношению к уже _прошедшим_ фактам. Мекрасовд в своём духе :)

pv4 ★★ ()

Re: Ситуация с распознованием речи в Линуксе

> А нужно ли оно вообще, распознование речи? С таким низким КПД то... руками всяко и быстрее, и удобнее получается...

Ещё под виндой был когда пробовал эту фичу - мышкой быстрее, однозначно :)

los_nikos ★★★★★ ()

Re: Ситуация с распознованием речи в Линуксе

А вот, что удивительно, на смартфоне оно работает замечательно. Не буквальное распознавание, конечно, а голосовые метки. Хоть на номер телефона, хоть на ярлык программы.

Весьма удобно запускать часто используемые утилиты, чем добираться до них в несколько кликов.

Не отказался бы от такой фигни на десктопе.

KRoN73 ★★★★★ ()

Re: Ситуация с распознованием речи в Линуксе

Распозновалка нужна. Например для управления жпс из машины (руки типа заняты)

А говорилка в линуксе (русская) есть?
Я хочу не тратя время прослушивать почту, новости прямо в машине, в пробках.
Пропарсить страничку не проблема. Надо нормалную читалку.

Anode

anonymous ()

Re: Ситуация с распознаванием речи в Линуксе

> корпорация Microsoft встроит эту возможность в Windows Vista

Хе-хе. Ну мс никогда ничего толком нового сделать не могла. Обычно только стыренные вещи у них получаются хорошо.

Но вот ходят слухи, что новые iPod'ы будут с голосовым интерфейсом. Интересно будет посмотреть, смогут ли в Apple довести это до юзабельного состояния.

Cris ()

Re: Ситуация с распознаванием речи в Линуксе

Вот в Mac OS X 10.4 Tiger у меня на MacBook Pro распознавание работает очень неплохо! Хотя фун-ия, чесно говоря мало востребованная.

dukenukem ()

Re: Ситуация с распознаванием речи в Линуксе

С распознаванием речи в Линуксе плохо.

Говорят много, толку мало, еще меньше понимаю о чем говорят.

Бяда...

anonymous ()

Re: Ситуация с распознованием речи в Линуксе

У телефонов упрощенная ситуация - трубка фиксирована (и близко) к источнику звука. Стоит чуть изменить и начинаются обнимки с монитором или микрофоном.

anonymous ()

Re: Ситуация с распознаванием речи в Линуксе

AFAIK IBM выпускала Voice SDK под Linux, даже новость на LOR проскакивала, не знаю только для распознавания или произношения он.

saper ★★★★★ ()

Re: Ситуация с распознованием речи в Линуксе

>Почему на сматрфоне, на дешевой и древней Nokia-3410 распознавание голосовых меток тоже работает на ура.

У меня на 6310 - тоже. На смартфоне прикол в запуске программ :) "ЧИТАЛКА" - и у тебя книжка открыта. "МУЗЫКА" - запустился плеер :)

KRoN73 ★★★★★ ()

Re: Ситуация с распознаванием речи в Линуксе

Это не проблема Linux, это вообще проблема. Полноценно это еще не сделано не в одной ОС.

anonymous ()

Re: Ситуация с распознаванием речи в Линуксе

Была такая байка: в одной конторе внедрили софт для управления голосовыми командами. И вот сидит в одной комнате ч-к 10, вдруг вбегает некий крендель громким и чётким голосом объявляет - "Выключить компьютер", все 10 компов отрубаются. Немая сцена.

достоверность еснно под сомнением, но очевидно что команды для управления компом - не юзабельны. Другое дело для какого-нибудь skype или google talk - распознавание речи самое то, допустим делаешь ты звонок по IP телефонии - а оно тебе на экран контекстный банер выводит ...

Кстати есть такая тема, что американцы ещё в период холодной войны, на территории Германие построили базу на которой перехватывали (и перехватывают) все разговоры, как через радио эфир, так и через кабели. И мол специальным фильтром это проходят и отбирают информацию которую используют в комерческих целях. И немцы их типа "попросили", мол холодная война закончилась. Но всё спустили на тормозах, за обещание делиться. Вроде по дискавери это видел.

vyv ★★ ()

Re: Ситуация с распознаванием речи в Линуксе

мне показывали ibm'овский коммерческий продукт, дык там было всё лучше (гораздо лучше чем показано на ролике). Повторять иногда приходилось, но в целом - получалось управлять программой голосом.

Вроде у AT&T тоже были библиотеки.

Я так понимаю - эту задачу можно решить так (поправьте - кто знает): 1) сделать FT, получив спектр; 2) найти соответствующий известный спектр в базе (общие для любых произносящих спектры). Эта задача классификации - может быть решена простой нейро-сетью; 3) для каждого захардкоженного спектра - известен набор фонем и постоить цепочку символов, которая пока - абракадабра (может означать слово а может и фразу); 3) взяв как можно больший контекст (но где слова явно разделены) - найти ему соответствующее слово или фразу из словаря (задача классификации может быть решена и нейро-сетью). Сложность здесь - могут встретиться незнакомые слова которые отсутствуют в базе; Для фиксированной базы - всё проще.

Или всё гораздо сложнее?

Anode

anonymous ()

Re: Ситуация с распознаванием речи в Линуксе

Ну в целом да, за исключением мелких деталей. Но сказать-то легко, а сделать гораздо сложнее. Одно из основных препятствий - соответствия FT и фонем в принципе быть не может, должны использоваться другие характеристики. Разбивать задачу на подзадачи с одной стороны сложнее а с другой проще. Например, при проверке слова по словарю иногда нужно подправлять распознанные фонемы. И, наконец, отсутствуют базы для создания сетей :) Вобщем, работы хоть куда.

welkam ★★ ()

Re: Ситуация с распознованием речи в Линуксе

смотрел как-то давно Philips'овскую рапознавалку, что должна была идти со специальным микрофоном. Диктовку набирала очень недурственно (особенно английский) и к тому же могла еще обучаться. Но тогда компьютеры были не те:) она хранила запомненное в каком-то музыкальном формате вроде mp3 и при обработке сказнного загружала CPU К6-2 % этак на 60-90%

Syncro ★★★★★ ()

Re: Ситуация с распознаванием речи в Линуксе

>Одно из основных препятствий - соответствия FT и фонем в принципе быть не может, должны использоваться другие характеристики

А почему нельзя создать соответствие вручную?
Наговорить все сочетания слогов (немного, порядка квадрата алфавита, ну даже - если и больше не страшно) например 10 разными представителями чел. рода. Взять спектр. Взять самые главные особенности у каждой группы. Потом - разность между группами (для их классификации). То-есть любой будущий новый спектр будет всегда относиться к одной из групп (samples). Если получаеи ошибку больше допустимой - наш 'training set' был плохим.
Можно и без нейросетей даже.

anonymous ()

Re: Ситуация с распознаванием речи в Линуксе

ну главная проблема - это отличить site от sight например(анализ структуры предложения/контекста ?), все отстальное уже давно придумано и работает. Вот еслибы все говорили на языке вроде эсперанто ..

Syncro ★★★★★ ()

Re: Ситуация с распознаванием речи в Линуксе

мдя, так как HTK не свободна - HMM (hidden markov model algorithms) надо видимо имплементировать по-хорошему... Да, вы правы - хешами кажется не обойтись :(

anonymous ()

Re: Ситуация с распознаванием речи в Линуксе

К сведению - скоро выйдет и уже доступна для скачивания версия Festival 1.96 с ehmm - переписанным HTK под лицензией Fesitval (BSD).

Кстати, раз уж был вопрос про компиляторы, для сборки gcc 4.x нужно брать именно 1.96

welkam ★★ ()

Re: Ситуация с распознаванием речи в Линуксе

кстфти ашибак можут боть мого а всиравно изза реданданси чевелоковского зыяка мы понимать смыслу всеравно типа бум :)

Я к тому что если только-что выучивший английский индус или русский (или ребёнок) напишет sight вместо site - то в контексте - семантика до слушателя донесётся правильная. И вообще у 2 разных людей я подозреваю и восприятие фразы будет более разным чем разница между site and sight:) (типа один будет вообще о другом думать и прослушает 25% токенов).
Такие коллизии ведь редки (меньше того что мы пропускаем необработанным - я имею в виду токены).
А классификация всей статьи (то что ты усвоил после лекции - это уже совсем другое).

Или это - бред? :)

anonymous ()

Re: Ситуация с распознаванием речи в Линуксе

то-есть задача построения классификатора - это уже другое. Можно писать все а-ля-эсперанто (только site итд) а правку орфографии оставить читателю. Но если текст будет воспроизводиться читалкой - то вообще никаких проблем! (ошибок никто не заметит)

anonymous ()

Re: Ситуация с распознованием речи в Линуксе

Да, как-то оно на смартфоне не очень-то удобно. Держать в руках девайс и говорить ему, что делать, это как-то по даунски. По крайней мере, я настроил, побаловался и забросил эту фичу на своём смарте. Вот на компе, таки да. Орать на комп из другой комнаты "Заткнись урод, мне тут звонят!... Да не, это не вам, это я компу". Прям фантастический роман писать можно ;)

mutronix ★★★★ ()

Re: Ситуация с распознованием речи в Линуксе

А как следующая ситуация: Вы в пробке. Надо посмотреть какой путь наименее загружен. Или выяснить - как доехать до улицы такой-то.
Грамматика может быть очень простой. Вначале команда, а потом - аргументы ;)
пример диалога за рулём
> computer tracker
tracker responds
> howto drive from Маркса, улица, to Энгельса, проспект
...
left, right, right, on light-left, 500 метров.

мало того - такие вещи уже делаются :)

anonymous ()

Re: Ситуация с распознаванием речи в Линуксе

да, работы много [попробовав lynx -dump http://linux.org.ru | html2text | festival --tts]
:)))

(Есть-ли более умные аналоги html2text на базе мозиллы или какого-нибудь современного движка, чтобы видимый текст не рендерить, а пайпить, или надо мозиллу ковырять?)

anonymous ()

Re: Ситуация с распознованием речи в Линуксе

> мало того - такие вещи уже делаются :)

Фигня это полная. Пока машины не востанут против людей, всё это жалкое зрелише, а не прогресс.

mutronix ★★★★ ()

Re: Ситуация с распознаванием речи в Линуксе

На сколько мне рассказывали люди FT плохо подходит для распознавания слов. Как по спектру речи людей определяют, даже если они голос меняют до неузнаваемости? Есть определенные особенности.По моему там делается типа вейвлет преобразований.Не знаю какие функции испольуются в качестве базиса, но говорят спектр этого получается периодический. И практически однозначное по этой функции определение букффф и соотвественно слов.

anonymous ()

Re: Ситуация с распознаванием речи в Линуксе

> в лицензию зангляните и кто там владелец алгоритмов

пока что обсуждение чисто техническое - есть или нет и на этом этапе лицензия дело десятое. впрочем, мне бы было интересно узнать, кто "владельц" алгоритмов на базе скрытых Марковских сетей.

// wbr

klalafuda ★☆☆ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.