LINUX.ORG.RU

Распознавание русской речи в поточном режиме

 , ,


1

4

Есть поток звука (моно или стерео, 44.1khz), иногда в нем бывает речь на русском языке. Концентрация речи - от 3-4 в час до 5 часовых лекций разными голосами. Именно поток, а не записи, потому алгоритм нужен реалтаймовый. Отсюда 2 задачи:

1. определить наличие речи (скипая музыку)

2. по возможности выжать что-то похожее на текст или хотя бы отдельные звуки, т.е. «молоко» как «мольёко» впринципе устроит.

Пытался искать библиотеки, но зачастую нарываюсь только на Voice Activation или системы телефонии.

Как человек, съевший собаку в этой теме, авторитетно заявляю: нет ничего хуже, чем распознавать славянскую речь.

slyjoeh ★★★
()
Ответ на: комментарий от slyjoeh

Ни в коем случае не настаиваю на ответе, но если можно в двух словах - почему проще?

I-Love-Microsoft ★★★★★
()
Ответ на: комментарий от slyjoeh

Уверен? правда интересно. Судя по словам изучающих китайский язык(да и все азиатские родственные) там очень сложное произношение.

LiBer ★★★
()
Ответ на: комментарий от LiBer

Судя по словам изучающих китайский язык(да и все азиатские родственные) там очень сложное произношение.

Да, программы, обученные русскому языку, тоже очень плохо распознают китайскую речь. Программы, обученные китайскому языку, справляются гораздо лучше.

proud_anon ★★★★★
()
Ответ на: комментарий от proud_anon

Мысль понятна, но всё же речь не только и не столько о субъективных ощущениях, а скорее об объективных сложностях, различные иероглифы могут почти не отличаться в звучании и при этом быть очень короткими.

LiBer ★★★
()
Ответ на: комментарий от LiBer

Для человека сложное, комп как-нить справится :)

В китайском грамматика примитивная, порядок слов в предложениях стандартный, так что в этом плане проще

Harald ★★★★★
()
Ответ на: комментарий от Harald

интересно, может на нем и читать можно научиться за приемлемое количество времени? Думаю полезный навык в современном мире.

LiBer ★★★
()
Ответ на: комментарий от LiBer

ну главная проблема где-то около 1000 иероглифов запомнить и в голове держать, чтоб на каждый второй в словарь не лезть :)

Harald ★★★★★
()
Ответ на: комментарий от Harald

хм, ну 1000 это выполнимо, но сначала нужно английский до отличного довести :)

LiBer ★★★
()
Ответ на: комментарий от LiBer

интересно, может на нем и читать можно научиться за приемлемое количество времени?

Технические тексты — не проблема. А вот всё околохудожественное или по чужой тематике — очень они любят писать в стиле: «кашу маслом не испортишь — в KDE добавили новых функций, что облы, озорны и стозевны». Плюс, отсутствие деления на слова — получаем ребус.

monk ★★★★★
()
Ответ на: комментарий от LiBer

Думаю полезный навык в современном мире.

Хочешь работать в подвале по 16 часов в день за миску риса?

anonymous
()
Ответ на: комментарий от anonymous

А как ты собрался речь от слов песни отделять?

feofan ★★★★★
()
Ответ на: комментарий от feofan

Зачем? У тебя есь одна дорожка, уже смиксованная. Ожидая музыку в фоне (предполагаемо где-то -12db, относительно голоса в +0db), голос обычно быстро меняется по амплитуде, можно повесить гейт с этим порогом срабатывания и выставить малые атаку и спад-релиз. Голос выцепит болемене. Ессно нужно тестировать и подбирать значения.

deep-purple ★★★★★
()
Ответ на: комментарий от deep-purple

А если у тебя не будет разницы между голосом и фоном в 12 децибел? А если фоновая музыка вообще будет громче?

feofan ★★★★★
()
Ответ на: комментарий от feofan

На данном этапе — это проблема исходных данных. Вообще можно дальше думать, например — изначально прогнать через фильтры спектра, а уже потом чесать гейтом, всеравно им чесать придется, т.к. тишину можно/нужно пропускать, ибо незачем гонять анализ речи на не корректных данных. Да, то понятно, что фильтры могут и ошибиться, но некоторую часть какашек они все-же отбросят.

Я представляю это примерно так:

source -> normalize -> filters -> normalize -> gate -> analyse
deep-purple ★★★★★
()
Последнее исправление: deep-purple (всего исправлений: 1)
Ответ на: комментарий от deep-purple

В принципе со схемой согласен, но я бы еще добавил активное шумоподавление с использованием, например, трех микрофонов и удалением одинакового сигнала (ака фона).

Схема усложняется, но надежность растет.

feofan ★★★★★
()
Последнее исправление: feofan (всего исправлений: 1)
Ответ на: комментарий от Eddy_Em

Распознаванием речи сейчас только ленивый не занимается. Кроме гугла есть еще M$, Apple, yandex и, например, Nuance.

feofan ★★★★★
()
Ответ на: комментарий от Eddy_Em

Ты сфинкс щупал? Его хвалили, но русской модели не было. Сейчас посмотрел - есть русская модель от 29 марта 2015 года.

feofan ★★★★★
()
Ответ на: комментарий от feofan

трех микрофонов

Да, но у нас их нет изначально в условиях задачи, а есть только одна дорожка. Кстати если их две (стерео), то уже проще — есть на что опереться для твоего варианта.

deep-purple ★★★★★
()
Ответ на: комментарий от anonymous

Как ни печально это признавать, но китайская цивилизация так или иначе впереди планеты всей(тайвань, сингапур, кнр...) у них, конечно, свои проблемы, но чисто количеством они способны генерировать больше полезного контента чем условные «мы».

LiBer ★★★
()
Ответ на: комментарий от deep-purple

Согласен, стерео уже лучше, чем моно.

feofan ★★★★★
()
Ответ на: комментарий от LiBer

Это в какой отрасли народного хозяйства? В рамках моих профессиональных интересов практически весь уникальный контент на англиийском. Еще встречается немецкий, но реже. Другие европейские языки еще реже. Китайский исчезающе редко является источником уникального контента. Но один такой случай был, да. Google translate выручил тогда.

feofan ★★★★★
()
Ответ на: комментарий от anonymous

Huawei has over 140,000 employees, around 46% of whom are engaged in research and development (R&D)
и это только одна компания(тут учитываются не только китайские сотрудники, но даже если только половина китайцы, то всё равно много. А где исследования и разработки, там и полезный контент в паблике, но возможно только на китайском.

LiBer ★★★
()
Ответ на: комментарий от LiBer

Тут уже роботы по улицам разгуливают, люди колонизируют Марс в прямом эфире, а ты про какую-то вороватую компашку на рабском труде.

anonymous
()
Ответ на: комментарий от anonymous

Может это, в один прекрасный день китайцам надоест переводить даташиты на английский, скажут типа, учите нашу мову, всё равно вся электроника у нас производится :)

Harald ★★★★★
()
Ответ на: комментарий от LiBer

It has 21 R&D institutes in countries including China, the United States,[10] Canada,[11] UK,[12] Pakistan, France, Belgium, Germany, Colombia, Sweden, Ireland, India, Russia, and Turkey

Нет никаких сомнений, что все исследователи готовят полезный контент в паблике только на китайском, ведь это очень удобно для глобальной компании, больше половины r&d центров которой находятся вне Китая и 2/3 своей выручки получающей тоже не из поднебесной.

aedeph_ ★★
()
Ответ на: комментарий от aedeph_

ну так это же только верхушка, кроме того китайские компании очень китайские, даже международные. Огромное количество компаний сосредоточено на внутренний рынок и плевать хотели на европейские языки.

LiBer ★★★
()
Ответ на: комментарий от LiBer

Кого волнуют биороботы, они «полезный контент в паблике» уж точно не производят.

Огромное количество шараг сосредоточено на внутренний рынок и плевать хотели на европейские языки.

Починил. Неясно правда, зачем ты привёл в пример Huawei, который как раз наоборот вполне успешно последние 15 лет свою зависимость от китайского рынка уменьшает.

aedeph_ ★★
()
Ответ на: комментарий от Harald

Они уже есть, но дешевый хлам пока выгоднее оборванцами собирать.

anonymous
()
Ответ на: комментарий от aedeph_

да, пример странный, объясняется легко, первая китайская компания, которую вспомнил, оказалась упорно добивающаяся успехов на внешних рынках.
Ну это очень категоричное отношение, советую съездить в Китай, посмотреть, возможно пообщаться, хотя без знания Китайского это будет зачастую не просто.

LiBer ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.