LINUX.ORG.RU

Какой библиотекой можно вычленить речь из произвольного звука?

 ,


0

2

Пытаюсь найти фрагменты речи в звуковом потоке, нужно хотя бы определить начало и конец фрагментов речи, если она вообще есть, равно как и что-то похожее на нее вроде гармоник. Вот такая картинка: http://rghost.net/8wwLS8FXn/image.png - тут речь, музыка и шумовые эффекты. На третьей дорожке чистая речь, на 1-2й она же, но с сильно усиленными низами и обрезанными верхами. Если смотреть визуально, то можно заметить только общие пиковые интервалы с третьей дорожкой, больше ничего общего не видно. Может быть есть какие-то библиотеки или методики для вычленения именно речи? Или хотя бы искать похожие звуки, если речь уже где-то найдена.

Сам звуковой файл положила тут: http://rghost.net/private/8NX5kmmLN/cd602d904d8b15b993b002632e98fe77

Я только мимокрокодил, но возможно это решали авторы библиотек распознавания речи типа sphinx. Может даже прямо ей и можно.

t184256 ★★★★★ ()

Попробовала VAD из Speex, почему-то через апи оно не работает, взяла данные напрямую. В принципе работает, но часть речи не детектит, детектит совсем не речь.

marina8 ()

мимокрокодил-2: «караоке» фильтр наоборот

anTaRes ★★★★ ()

Фильтрами обрежь лишние частоты. Низы, верхи особенно.

Hertz ★★★★★ ()
Ответ на: комментарий от anTaRes

Ну если только... два канала и речь всегда посерединке, а если моно?

И кроме того, оно хочет чтоб еще и фильтрованную речь можно было сдетектить. Этж целая эпопея, для начала привести к плоской(?) АЧХ, затем искать «отпечатки» шипящих звуков(4-6кгц?) и/или искать АЧ-«раскаты» гласных.

Может в job?

deep-purple ★★★★★ ()
Ответ на: комментарий от anTaRes

Можно пример «караоке»-фильтра, желательно с исходниками?

marina8 ()
Ответ на: комментарий от Hertz

Если обрезать лишнее, то явный шум или музыка будут не отличимы от речи. Можно искуственно все зарезать до 4х килогерц, а дальше что? Наоборот, имея нехарактерные для речи признаки, можно сказать «нет».

marina8 ()
Ответ на: комментарий от deep-purple

Каналов может быть разное количество, может быть моно, а может и 10. Я наверное неправильно поняла, но имелась в виду «центрированная» речь, которую удаляют противофазой?

Мне в общем-то нужен список диапазонов, где есть что-то похожее на речь. Шипящие сложно отличить от удара барабанов, равно как гласные очень похожи на всякие дудочки.

marina8 ()
Ответ на: комментарий от marina8

Вчитайся. Я писал про раскаты, т.е. характерные частотные и амплитудные спады, ударения на гласных, где опорой будут шипящие.

deep-purple ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.