Какой библиотекой можно вычленить речь из произвольного звука?

0

2

Пытаюсь найти фрагменты речи в звуковом потоке, нужно хотя бы определить начало и конец фрагментов речи, если она вообще есть, равно как и что-то похожее на нее вроде гармоник. Вот такая картинка: http://rghost.net/8wwLS8FXn/image.png - тут речь, музыка и шумовые эффекты. На третьей дорожке чистая речь, на 1-2й она же, но с сильно усиленными низами и обрезанными верхами. Если смотреть визуально, то можно заметить только общие пиковые интервалы с третьей дорожкой, больше ничего общего не видно. Может быть есть какие-то библиотеки или методики для вычленения именно речи? Или хотя бы искать похожие звуки, если речь уже где-то найдена.

Сам звуковой файл положила тут: http://rghost.net/private/8NX5kmmLN/cd602d904d8b15b993b002632e98fe77

Ссылка

← Завершение дочерних процессов

shared_ptr и union →

Я только мимокрокодил, но возможно это решали авторы библиотек распознавания речи типа sphinx. Может даже прямо ей и можно.

t184256 ★★★★★
(12.11.15 16:09:52 MSK)

Ссылка

Попробовала VAD из Speex, почему-то через апи оно не работает, взяла данные напрямую. В принципе работает, но часть речи не детектит, детектит совсем не речь.

marina8
(12.11.15 17:01:06 MSK) автор топика

Ссылка

мимокрокодил-2: «караоке» фильтр наоборот

anTaRes ★★★★
(12.11.15 17:22:51 MSK)

Фильтрами обрежь лишние частоты. Низы, верхи особенно.

Hertz ★★★★★
(12.11.15 18:19:40 MSK)

Ответ на: комментарий от anTaRes 12.11.15 17:22:51 MSK

Ну если только... два канала и речь всегда посерединке, а если моно?

И кроме того, оно хочет чтоб еще и фильтрованную речь можно было сдетектить. Этж целая эпопея, для начала привести к плоской(?) АЧХ, затем искать «отпечатки» шипящих звуков(4-6кгц?) и/или искать АЧ-«раскаты» гласных.

Может в job?

deep-purple ★★★★★
(12.11.15 18:25:05 MSK)

Ответ на: комментарий от anTaRes 12.11.15 17:22:51 MSK

Можно пример «караоке»-фильтра, желательно с исходниками?

marina8
(13.11.15 15:29:39 MSK) автор топика

Ответ на: комментарий от Hertz 12.11.15 18:19:40 MSK

Если обрезать лишнее, то явный шум или музыка будут не отличимы от речи. Можно искуственно все зарезать до 4х килогерц, а дальше что? Наоборот, имея нехарактерные для речи признаки, можно сказать «нет».

marina8
(13.11.15 15:31:41 MSK) автор топика

Ссылка

Ответ на: комментарий от deep-purple 12.11.15 18:25:05 MSK

Каналов может быть разное количество, может быть моно, а может и 10. Я наверное неправильно поняла, но имелась в виду «центрированная» речь, которую удаляют противофазой?

Мне в общем-то нужен список диапазонов, где есть что-то похожее на речь. Шипящие сложно отличить от удара барабанов, равно как гласные очень похожи на всякие дудочки.

marina8
(13.11.15 15:34:51 MSK) автор топика