синхронизация звука с разных каналов

0

1

Привет, ЛОР.

Есть несколько аудиоканалов (микрофоны), нужно отметить на них один и тот же звук с учётом того, что расстояние от источника звука до микрофонов могло быть различным, т.е. разными будут частота и время. Как это сделать?

Меня интересует теоретическая сторона вопроса: какие алгоритмы для этого применяются и в какую сторону нужно копать.

Ну и для общего развития, что вообще почитать о компьютерном анализе и обработке звука?

Спасибо.

Ссылка

←	Регистрация на forum.videolan.org

Что у нас есть для создания софта с кучей панелек?

→

т.е. разными будут частота и время.

А частота чего это вдруг изменится?

Waterlaz ★★★★★
(17.10.16 04:27:48 MSK)

Ответ на: комментарий от Waterlaz 17.10.16 04:27:48 MSK

А частота чего это вдруг изменится?

Потому что звуковые волны имеют свойство затухать, например, и высокочастотный звук глохнет быстрее низкочастотного.

https://en.wikipedia.org/wiki/Acoustic_attenuation

Алсо высокочастотные звуки дают больше эхо.

~~hateyoufeel~~ ★★★★★
(17.10.16 04:34:44 MSK) автор топика
Последнее исправление: hateyoufeel 17.10.16 04:38:12 MSK (всего исправлений: 2)

Частоты будут теже, только амплитуда у них будет немного другой. Эхо - это смещение отсчетов во времени и в общем случае с ним никак не побороться, если у тебя нету чистого сигнала.

Самый простой и вобщем-то подходящий способ - сравнивать кривульки звука и искать разницу (квадратичную ошибку). Где ошибка меньше - ну вот где-то там оно и будет. Способ работает лучше чем можно подумать, да и единственный, позволяющий выстраивать задержку с максимальной точностью, так как не использует промежуточных окон.

Способ сложнее, который я все собирался сделать в своем редакторе, состоит в том, что мы считаем FFT от некоторого окошка в эталонном сигнале и считаем много-много окошек в соседнем, пытаемся сравнивать. В основном нас интересуют частоты до 4 килогерц, дальше уже неинтересно, да и микрофоны могут быть сильно разные и резать какие-то частоты, таким образом чем больше сравниваем - тем больше ошибок. Точность не очень большая, в конце лучше дошкурить первым вариантом.

Шазам работает аналогично второму варианту, лишь только с той разницей, что сравнивает не весь спектр, а делит сигнал на квадранты и выискивает в каждой «октаве» свои пики. Т.е. пик у нас должен быть на примерно одной частоте и даже в соседних временных окнах. И вот потом мы сравниваем эти пики. Разные фильтрации по вкусу

Самый крутой способ - это сравнивать MFCC, вроде бы несложно, но я не осилил. Если кто-то даст вменяемый способ получения/сравнения оного, я был бы рад.

ruzisufaka ★
(17.10.16 05:01:26 MSK)

Для синхронизации аудио потоков есть:

https://en.wikipedia.org/wiki/Audio_Video_Bridging

https://habrahabr.ru/company/muk/blog/174153/

alx777 ★★★
(17.10.16 12:48:28 MSK)

Ссылка

Ответ на: комментарий от ruzisufaka 17.10.16 05:01:26 MSK

Просто кривые сравнивать - не круто, потому как возможны несколько источников с похожими спектрами. Второй вариант (fft с пересекающимися окнами) выглядит чуть более убедительно.

Шазам в моём случае слишком релевантен, я хочу с помощью микрофонов отслеживать местоположение объектов в пределах сцены.

То есть, грубо говоря, на входе будет несколько аудиопотоков, на выходе - координаты объекта и звук, который он издал в пределах определённого временного интервала.

P.S. А по теории что-нибудь посоветовать можешь?

~~hateyoufeel~~ ★★★★★
(17.10.16 20:58:45 MSK) автор топика
Последнее исправление: hateyoufeel 17.10.16 20:59:18 MSK (всего исправлений: 1)

читал на хабре некий метод, где сопоставление звуков осуществлялось нахождением минимума (или максимума?) скалярного произведения записей, представленных в виде n-мерного вектора, где n - количество сэмплов

как-то так

Harald ★★★★★
(17.10.16 21:03:14 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 17.10.16 20:58:45 MSK

погугли «триангуляция» чтоль

anonymous
(17.10.16 21:52:04 MSK)

Ответ на: комментарий от anonymous 17.10.16 21:52:04 MSK

И что именно ты этим хотел сказать?

~~hateyoufeel~~ ★★★★★
(18.10.16 00:50:47 MSK) автор топика

Ссылка

Попробуй просто перемножить. Вот на питоне наглядный прототипчик:

from numpy import *

a = random.rand(1,1000)[0] * 2 - 1
b = a[250:-250]

for i in range(len(a)-len(b)):
    v = sum(abs(b * a[i:i+len(b)])) - len(b)/4
    print(i, int(v**2 / 32) * '#')

a - это 1000 рандомных чисел из диапазона от -1 до 1, b - вырезанный из середины a кусок. v - сумма абсолютных значений перемноженных элементов из b на элементы из a, с постепенным «смещением» b относительно a. int(v**2 / 32) - для большей наглядности - такое количество решёток выведется в каждой строке.

Примерный вывод скрипта.

anonymous
(18.10.16 03:24:56 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 17.10.16 20:58:45 MSK

потому как возможны несколько источников с похожими спектрами

Условно говоря у тебя есть сумма 3+4=7. Ты хочешь имея число 7 узнать какие слагаемые применялись.

хочу с помощью микрофонов отслеживать местоположение объектов в пределах сцены.

Я б на твоём месте записал бы сэмплы всех источников (вангую что их немного) в узлах пространственной сетки (точки на сцене) - это даст спектры источников вместе с эхом/ослаблением и т.д. После чего перебирал бы все возможные суммы спектров, чтобы найти подходящий (с наибольшей корреляцией) под получаемый сигнал.

no-such-file ★★★★★
(18.10.16 08:56:59 MSK)

Ответ на: комментарий от ruzisufaka 17.10.16 05:01:26 MSK

Частоты будут теже

Да ты шо! А как же эффект допплера?

deep-purple ★★★★★
(18.10.16 09:06:47 MSK)

Ответ на: комментарий от deep-purple 18.10.16 09:06:47 MSK

А как же эффект допплера?

А что, ты думаешь что микрофоны или стены будут двигаться?

no-such-file ★★★★★
(18.10.16 09:09:52 MSK)

Ответ на: комментарий от hateyoufeel 17.10.16 20:58:45 MSK

Ну, ффт в целом неплохой вариант, но могут быть сложные спектры и ты не сможешь так просто отличить какому источнику какой спектр принадлежит. Можно по амплитуде с разных направлений. Ты же расставляешь микрофоны в разные стороны от центральной оси. Допустим человек достаточно четко определит направление источника звука даже с двумя ушами-микрофонами. И сзади тоже — ушная раковина направлена больше вперед чем назад и для источника сзади будет predelay и небольшой срез верхних и нижних частот.

deep-purple ★★★★★
(18.10.16 09:14:09 MSK)

Ссылка

Ответ на: комментарий от no-such-file 18.10.16 09:09:52 MSK

Источник звука может двигаться. Ты стоишь на тротуаре на месте, дома и стены тоже на месте, а мимо тебя едет скорая с сиреной. Уловил?

deep-purple ★★★★★
(18.10.16 09:14:53 MSK)

Ответ на: комментарий от hateyoufeel 17.10.16 04:34:44 MSK

высокочастотный звук глохнет быстрее низкочастотного

На самом деле, тебе лучше фильтровать и низкие и высокие частоты. Т.к. низкие имеют большую длину волны и т.о. точность позиционирования будет низкая, а высокие, как ты сам заметил, слишком хорошо отражаются/ослабляются и т.п. - будут давать много помех. Мне кажется, что оптимально оставить спектр от 1 до 4кГц.

no-such-file ★★★★★
(18.10.16 09:15:37 MSK)
Последнее исправление: no-such-file 18.10.16 09:19:01 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от deep-purple 18.10.16 09:14:53 MSK

Источник звука может двигаться ... мимо тебя едет скорая с сиреной

я хочу с помощью микрофонов отслеживать местоположение объектов в пределах сцены

По сцене? Прям 100км/ч?

no-such-file ★★★★★
(18.10.16 09:18:40 MSK)

Ответ на: комментарий от no-such-file 18.10.16 09:18:40 MSK

Даже при 1 см/сек есть эффект допплера. Чел утверждал что частотат не изменится. А вот хрена с два. Другое дело такая погрешность в задаче ТС не повлияет. Хотя.. зависит от вермени анализа, оно не мгновенное и источник может оказаться размазанным. Так же как видеокамера не успевает опросить матрицу и объекты плывут меж кадров.

deep-purple ★★★★★
(18.10.16 09:23:06 MSK)

Ответ на: комментарий от hateyoufeel 17.10.16 20:58:45 MSK

При использовании «потребительского» оборудования не помешает учесть, что частота дискретизации и задержка передачи от нескольких аудиоплат может быть разной и плавающей.

Elyas ★★★★★
(18.10.16 09:23:22 MSK)

Ответ на: комментарий от Elyas 18.10.16 09:23:22 MSK

Ты про jitter bug? Для этого существует master clock. Ах, да, потребительское же.

deep-purple ★★★★★
(18.10.16 09:27:48 MSK)

Ссылка

Короче погугли про далби сараунд и про 5.1 7.1 дтс, вот это вот все какраз про пространственное положение объектов. Правда для кинотеатров. Но есть зачто зацепиться.

deep-purple ★★★★★
(18.10.16 09:37:36 MSK)

Ссылка

Ответ на: комментарий от hateyoufeel 17.10.16 20:58:45 MSK

Скорость звука, насколько я помню, порядка 300 метров в секунду. Твоя сцена, ну хорошо если 50 метров. Но я так подозреваю, что ты хочешь отслеживать поточнее. 48000 герц / 300 метров = 160 отсчетов на метр. Тут тебе или придется брать очень маленькие окна по 128 семплов для FFT, что мало, или всеже искать разницу в кривульках.

А купив ИК-прожектор и пару камер ты можешь хоть миллиметры отслеживать.

Литературы не знаю, читал разные разрозненные источники, сам себя специалистом не считаю.

ruzisufaka ★
(18.10.16 10:01:40 MSK)

Ответ на: комментарий от Elyas 18.10.16 09:23:22 MSK

Полностью удваиваю. Вангую, что если микрофоны находятся в одном месте, но воткнуты в разные звуковухи, то уже будет приличная разница.

ruzisufaka ★
(18.10.16 10:02:35 MSK)

Ссылка

Ответ на: комментарий от deep-purple 18.10.16 09:23:06 MSK

Так же как видеокамера не успевает опросить матрицу и объекты плывут меж кадров.

Этот эффект называется Rolling Shutter и есть только на разном говне, а не на годном железе

ruzisufaka ★
(18.10.16 10:10:18 MSK)

Ответ на: комментарий от ruzisufaka 18.10.16 10:10:18 MSK

Я привел емуэтот пример для понимания, а не потому что..

deep-purple ★★★★★
(18.10.16 11:56:52 MSK)

Ссылка

Ответ на: комментарий от no-such-file 18.10.16 08:56:59 MSK

Условно говоря у тебя есть сумма 3+4=7. Ты хочешь имея число 7 узнать какие слагаемые применялись.

С суммой аналогия не совсем корректная, т.к. на разные микрофоны звук с разных источников будет приходить в разном порядке, и, соответственно, сумма будет отличаться.

~~hateyoufeel~~ ★★★★★
(18.10.16 15:38:40 MSK) автор топика

Ссылка

Ответ на: комментарий от Elyas 18.10.16 09:23:22 MSK

При использовании «потребительского» оборудования не помешает учесть, что частота дискретизации и задержка передачи от нескольких аудиоплат может быть разной и плавающей.

Взять одну плату и воткнуть в неё несколько микрофонов - не проблема.

~~hateyoufeel~~ ★★★★★
(18.10.16 15:39:25 MSK) автор топика

Ответ на: комментарий от ruzisufaka 18.10.16 10:01:40 MSK

Но я так подозреваю, что ты хочешь отслеживать поточнее. 48000 герц / 300 метров = 160 отсчетов на метр. Тут тебе или придется брать очень маленькие окна по 128 семплов для FFT, что мало, или всеже искать разницу в кривульках.

Сильная большая точность не нужна. В пределах пары метров будет достаточно для начала.

А купив ИК-прожектор и пару камер ты можешь хоть миллиметры отслеживать.

Могу, но у меня задача отслеживать именно звук, а не сам объект.

~~hateyoufeel~~ ★★★★★
(18.10.16 15:44:08 MSK) автор топика

Ссылка

Ответ на: комментарий от hateyoufeel 18.10.16 15:39:25 MSK

Воткнуть то не проблема, а вот оцифровать более двух может оказаться проблемой.

Elyas ★★★★★
(18.10.16 15:51:52 MSK)

Ответ на: комментарий от Elyas 18.10.16 15:51:52 MSK

Воткнуть то не проблема, а вот оцифровать более двух может оказаться проблемой.

Да нет, есть платы, позволяющие снимать и оцифровывать сигналы с нескольких микрофонов.

~~hateyoufeel~~ ★★★★★
(18.10.16 16:34:20 MSK) автор топика

Ссылка

Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.

←	Регистрация на forum.videolan.org

Development

Что у нас есть для создания софта с кучей панелек?

→

Похожие темы