LINUX.ORG.RU

История изменений

Исправление Sadler, (текущая версия) :

Есть определённые наработки, но лично я в этом пока не преуспел. У меня успешно получалось восстанавливать ВЧ по известной модели голоса, даже как-то оно переносило особенности певческого голоса одного исполнителя на другого, но всё это пока недостаточно высокого качества для продакшена. Сами нейросетки могут работать во временной и частотной областях. Если во временной, проще всего взять рекуррентную сеть, ту же LSTM, и загнать ей сырой файлик. Некоторые так генерили случайные речеподобные звуки. Архитектуру можете подглядеть в WaveNet. Учится оно долго, но здесь ещё есть простор для творчества.

Если работаем в частотной области, преобразуем наш звук тем же STFT, кормим сетку либо блоками с перекрытием, либо тоже рекуррентно, но здесь уже можно юзать свёрточные сети, так что блоками лично мне интереснее. Главное после обработки не забыть восстановить фазу с минимумом артефактов, иначе вся работа сети окажется бесполезной.

Ну, и следует рассчитывать свои силы: высокие частоты генерировать значительно затратнее, нежели низкие, так что по возможности следует снижать частоту дискретизации до минимально допустимой.

Пока забросил это дело, занимаюсь графикой.

Исходная версия Sadler, :

Есть определённые наработки, но лично я в этом пока не преуспел. У меня успешно получалось восстанавливать ВЧ по известной модели голоса, даже как-то оно переносило особенности певческого голоса одного исполнителя на другого, но всё это пока недостаточно высокого качества для продакшена. Сами нейросетки могут работать во временной и частотной областях. Если во временной, проще всего взять рекуррентную сеть, ту же LSTM, и загнать ей сырой файлик. Некоторые так генерили случайные речеподобные звуки. Архитектуру можете подглядеть в WaveNet. Учится оно долго, но здесь ещё есть простор для творчества.

Если работаем в частотной области, преобразуем наш звук тем же STFT, кормим сетку либо блоками с перекрытием, либо тоже рекуррентно, но здесь уже можно юзать свёрточные сети, так что блоками лично мне интереснее. Главное после обработки не забыть восстановить фазу с минимумом артефактов, иначе вся работа сети окажется бесполезной.

Ну, и следует рассчитывать свои силы: высокие частоты генерировать значительно затратнее, нежели низкие, так что по возможности следует снижать частоту дискретизации до минимально допустимой.