LINUX.ORG.RU
ФорумTalks

Проект коллективного собирания звуковых баз.


1

1

Звуковая база - это, грубо говоря, звуковые файлы и поставленные им в соответствие всякие метки. Как это хранится физически - дело десятое, много форматов.

Звуковые базы применяются например в речевых технологиях - когда нужно обучить статистические акустические модели для звука «а», нужно где-то взять звуковые файлы, где эта «а» отмечена в куче разных мест. Всяких технологий обучения и распознавания много, не будем вдаваться. Или в изучении иностранных языков - ты отмечаешь кусок, посылаешь иностранцу, спрашиваешь «что это было», он слушает, подписывает. Или ты подписываешь перевод всех фраз в длинном файле, а потом запускаешь его и читаешь синхронный перевод, если мозгов на синхронный перевод вживую не хватает, как у большинства людей. Или в электронной музыке - базы семплов.

Я в свободное время делаю вот такой звуковой редактор: http://audigger.sourceforge.net/ и мне не хватает обратной связи от возможных заинтересованных лиц и не хватает обсуждения идей разных проектов, которые могут быть построены с участием таких технологий.

Ну например, можно создать сайт, где желающие регистрируются и учавствуют в наполнении коллективных звуковых баз. Все эти дела можно снабжать игровыми элементами, чтобы ездить на человеческой гордыне и чувствах кармодрочерства. Итоговые звуковые базы делаются доступными для скачивания всеми желающими, объявляются достоянием общественности. Кроме этого, никто не мешает использовать предлагаемое открытое ПО для создания закрытых баз и барыжить эти базы как плод своего труда.

Если кто-то хочет потрепаться на эту тему, пишите в ужасный проприетарный скайп: volfgangmone. Нахожусь в СПб, поэтому если кто-то может меня познакомить с каким-нибудь профессором ИТМО, которому это интересно, то я с ним с радостью пообщаюсь в реале.

Ответ на: комментарий от AP

База-то записана, но festival по-русски говорит так, как будто меня ненавидит...

shimon ★★★★★ ()
Ответ на: комментарий от kiverattes

:) Понятно. OK, на досуге соберу. А там есть возможность импортнуть разметку, к примеру, из субтитров или csv/tsv каких-нибудь? Жрёт только аудиофайлы? Сама программа может дёрнуть звук из видео, или предварительно чем-то другим конвертнуть?
А с пакетами, наверное, лучше всего будет осилить OBS, там и дебы, и рпмки под разные системы можно собирать.

massimus ★★★ ()
Ответ на: комментарий от massimus

Импортировать разметку нельзя, но вот затем и создавался этот топик, чтобы пришёл человек и сказал, какой функционал ему интересен. Импорт из .CUE хотел сделать и из файлов субтитров, но отложил на потом.

Жрёт только .wav, .flac аудиофайлы и ещё десяток всяких малопопулярных аудио-форматов - используется библиотека libsndfile - что она умеет, то и открывается. Раньше был прикручен mpg123, и открывались mp3 файлы, потом был архитектурная перестройка и mpg123 была выпилена, чтобы прикрутить её более правильно (или libmad вместо неё) - чтобы сначала файл целиком декодировался в wav, складывался в кеш-каталог, а потом уже мы бегали по wav. Динамически бегать по mp3 - сильно грустное занятие оказалось. Так что, пока основной формат - wav, ибо очень быстрый seek. Ещё имеются какие-то глюки с пробелами и кириллицей - всё руки не доходят разобраться. Короче, Назовите файл /home/user/snd/1.wav и он точно откроется )

Посмотрю на OBS.

kiverattes ★☆ ()
Ответ на: комментарий от kiverattes

Судя по списку зависимостей, со сборкой проблем быть не должно :) Сейчас с работой немножко раскидаюсь и погоняю-потестирую, жди шквал фичреквестов :)

massimus ★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.