LINUX.ORG.RU

Синтезатор речи xVA-Synth 2.0.1

 , ,


3

2

xVA-Synth — это программа, занимающаяся синтезом речи на основе данных машинного обучения на файлах озвучки из игр. На данный момент есть полученные данные для синтеза речи для игр Oblivion, Morrowind, Skyrim, Fallout 3, Fallout 4, Fallout New Vegas, Fallout 76, Cyberpunk 2077, Civilization 5, Mass Effect 3, The Witcher 3, HUMANKIND, Overwatch, Dragon Age: Inquisition.

Программа написана на Electron/Javascript и Python. Однако вопрос о возможности запуска xVA-Synth под Linux остаётся открытым.

Изменения по сравнению с версией 2.0:

  • Исправлено редактирование .json загружающее выдачу и иногда не показывающее это.

  • Предотвращено обновление ARPAbet при установке флажков для включения/отключения слов.

  • Добавлено предупреждение для включения массового ARPAbet.

  • Исправлено меню 3D-визуализатора, не завершающее регенерацию.

  • Добавлено обновление интерфейса по Ctrl+R, чтобы избежать перезапуска всего приложения, если это необходимо для выдачи внешнего интерфейса.

  • Добавлено много голосов, созданных с помощью нейросетевой системы Tacotron2. Это убрало ограничения на длину записи голоса. Для других голосов, если озвученный текст был больше определённой длины (5 секунд) или меньше определённой (2 секунды), он искажается. У голосов с Tacotron2 такой проблемы нет.

  • Добавлено много других голосов., например, голоса Геральта, Цири, Мартина Септима, Валерики, Алдуина, Партунакса, Одавинга.

Как это выглядит

Здесь можно скачать голоса для Обливиона

Здесь можно скачать голоса для Скайрима

>>> исходники

xVA-Synth - это языковой движок

С гитхаба:

xVASynth is a machine learning based speech synthesis app

This is an Electron UI wrapped around inference of FastPitch models trained on voice data from video games.

Не уверен, что это корректно называть движком. Обычно движком называют библиотеку, которую можно вызвать из других программ.

Также:

To start, download the latest release (from here: https://github.com/DanRuta/xVA-Synth/releases), double click the xVASynth.exe file, and make sure to click Allow, if Windows asks for permission to run the python server script (this is used internally).

Упоминаний про Linux нет. И судя вот по этому, запуск под линуксом проблематичен. ТС, можешь прокомментировать?

hobbit ★★★★★ ()
Ответ на: комментарий от hobbit

И судя вот по этому, запуск под линуксом проблематичен. ТС, можешь прокомментировать?

Кроссплатформенная python программа не запускается на линуксе. Это рофл.

Кстати, да. Как пропатчить, чтобы запускалось?

Skullnet ★★★ ()
Последнее исправление: Skullnet (всего исправлений: 1)
Ответ на: комментарий от hobbit

Бинарные сборки есть только под винду. В теории можно собрать и под Linux, но там старая версия электрона и инструкций от автора нет, и поддержки от автора тоже нет. Потому что насколько я понял, у автора винда ипод линуксом сборка их исходных кодов не тестировалась.

Обычно движком называют библиотеку, которую можно вызвать из других программ

Это вызывается из другой программы, из электрона. Просто тут сам движок в комплекте с интерфейсом. Если моё описание всё ещё является некорректным, то напиши в ответе, я поправлю.

misteralter ()
Последнее исправление: misteralter (всего исправлений: 2)
Ответ на: комментарий от misteralter

у автора винда ипод линуксом сборка их исходных кодов не тестировалась

Ну вы даете.

Кстати, могли бы попроще сделать загрузку мозгов, потому что дергать каждый из 9000 из nexusmods пресетов неудобно.

Skullnet ★★★ ()
Последнее исправление: Skullnet (всего исправлений: 4)
Ответ на: комментарий от misteralter

Просто тут сам движок в комплекте с интерфейсом. Если моё описание всё ещё является некорректным, то напиши в ответе, я поправлю.

Да проблема не в описании. В описании есть, что править, и по орфографии, и по стилистике, но это не главное.

Слово «движок» обычно предполагает, что вот есть библиотека, есть API, через которую эту библиотеку можно вызывать из своих программ. Вот про API я на гитхабе ничего не увидел. Можно, конечно, заменить «движок» на «программа» и успокоиться, но:

насколько я понял, у автора винда ипод линуксом сборка их исходных кодов не тестировалась.

Да, я и ссылался на issue, в которой этот комментарий от автора был. Так что даже не знаю… Мы всё-таки на linux.org.ru.

hobbit ★★★★★ ()
Ответ на: комментарий от hobbit

Исправлено. Новость здесь создал потому что хочу чтобы про программу узнали. Здесь многие запускают как минимум Скайрим под вайном, а тут даже открытые исходники, и в теории должна поддерживатся сборка под линуксом, потому что электрон поддерживает и линукс тоже.

misteralter ()
Ответ на: комментарий от misteralter

Здесь многие запускают как минимум Скайрим под вайном

Это так. Однако новостей про сам Скайрим при этом не пишут. В форуме обсудить - другое дело.

Подтвердил как мини-новость, может, как раз найдутся энтузиасты.

hobbit ★★★★★ ()
Ответ на: комментарий от Bad_ptr

Нет данных машинного обучения для русских голосов. Если будут данные, то в теории должен озвучивать. Автор собирает данные машинного обучения сугубо для английского языка, потому что он сам англоязычный.

misteralter ()
Последнее исправление: misteralter (всего исправлений: 1)
Ответ на: комментарий от anonymous

А вот и не угадал - была же статья на хабре о силеро, их гх - по моему лучше разве что только тот же яндекс, да и то только за счёт привязки к специально чисто записанному голосу Шитовой.

AKonia ★★ ()
Последнее исправление: AKonia (всего исправлений: 3)

Прикольно, но не совсем понятно зачем это на ЛОРе. Даже с учетом того что оно опенсорсное, модели и сгенерированный ими контент имеют сомнительную лицензию.

Gary ★★★★★ ()
Последнее исправление: Gary (всего исправлений: 1)
Ответ на: комментарий от GP

Java кросс это тоже миф. С 1995го года

Даже на QT легко пишется вендоспецифичная программа. Но это не отменяет кроссплатформенности. Просто у программистов руки кривые.

tiinn ★★★★ ()
Ответ на: комментарий от Gary

Для модмейкеров. Тут же поигрывают в проприоритарщину. Теперь модмейкеры на ЛОРе могут узнать что можно генерировать озвучку для своих модов, а не озвучивать человеком.

misteralter ()
Последнее исправление: misteralter (всего исправлений: 2)

Вот когда научатся делать синтезаторы речи, которым кроме текста можно и интонацию подсовывать… Жаль не доживу, но какой простор был бы для игроделов, мододелов и локализаторов! Динамически генерируемые и динамически озвучиваемые реплики NPC, NPC наконец-то имя главного героя стали бы произносить, переводы в голосе и интонациях оригинального актёра, мододелы смогли бы расширять поведение персонажей, добавляя реплики с сохранением озвучки оригинального актёра и т.п.

Отдельный правда вопрос, каким образом задавать интонацию. Перечислить и занумеровать все возможные интонации – это конечно бред. А вот брать голос из одного звукового файла, интонацию из другого, и мержить – это больше похоже на правду. Т.е. мододел записывает реплики своим голосом, а игра воспроизводит в тех же интонациях, но голосом персонажа. Интересно, нынешние дипфейки так работают, или как?

dimgel ★★★★ ()