Синтезатор речи xVA-Synth 2.0.1

3

2

xVA-Synth — это программа, занимающаяся синтезом речи на основе данных машинного обучения на файлах озвучки из игр. На данный момент есть полученные данные для синтеза речи для игр Oblivion, Morrowind, Skyrim, Fallout 3, Fallout 4, Fallout New Vegas, Fallout 76, Cyberpunk 2077, Civilization 5, Mass Effect 3, The Witcher 3, HUMANKIND, Overwatch, Dragon Age: Inquisition.

Программа написана на Electron/Javascript и Python. Однако вопрос о возможности запуска xVA-Synth под Linux остаётся открытым.

Изменения по сравнению с версией 2.0:

Исправлено редактирование .json загружающее выдачу и иногда не показывающее это.
Предотвращено обновление ARPAbet при установке флажков для включения/отключения слов.
Добавлено предупреждение для включения массового ARPAbet.
Исправлено меню 3D-визуализатора, не завершающее регенерацию.
Добавлено обновление интерфейса по Ctrl+R, чтобы избежать перезапуска всего приложения, если это необходимо для выдачи внешнего интерфейса.
Добавлено много голосов, созданных с помощью нейросетевой системы Tacotron2. Это убрало ограничения на длину записи голоса. Для других голосов, если озвученный текст был больше определённой длины (5 секунд) или меньше определённой (2 секунды), он искажается. У голосов с Tacotron2 такой проблемы нет.
Добавлено много других голосов., например, голоса Геральта, Цири, Мартина Септима, Валерики, Алдуина, Партунакса, Одавинга.

Как это выглядит

Здесь можно скачать голоса для Обливиона

Здесь можно скачать голоса для Скайрима

>>> исходники

Ссылка

← ArmorPaint 0.8

Минцифры объявило тендер на создание комплекса связи для чиновников почти на 500 млн ₽ →

xVA-Synth - это языковой движок

С гитхаба:

xVASynth is a machine learning based speech synthesis app

This is an Electron UI wrapped around inference of FastPitch models trained on voice data from video games.

Не уверен, что это корректно называть движком. Обычно движком называют библиотеку, которую можно вызвать из других программ.

Также:

To start, download the latest release (from here: https://github.com/DanRuta/xVA-Synth/releases), double click the xVASynth.exe file, and make sure to click Allow, if Windows asks for permission to run the python server script (this is used internally).

Упоминаний про Linux нет. И судя вот по этому, запуск под линуксом проблематичен. ТС, можешь прокомментировать?

hobbit ★★★★★
(24.10.21 20:47:47 MSK)

Ответ на: комментарий от hobbit 24.10.21 20:47:47 MSK

И судя вот по этому, запуск под линуксом проблематичен. ТС, можешь прокомментировать?

Кроссплатформенная python программа не запускается на линуксе. Это рофл.

Кстати, да. Как пропатчить, чтобы запускалось?

Skullnet ★★★★★
(24.10.21 21:10:34 MSK)
Последнее исправление: Skullnet 24.10.21 21:11:04 MSK (всего исправлений: 1)

Ответ на: комментарий от hobbit 24.10.21 20:47:47 MSK

Бинарные сборки есть только под винду. В теории можно собрать и под Linux, но там старая версия электрона и инструкций от автора нет, и поддержки от автора тоже нет. Потому что насколько я понял, у автора винда ипод линуксом сборка их исходных кодов не тестировалась.

Обычно движком называют библиотеку, которую можно вызвать из других программ

Это вызывается из другой программы, из электрона. Просто тут сам движок в комплекте с интерфейсом. Если моё описание всё ещё является некорректным, то напиши в ответе, я поправлю.

misteralter
(24.10.21 21:23:38 MSK) автор топика
Последнее исправление: misteralter 24.10.21 21:32:32 MSK (всего исправлений: 2)

Ответ на: комментарий от misteralter 24.10.21 21:23:38 MSK

у автора винда ипод линуксом сборка их исходных кодов не тестировалась

Ну вы даете.

Кстати, могли бы попроще сделать загрузку мозгов, потому что дергать каждый из 9000 из nexusmods пресетов неудобно.

Skullnet ★★★★★
(24.10.21 21:42:08 MSK)
Последнее исправление: Skullnet 24.10.21 22:11:40 MSK (всего исправлений: 4)

Ссылка

Ответ на: комментарий от misteralter 24.10.21 21:23:38 MSK

Просто тут сам движок в комплекте с интерфейсом. Если моё описание всё ещё является некорректным, то напиши в ответе, я поправлю.

Да проблема не в описании. В описании есть, что править, и по орфографии, и по стилистике, но это не главное.

Слово «движок» обычно предполагает, что вот есть библиотека, есть API, через которую эту библиотеку можно вызывать из своих программ. Вот про API я на гитхабе ничего не увидел. Можно, конечно, заменить «движок» на «программа» и успокоиться, но:

насколько я понял, у автора винда ипод линуксом сборка их исходных кодов не тестировалась.

Да, я и ссылался на issue, в которой этот комментарий от автора был. Так что даже не знаю… Мы всё-таки на linux.org.ru.

hobbit ★★★★★
(24.10.21 22:32:35 MSK)

Ответ на: комментарий от hobbit 24.10.21 22:32:35 MSK

Исправлено. Новость здесь создал потому что хочу чтобы про программу узнали. Здесь многие запускают как минимум Скайрим под вайном, а тут даже открытые исходники, и в теории должна поддерживатся сборка под линуксом, потому что электрон поддерживает и линукс тоже.

misteralter
(24.10.21 22:44:30 MSK) автор топика

Ответ на: комментарий от misteralter 24.10.21 22:44:30 MSK

Здесь многие запускают как минимум Скайрим под вайном

Это так. Однако новостей про сам Скайрим при этом не пишут. В форуме обсудить - другое дело.

Подтвердил как мини-новость, может, как раз найдутся энтузиасты.

hobbit ★★★★★
(24.10.21 23:22:44 MSK)

Ответ на: комментарий от hobbit 24.10.21 23:22:44 MSK

найдутся энтузиасты.

Все энтузиасты давно уже на RHVoice (https://github.com/RHVoice/RHVoice). А такие «поделки» энтузиастам чего то не нужны.

anonymous
(24.10.21 23:32:16 MSK)

По-русски умеет говорить?

Bad_ptr ★★★★★
(24.10.21 23:32:22 MSK)

Ответ на: комментарий от anonymous 24.10.21 23:32:16 MSK

RHVoice

говно.

anonymous
(24.10.21 23:36:27 MSK)

Ответ на: комментарий от Bad_ptr 24.10.21 23:32:22 MSK

нормальных русских синтезаторов не существует, только платный у яндекса.

anonymous
(24.10.21 23:38:03 MSK)

Ответ на: комментарий от anonymous 24.10.21 23:36:27 MSK

говно.

Думаешь здесь тебе конфетку впаривают? Держи карман шире, весь навоз не унесёшь!

anonymous
(24.10.21 23:39:03 MSK)

Ответ на: комментарий от Bad_ptr 24.10.21 23:32:22 MSK

Нет данных машинного обучения для русских голосов. Если будут данные, то в теории должен озвучивать. Автор собирает данные машинного обучения сугубо для английского языка, потому что он сам англоязычный.

misteralter
(25.10.21 00:16:28 MSK) автор топика
Последнее исправление: misteralter 25.10.21 00:16:51 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от anonymous 24.10.21 23:39:03 MSK

да, здесь и festival могут посоветовать.

anonymous
(25.10.21 00:24:53 MSK)

Ответ на: комментарий от anonymous 24.10.21 23:36:27 MSK

говно.

нет не говно

anonymous
(25.10.21 04:20:23 MSK)

Ответ на: комментарий от anonymous 25.10.21 00:24:53 MSK

Только что потестировал оба на андроиде - Rhvoice и flite (на основе festival). Rhvoice звучит гораздо чище и приятнее. На flite звук какой то вибрирующий и шумный.

eternal_sorrow ★★★★★
(25.10.21 05:10:09 MSK)

Ссылка

Вот бы кто то на основе сабжа сделал движок TTS для андроида. Я бы много отдал чтобы Кейт из четвёртого фоллача мне подсказывала дорогу.

eternal_sorrow ★★★★★
(25.10.21 05:13:48 MSK)

Ссылка

Ответ на: комментарий от anonymous 24.10.21 23:32:16 MSK

RHVoice

голосам беседкоигр обучено? нет? пшёл нафиг

anonymous
(25.10.21 10:04:31 MSK)

Ссылка

Шуру Каретного добавят когда, то разбудите!

anonymous
(25.10.21 10:41:50 MSK)

Ссылка

Ответ на: комментарий от anonymous 24.10.21 23:38:03 MSK

нормальных русских синтезаторов не существует

У ЦРТ неплохой. Но тоже платный.

captain_cat ★
(25.10.21 11:09:05 MSK)

Ссылка

Ответ на: комментарий от Skullnet 24.10.21 21:10:34 MSK

кросс питон это миф :) либы сделают тебе больно. да что там сторонние, даже стандартная сделает тебе больно, если ты не писатель хеловорлдов

Morin ★★★★★
(25.10.21 11:27:39 MSK)

Ответ на: комментарий от anonymous 24.10.21 23:38:03 MSK

А вот и не угадал - была же статья на хабре о силеро, их гх (github.com) - по моему лучше разве что только тот же яндекс, да и то только за счёт привязки к специально чисто записанному голосу Шитовой.

AKonia ★★★
(25.10.21 13:21:33 MSK)
Последнее исправление: AKonia 25.10.21 13:37:38 MSK (всего исправлений: 3)

Ссылка

Прикольно, но не совсем понятно зачем это на ЛОРе. Даже с учетом того что оно опенсорсное, модели и сгенерированный ими контент имеют сомнительную лицензию.

Gary ★★★★★
(25.10.21 13:58:07 MSK)
Последнее исправление: Gary 25.10.21 13:58:22 MSK (всего исправлений: 1)

Ответ на: комментарий от Morin 25.10.21 11:27:39 MSK

Java кросс это тоже миф. С 1995го года

GP
(25.10.21 14:41:59 MSK)

Ответ на: комментарий от GP 25.10.21 14:41:59 MSK

Java кросс это тоже миф. С 1995го года

Даже на QT легко пишется вендоспецифичная программа. Но это не отменяет кроссплатформенности. Просто у программистов руки кривые.

tiinn ★★★★★
(25.10.21 14:58:54 MSK)

Ссылка

Ответ на: комментарий от Gary 25.10.21 13:58:07 MSK

Для модмейкеров. Тут же поигрывают в проприоритарщину. Теперь модмейкеры на ЛОРе могут узнать что можно генерировать озвучку для своих модов, а не озвучивать человеком.

misteralter
(25.10.21 15:13:52 MSK) автор топика
Последнее исправление: misteralter 25.10.21 15:15:32 MSK (всего исправлений: 2)

Ссылка

Вот когда научатся делать синтезаторы речи, которым кроме текста можно и интонацию подсовывать… Жаль не доживу, но какой простор был бы для игроделов, мододелов и локализаторов! Динамически генерируемые и динамически озвучиваемые реплики NPC, NPC наконец-то имя главного героя стали бы произносить, переводы в голосе и интонациях оригинального актёра, мододелы смогли бы расширять поведение персонажей, добавляя реплики с сохранением озвучки оригинального актёра и т.п.

Отдельный правда вопрос, каким образом задавать интонацию. Перечислить и занумеровать все возможные интонации – это конечно бред. А вот брать голос из одного звукового файла, интонацию из другого, и мержить – это больше похоже на правду. Т.е. мододел записывает реплики своим голосом, а игра воспроизводит в тех же интонациях, но голосом персонажа. Интересно, нынешние дипфейки так работают, или как?

dimgel ★★★★★
(25.10.21 15:46:39 MSK)