LINUX.ORG.RU

TTS: какими голосами пользуетесь?

 , ,


2

1

Когда-то давно, во времена Festival, я пробовал прогонять через него книги. С английским языком получалось неплохо, если не забывать про экспоненциальное(?) замедление штатного скрипта и резать на главы. Единственный найденный голос для русского вымораживал своим затяжным «нееет», поэтому я потерял к нему интерес.

Сейчас попробовал несколько программ и остановился на piper. Из английских голосов нормально отработал первый же опробованный — Amy. Далее из 20 голосов половина отсеялась как неразборчивые или вызывающие желание прокашляться, но выбор есть. Самый заметный недостаток — иностранные имена странно произносят.

А что с русским языком?

Я нашёл 4 голоса. 2 совсем хриплые и неразборчивые. irina и ruslan понять можно, но ударения ставят как попало (слушать про короля, живущего в замкЕ забавно, но надоедает), путают е и ё (причём в обе стороны), часто игнорируют мягкий знак.

Кто чем пользуется из оффлайновых?

★★★★★

Последнее исправление: question4 (всего исправлений: 1)

Давно использую RHVoice. Весьма качественный движок. Разработчики в основном незрячие, так что кое-что в правильной озвучке эти люди понимают.

piyavking ★★★★★
()

А что с русским языком?

А хоть какой-нибудь text2speech хорошо говорит по-русски? Вроде в винде можно создавать SSML-файлы для разметки озвучивания конкретного текста встроенным синтезатором. А вот для произвольного тоже не очень.

dmitry237 ★★★★★
()
Ответ на: комментарий от dmitry237

А хоть какой-нибудь text2speech хорошо говорит по-русски?

Под Windows XP были API, несколько неплохих программ (навскидку – «Говорящая мышь») и голоса от нескольких фирм, включая Digalo. Одно время Digalo Nikolai был довольно известен. Разумеется, всё требовало кряки/кейгены.

question4 ★★★★★
() автор топика

ударения ставят как попало (слушать про короля, живущего в замкЕ забавно, но надоедает), путают е и ё (причём в обе стороны), часто игнорируют мягкий знак

Общая проблема нейросетевых моделей. Silero вроде упарывались с ударениями, но вряд ли есть готовое решение, которое конвертит книжки в один клик навроде ebook2audiobook

anonymous
()

Для многих ттс-ов русский текст надо подготовить, типа заменить все цифры и числа на соответсвующие слова, расставить ударения. Отсюда https://4pda.to/forum/index.php?showtopic=1110815 узнал про такие вещи как RuAccent, SileroStress, Демагог(или Demagog), ru-normalizr.

Есть там и некий «готовый» софт fb2tts
https://4pda.to/forum/index.php?showtopic=1110815&st=1740#entry141392487
https://4pda.to/forum/index.php?showtopic=1110815&st=1960#entry141687864

Но короче сам с этим особо не разбирался. Многим нейронкам вообще пофиг на проставленные ударения.

Есть нейронка выдающая прям качественные результаты по образцу голоса – VibeVoice(от Microsoft), но она жирная и соответсвенно образцы голоса для книжки надо будет как-то подбирать под «атмосферу» читаемого отрезка.

Bad_ptr ★★★★★
()
Последнее исправление: Bad_ptr (всего исправлений: 2)
Ответ на: комментарий от Bad_ptr

Ну такое себе. Из всех моделей в числительные и английский в тексте из всех моделей как-то умеет только Misha24-10. Остаюсь на ebook2audiobook

anonymous
()