LINUX.ORG.RU

TTS в онтопике.

 


0

1

Задался вопросом, а можно ли в 2025 году взять кусок книги/статьи/новости и попросить какую нибудь софтину зачитать его. Вроде бы уже пора...

На андроиде вопрос через жопу, но решается. А вот на линуксе вроде как по умолчанию рекомендуется Festival, но он же фактически неработоспособен! Говорить то вроде как умеет, но что это за идиотская политика вываливаться на каждом непонятном символе или английском слове или вообще знаке препинания? Быстрее самом начитать текст голосом чем отформатировать его в читаемую Фестивалем форму.

Есть какие то утилиты, способные переваривать произвольные новосные статьи с кучей англицизмов и аббривиатур и длинные книги? Желательно чтобы можно было запустить на Распберри Пи 4гб без видеокарты.

★★★★★

Говорить то вроде как умеет, но что это за идиотская политика вываливаться на каждом непонятном символе…

Сначала, он был лучше. «Вываливаться» стал позже и чем дальше, тем хуже. Впрочем, когда писал свою «бубнилку», специальная функция в ней «форматировала текст». Но позже перешёл на rhvoice.

andytux ★★★★★
()
Ответ на: комментарий от andytux

RHvoise нужно собирать, а собирать под дебиан довольно тяжко. Особенно когда не хочется засирать систему...

Он хотя бы стоит того? На андроид я именно его и поставил, но там всякую пунктуацию, паузы и переключение языков и вывод в файл вроде как обрабатывает отдельная утилита. Без пульсы он сможет писать файлы напрямую?

kirill_rrr ★★★★★
() автор топика
Ответ на: комментарий от andytux

Ага, спасибо. Установилось и даже начало работать.

З.Ы. Кто бы мог подумать, что за собственно воспроизведение .txt отвечает RHVoice-test, который ставится из пакета speech-dispatcher-rhvoice и при этом оно не умеет альсу.

kirill_rrr ★★★★★
() автор топика
Последнее исправление: kirill_rrr (всего исправлений: 2)
Ответ на: комментарий от ya-betmen

Но трубопровод тоже работает поверх альсы и не делает при этом ничего нужного! А этот светоч прогресса полез проверять jac и oss!

Кстати я наврал. Он умеет альсу, только неудачно попытался сконфигурировать карту или захватить её монопольно.

kirill_rrr ★★★★★
() автор топика
Последнее исправление: kirill_rrr (всего исправлений: 1)
Ответ на: комментарий от anonymous

А вот этот проектик прямо ВАУ. Распаковал и оно работает.

Но к сожалению качество звучания где то примерно на уровне RHVoice 1.8 на андроиде с утилитой, принудительно добавляющей паузы.

kirill_rrr ★★★★★
() автор топика
Ответ на: комментарий от kirill_rrr

RHvoise нужно собирать, а собирать под дебиан довольно тяжко.

Ну, жди пока кто-нибудь опакетит.

Особенно когда не хочется засирать систему…

А что, в дебиане mock ещё не придумали?

debugger ★★★★★
()
Ответ на: комментарий от debugger

Так то я поставил по совету версию 1.2 из ppa убунты и сам движок работает не хуже чем 1.8 на андроиде. Есть неприятная мелочь - читалка на адроиде работает черзе системный апи синтеза и добавляет свои фишки, а именно паузы между предложениями и строками. Вроде мелочь, а воспринимается сильно лучше. Ну и пультиязык в графическом конфигураторе лучше настроился.

kirill_rrr ★★★★★
() автор топика
Ответ на: комментарий от kirill_rrr

Написано что он для сборки .rpm пакетов.

mock, разумеется, для сборки .rpm. Я имел в виду какой-нибудь аналог, который позволяет строить .deb пакеты не засирая систему.

debugger ★★★★★
()

Сегодня попробовал Coqui-ai TTS https://github.com/coqui-ai/TTS он заброшен, но работает неплохо

Для работы нужен python <= 3.11 (в убунте можно поставить через deadsnakes)

$ python3.11 -m venv tts_venv 
$ tts_venv/bin/pip install torch==2.5.1 tts # тут важно поставить старую версию torch, с новой не работает

$ tts_venv/bin/tts --text "Задался вопросом, а можно ли в 2025 году взять кусок книги/статьи/новости и попросить какую нибудь софтину зачитать его. Вроде бы уже пора...
На андроиде вопрос через жопу, но решается. А вот на линуксе вроде как по умолчанию рекомендуется Festival, но он же фактически неработоспособен! Говорить то вроде как умеет, но что это за идиотская политика вываливаться на каждом непонятном символе или английском слове или вообще знаке препинания? Быстрее самом начитать текст голосом чем отформатировать его в читаемую Фестивалем форму. 
Есть какие то утилиты, способные переваривать произвольные новосные articles с кучей англицизмов и аббривиатур и длинные books? Желательно чтобы можно было запустить на Raspberry PI 4GB без видеокарты." --model_name "tts_models/multilingual/multi-dataset/xtts_v2" --out_path speech.wav --speaker_idx "Damien Black" --language_idx "ru"

Скачает модель и сохранит результат в speech.wav

Можно менять голоса, список посмотреть так:

$ tts_venv/bin/tts --model_name "tts_models/multilingual/multi-dataset/xtts_v2" --list_speaker_idxs

Моделей много, можно попробовать разные, по идее русский поддерживают те, которые multilangual

$ tts --list_models

Запускается на CPU, наверно может и на GPU, но у меня по дефлту не подхватило CUDA, может нужно какие-то еще параметры задать.

masa ★★
()
Последнее исправление: masa (всего исправлений: 5)