LINUX.ORG.RU

Синтезатор русской речи для Ubuntu, нужна помощь


0

0

Jonathan Duddington, разработчик новой системы для синтезирования речи написал мне письмо. Публикую его здесь, тк надеюсь на помощь сообщества. Если кто-нибудь заинтересовался и может помочь разработчику с реализацией поддержки русского языка, пишите мне на почту igor4u@gmail.com и я дам вам его контакты.

I found your details as the administrator of the Ubuntu Russian translators list and wondered whether such a project might be of interest.

I have written "eSpeak", an open source text-to-speech synthesizer which has recently been included for Ubuntu "Edgy". In addition to English, I have started the implementation a few other languages which I hope to improve with assistance from native speakers. The project is at: http://espeak.sourceforge.net/

Russian would also seem to be a good choice to add. I know nothing of Russian, except what I can read at places like http://en.wikipedia.org/wiki/Russian_...

I have a question. Russian spelling-to-sound seems regular, which is good, but it seems that which syllable of a word has the main stress varies, and cannot be found from the spelling. Some languages have regular stress position (eg, next-to-last syllable in Polish) or they mark stressed syllables with accent marks. But not Russian.

In Russian, must the stress position of every word be learned separately?

In English also, the stress position can vary, but the default is the first syllable of a word, and there are some rules (some prefixes are unstressed, some suffixes take the stress or put the stress on the previous syllable). Nevertheless there are many exceptions.

What is the situation with Russian? Does a text-to-speech engine need a dictionary of all the words in the language in order to look up the stress position? If so, does a free machine-readable list exist? Or are there some rules (or at least generalizations) which would limit the number of exceptions?

If you know anyone who would be interested in helping with a Russian speech synthesizer, please let me know. I can set up an initial attempt at Russian which others could work on to improve, see: http://espeak.sourceforge.net/add_lan...

>>> Добавление поддержки русского языка в синтезатор



Проверено: Pi ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

Нда не хватает даже денег на хорошего лингвиста ....

SI ★★☆☆ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

ох не простая задача... но помогу чем смогу

Pi ★★★★★ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

а давайте конкурс - кто запостит еще бОльшую новость на лор ?

Tester ★★★ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

Tester, иди лесом. Для благого дела не жалко нескольких лищних строк в новстной колонке ЛОРа.

@All
Я правильно понял, что Jonathan Duddington просит помочь ему с поисками или составлением "словаря" ударений для русских слов?

home_user ★★★ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

Грамотнее было бы написать список задач в которых требуется помощь. Я думаю что не многие знакомы с составлением словарей, доточкой движков и тд. и поэтому трудно оценить свои возможности.

TheMixa ★★★ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

>а давайте конкурс - кто запостит еще бОльшую новость на лор ?

При чём на разных языках ;)

Блин, ну трудно было в двух словах по-русски со ссылкой на "подробности", а не вот это вот...

vovans ★★★★★ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

Прошу не пинать. Объясните, плиз, зачем это нужно. Я имеею в виду вообще синтезирование речи как таковое? Распознование - понятно, а синтезирование?

HongZa ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

А почему только для убунты, в других дистрах работать небудет?
может быть сделать всетаки что-то универсальное, юнихвей как-никак ?

ppy ★★ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

>При чём на разных языках ;) >Блин, ну трудно было в двух словах по-русски со ссылкой на >"подробности", а не вот это вот...

Поклонники udaff.com не могут осилить 15 строчек. Думаю, что и две строчки для их извилины неподъемны...

stilet ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

>Что-бы ты не "дилинь-дилинь" слышал, а "пришло два новых письма, прочитать?"

А оно как заорет на весь офис: "Enlarge your pennis! Сцуко!"

sdio ★★★★★ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

>может быть сделать всетаки что-то универсальное, юнихвей как-никак ?

Насколько я понял, просто процесс разработки идет под убунтой. Не думаю, что оно будет намертво привязано.

anonymous ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

"Синтезатор русской речи" - понятно, "Синтезатор русской речи для Linux" - странно, "Синтезатор русской речи для Ubuntu" - полный бред.

anonymous ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

"Синтезатор русской речи" - понятно

Замечательно, именно это и создает автор.

"Синтезатор русской речи для Linux" - странно

Создает под линуксом, но портировать будет легко - тут главное алгоритмы а не работа с устройствами. Так что не важно.

"Синтезатор русской речи для Ubuntu" - полный бред.

Согласен. Но выбору убунты как платформы для обкатки - самое то.

Кто-то спрашивал в чем проблема в письме. Да именно в у дарениях, автор спрашивает, есть ли правила для сраного ударения. А если нет, то есть ли словари с ударениями.

anonymous ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

Я бы с удовольствием помог, но ничего не знаю и не умею.. Может написать ему основные слова с ударениями? вОдка, компьЮтер, пИво, пельмЕни, инвентаризАция..

boodoolak ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

Очевидно, что необходим словарь ударений.

Например, Орфографический словарь под ред. проф. Лопатина http://dict.buktopuha.net/data/lop1v2.zip

Правда там в словах, содержащих Ё (yo) ударение не указано.

Может ещё какой-то словарь есть. Возможно, необходим ещё и словарь личных имён/географических названий.

Если автор собирается обойтись вообще без словарей, то не уверен, что у него это получится. Скорее всего, общие правила если и существуют, то весьма нетривиальны и главное непонятно как это всё конфигурировать.

Словарь, содержащий около 150,000 основ и около 4 млн словоформ http://linguist.nm.ru/stemka/stemka.html занимает порядка 2 МБ. Там правда, немного урезанная версия. Нет слов на П и Р. Кроме того, личных имён и географических названий немного.

Ещё интересные ресурсы:

http://www.aot.ru Open source project http://ruscorpora.ru Нац. колрпус русского языка

pablott ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

> А почему только для убунты, в других дистрах работать небудет?

Люди из Ubuntu, похоже, не понимают, что нужно делиться с сообществом. Сначала Rosetta, теперь - этот велосипед при здравствующих festival. Добро пожаловать на велосипедный завод! :)

Skull ★★★★★ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

> Правда там в словах, содержащих Ё (yo) ударение не указано. насколько я помню, в словах с "ё" ударение всегда падает на эту букву.

anonymous ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

> Люди из Ubuntu, похоже, не понимают, что нужно делиться с сообществом. Сначала Rosetta, теперь - этот велосипед при здравствующих festival. Добро пожаловать на велосипедный завод! :)

Ты утверждаешь что синтезатор будет закрытым? На основе чего ты сделал такой бредовый вывод?

JB ★★★★★ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

Традиционная велосипедистика. Вместо того, чтобы доделать словари к festival или epos...

bormann ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

Есть ещё и такие перцы: http://www.auditech.ru/records.htm, они профессионалы, но хотят денег понимаешь :(

Однако, если серьёзно заморачиваться качеством, то лучше заплатить.

pablott ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

> Поклонники udaff.com не могут осилить 15 строчек. Думаю, что и две
> строчки для их извилины неподъемны...

все верно - только заменить надо udaff.com на ubuntu-ru@lists.ubuntu.com
как ни странно - но там где это сообщение выглядело бы намного более уместным его просто нет, зато на лор вывесили на пол экрана

Tester ★★★ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

отож наконец-то буду заставлять комп начитывать аудио-книги.

anonymous ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

Дело конечно интересное, но русский язык слабо подходит для синтезирования речи ((

Атлас или атлАс ))

впрочем всё равно успехов...

PavelAnd ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

> А оно как заорет на весь офис: "Enlarge your pennis! Сцуко!"

:)))))))))))))) Жжошь! :)

Вот уж чего бы я не хотел, так это публичного озвучивания всего, что я пишу. :) И потом, падонкафский слэнг будит паддержывацца? :)

anonymous ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

>И потом, падонкафский слэнг будит паддержывацца? :)

Учитывая правило "Как слышыца так и пишыца" - почему бы и нет?

blaster999 ★★ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

>In Russian, must the stress position of every word be learned separately? Almost so.

>What is the situation with Russian? Does a text-to-speech engine need a dictionary of all the words in the language in order to look up the stress position? Yes.

>If so, does a free machine-readable list exist? Try to use Zaliznyak dictionary (словарь Зализняка).

>Or are there some rules (or at least generalizations) which would limit the number of exceptions? I don't think so.

anonymous ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

>Какой ужос. А то, что правильный чтец должен быть хорошим артистом - это неважно?

Некоторым, видимо, нравятся книги в исполнении а-ля Стивен Хокинс

blaster999 ★★ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

Да, можно было бы помочь человеку. Тока не понимаю в этом. Это видимо лингвистом надо быть, все эти фонемы и прочее. Жалко что все на английском. Понял процентов 70-80 текста.

anonymous ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

Классификацию фонем и правила преобразования, а также словарь ударений можно взять из русского языка для festivalя

http://festlang.berlios.de

welkam ★★ ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

Спасибо за ссылку на Зализняка.

Единственное, что для качественного синтеза речи нужен даже не словарь ударений, а фонологический словарь, так как буковок всего 33, а звуков - около пятидесяти (http://en.wikipedia.org/wiki/Russian_language#Consonants).

pablott ()

Re: Синтезатор русской речи для Ubuntu, нужна помощь

Те кто хоть что-то опнимают в синтезаторах речи должны помочь по-любому! Тока озвучка чтоб была в 2-х исполнениях - мужской и женский голос. И женский пусть будет по-сексуальнее :)

madstorm ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.