LINUX.ORG.RU

Синтезатор русской речи для Ubuntu, нужна помощь


0

0

Jonathan Duddington, разработчик новой системы для синтезирования речи написал мне письмо. Публикую его здесь, тк надеюсь на помощь сообщества. Если кто-нибудь заинтересовался и может помочь разработчику с реализацией поддержки русского языка, пишите мне на почту igor4u@gmail.com и я дам вам его контакты.

I found your details as the administrator of the Ubuntu Russian translators list and wondered whether such a project might be of interest.

I have written "eSpeak", an open source text-to-speech synthesizer which has recently been included for Ubuntu "Edgy". In addition to English, I have started the implementation a few other languages which I hope to improve with assistance from native speakers. The project is at: http://espeak.sourceforge.net/

Russian would also seem to be a good choice to add. I know nothing of Russian, except what I can read at places like http://en.wikipedia.org/wiki/Russian_...

I have a question. Russian spelling-to-sound seems regular, which is good, but it seems that which syllable of a word has the main stress varies, and cannot be found from the spelling. Some languages have regular stress position (eg, next-to-last syllable in Polish) or they mark stressed syllables with accent marks. But not Russian.

In Russian, must the stress position of every word be learned separately?

In English also, the stress position can vary, but the default is the first syllable of a word, and there are some rules (some prefixes are unstressed, some suffixes take the stress or put the stress on the previous syllable). Nevertheless there are many exceptions.

What is the situation with Russian? Does a text-to-speech engine need a dictionary of all the words in the language in order to look up the stress position? If so, does a free machine-readable list exist? Or are there some rules (or at least generalizations) which would limit the number of exceptions?

If you know anyone who would be interested in helping with a Russian speech synthesizer, please let me know. I can set up an initial attempt at Russian which others could work on to improve, see: http://espeak.sourceforge.net/add_lan...

>>> Добавление поддержки русского языка в синтезатор



Проверено: Pi ()

ох не простая задача... но помогу чем смогу

Pi ★★★★★
()
Ответ на: комментарий от Tester

Tester, иди лесом. Для благого дела не жалко нескольких лищних строк в новстной колонке ЛОРа.

@All
Я правильно понял, что Jonathan Duddington просит помочь ему с поисками или составлением "словаря" ударений для русских слов?

home_user ★★★
()

Грамотнее было бы написать список задач в которых требуется помощь. Я думаю что не многие знакомы с составлением словарей, доточкой движков и тд. и поэтому трудно оценить свои возможности.

TheMixa ★★★
()
Ответ на: комментарий от Tester

>а давайте конкурс - кто запостит еще бОльшую новость на лор ?

При чём на разных языках ;)

Блин, ну трудно было в двух словах по-русски со ссылкой на "подробности", а не вот это вот...

vovans ★★★★★
()

Прошу не пинать. Объясните, плиз, зачем это нужно. Я имеею в виду вообще синтезирование речи как таковое? Распознование - понятно, а синтезирование?

HongZa
()
Ответ на: комментарий от HongZa

Чтоб убунта разговаривала с тобой загробным голосом

"Неее сииидиии поооод руууутоооом!"

boombick ★★★★★
()
Ответ на: комментарий от HongZa

> Объясните, плиз, зачем это нужно

Не забывайте про слепых людей

Reinventer
()

А почему только для убунты, в других дистрах работать небудет?
может быть сделать всетаки что-то универсальное, юнихвей как-никак ?

ppy ★★★
()
Ответ на: комментарий от vovans

>При чём на разных языках ;) >Блин, ну трудно было в двух словах по-русски со ссылкой на >"подробности", а не вот это вот...

Поклонники udaff.com не могут осилить 15 строчек. Думаю, что и две строчки для их извилины неподъемны...

stilet
()
Ответ на: комментарий от sin_a

>Что-бы ты не "дилинь-дилинь" слышал, а "пришло два новых письма, прочитать?"

А оно как заорет на весь офис: "Enlarge your pennis! Сцуко!"

sdio ★★★★★
()
Ответ на: комментарий от ppy

>может быть сделать всетаки что-то универсальное, юнихвей как-никак ?

Насколько я понял, просто процесс разработки идет под убунтой. Не думаю, что оно будет намертво привязано.

anonymous
()

"Синтезатор русской речи" - понятно, "Синтезатор русской речи для Linux" - странно, "Синтезатор русской речи для Ubuntu" - полный бред.

anonymous
()
Ответ на: комментарий от anonymous

"Синтезатор русской речи" - понятно

Замечательно, именно это и создает автор.

"Синтезатор русской речи для Linux" - странно

Создает под линуксом, но портировать будет легко - тут главное алгоритмы а не работа с устройствами. Так что не важно.

"Синтезатор русской речи для Ubuntu" - полный бред.

Согласен. Но выбору убунты как платформы для обкатки - самое то.

Кто-то спрашивал в чем проблема в письме. Да именно в у дарениях, автор спрашивает, есть ли правила для сраного ударения. А если нет, то есть ли словари с ударениями.

anonymous
()

Я бы с удовольствием помог, но ничего не знаю и не умею.. Может написать ему основные слова с ударениями? вОдка, компьЮтер, пИво, пельмЕни, инвентаризАция..

boodoolak
()
Ответ на: комментарий от anonymous

> А если нет, то есть ли словари с ударениями.

Я уже давал ссылку на такой словарь, см. выше по треду

JB ★★★★★
()
Ответ на: комментарий от anonymous

Очевидно, что необходим словарь ударений.

Например, Орфографический словарь под ред. проф. Лопатина http://dict.buktopuha.net/data/lop1v2.zip

Правда там в словах, содержащих Ё (yo) ударение не указано.

Может ещё какой-то словарь есть. Возможно, необходим ещё и словарь личных имён/географических названий.

Если автор собирается обойтись вообще без словарей, то не уверен, что у него это получится. Скорее всего, общие правила если и существуют, то весьма нетривиальны и главное непонятно как это всё конфигурировать.

Словарь, содержащий около 150,000 основ и около 4 млн словоформ http://linguist.nm.ru/stemka/stemka.html занимает порядка 2 МБ. Там правда, немного урезанная версия. Нет слов на П и Р. Кроме того, личных имён и географических названий немного.

Ещё интересные ресурсы:

http://www.aot.ru Open source project http://ruscorpora.ru Нац. колрпус русского языка

pablott
()
Ответ на: комментарий от ppy

> А почему только для убунты, в других дистрах работать небудет?

Люди из Ubuntu, похоже, не понимают, что нужно делиться с сообществом. Сначала Rosetta, теперь - этот велосипед при здравствующих festival. Добро пожаловать на велосипедный завод! :)

Skull ★★★★★
()
Ответ на: комментарий от pablott

> Правда там в словах, содержащих Ё (yo) ударение не указано. насколько я помню, в словах с "ё" ударение всегда падает на эту букву.

anonymous
()
Ответ на: комментарий от Skull

> Люди из Ubuntu, похоже, не понимают, что нужно делиться с сообществом. Сначала Rosetta, теперь - этот велосипед при здравствующих festival. Добро пожаловать на велосипедный завод! :)

Ты утверждаешь что синтезатор будет закрытым? На основе чего ты сделал такой бредовый вывод?

JB ★★★★★
()
Ответ на: комментарий от pablott

> Правда там в словах, содержащих Ё (yo) ударение не указано.

насколько я помню, в словах с "ё" ударение всегда падает на эту букву.

anonymous
()

Традиционная велосипедистика. Вместо того, чтобы доделать словари к festival или epos...

bormann
()
Ответ на: комментарий от Skull

Есть ещё и такие перцы: http://www.auditech.ru/records.htm, они профессионалы, но хотят денег понимаешь :(

Однако, если серьёзно заморачиваться качеством, то лучше заплатить.

pablott
()
Ответ на: комментарий от stilet

> Поклонники udaff.com не могут осилить 15 строчек. Думаю, что и две
> строчки для их извилины неподъемны...

все верно - только заменить надо udaff.com на ubuntu-ru@lists.ubuntu.com
как ни странно - но там где это сообщение выглядело бы намного более уместным его просто нет, зато на лор вывесили на пол экрана

Tester ★★★
()
Ответ на: комментарий от KA6AH

Замечание насчёт буквы Ё было добавлено для иностранцев, чтобы они не удивлялись, глядя на файл, почему не указано ударение.

pablott
()
Ответ на: комментарий от KA6AH

> звёздолёт =)

Не шути так, нето ещё кто-нибудь поверит

abcypd
()

Дело конечно интересное, но русский язык слабо подходит для синтезирования речи ((

Атлас или атлАс ))

впрочем всё равно успехов...

PavelAnd
()
Ответ на: комментарий от sdio

> А оно как заорет на весь офис: "Enlarge your pennis! Сцуко!"

:)))))))))))))) Жжошь! :)

Вот уж чего бы я не хотел, так это публичного озвучивания всего, что я пишу. :) И потом, падонкафский слэнг будит паддержывацца? :)

anonymous
()
Ответ на: комментарий от anonymous

>И потом, падонкафский слэнг будит паддержывацца? :)

Учитывая правило "Как слышыца так и пишыца" - почему бы и нет?

blaster999 ★★
()

>In Russian, must the stress position of every word be learned separately? Almost so.

>What is the situation with Russian? Does a text-to-speech engine need a dictionary of all the words in the language in order to look up the stress position? Yes.

>If so, does a free machine-readable list exist? Try to use Zaliznyak dictionary (словарь Зализняка).

>Or are there some rules (or at least generalizations) which would limit the number of exceptions? I don't think so.

anonymous
()
Ответ на: комментарий от svu

>Какой ужос. А то, что правильный чтец должен быть хорошим артистом - это неважно?

Некоторым, видимо, нравятся книги в исполнении а-ля Стивен Хокинс

blaster999 ★★
()
Ответ на: комментарий от blaster999

Да, можно было бы помочь человеку. Тока не понимаю в этом. Это видимо лингвистом надо быть, все эти фонемы и прочее. Жалко что все на английском. Понял процентов 70-80 текста.

anonymous
()
Ответ на: комментарий от anonymous

Классификацию фонем и правила преобразования, а также словарь ударений можно взять из русского языка для festivalя

http://festlang.berlios.de

welkam ★★
()
Ответ на: комментарий от JB

festival отвратителен, так что пусть пишет

anonymous
()
Ответ на: комментарий от welkam

Спасибо за ссылку на Зализняка.

Единственное, что для качественного синтеза речи нужен даже не словарь ударений, а фонологический словарь, так как буковок всего 33, а звуков - около пятидесяти (http://en.wikipedia.org/wiki/Russian_language#Consonants).

pablott
()

Те кто хоть что-то опнимают в синтезаторах речи должны помочь по-любому! Тока озвучка чтоб была в 2-х исполнениях - мужской и женский голос. И женский пусть будет по-сексуальнее :)

madstorm
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.