LINUX.ORG.RU

Синтезатор русской речи для Ubuntu, нужна помощь


0

0

Jonathan Duddington, разработчик новой системы для синтезирования речи написал мне письмо. Публикую его здесь, тк надеюсь на помощь сообщества. Если кто-нибудь заинтересовался и может помочь разработчику с реализацией поддержки русского языка, пишите мне на почту igor4u@gmail.com и я дам вам его контакты.

I found your details as the administrator of the Ubuntu Russian translators list and wondered whether such a project might be of interest.

I have written "eSpeak", an open source text-to-speech synthesizer which has recently been included for Ubuntu "Edgy". In addition to English, I have started the implementation a few other languages which I hope to improve with assistance from native speakers. The project is at: http://espeak.sourceforge.net/

Russian would also seem to be a good choice to add. I know nothing of Russian, except what I can read at places like http://en.wikipedia.org/wiki/Russian_...

I have a question. Russian spelling-to-sound seems regular, which is good, but it seems that which syllable of a word has the main stress varies, and cannot be found from the spelling. Some languages have regular stress position (eg, next-to-last syllable in Polish) or they mark stressed syllables with accent marks. But not Russian.

In Russian, must the stress position of every word be learned separately?

In English also, the stress position can vary, but the default is the first syllable of a word, and there are some rules (some prefixes are unstressed, some suffixes take the stress or put the stress on the previous syllable). Nevertheless there are many exceptions.

What is the situation with Russian? Does a text-to-speech engine need a dictionary of all the words in the language in order to look up the stress position? If so, does a free machine-readable list exist? Or are there some rules (or at least generalizations) which would limit the number of exceptions?

If you know anyone who would be interested in helping with a Russian speech synthesizer, please let me know. I can set up an initial attempt at Russian which others could work on to improve, see: http://espeak.sourceforge.net/add_lan...

>>> Добавление поддержки русского языка в синтезатор



Проверено: Pi ()

предлагаю: 1.Договорится и вывесить это на большинстве русскоязычных сайтов с *nix тематикой. 2.Найти наиболее обширный словарь, свободно доступный. 3.Зарегистрировать участников проэкта 4.Выделить каждому определенный кусок слов, и составить тем самым словарь ударений, либо фонетический словарь. 5. выделить web скрипты для вбивания новых слов, после модерации которе попадут в словарь. 5. Выложить это дело под лицензией GPL и кому надо те пусть и юзают. З.Ы. на счет ударений, думаю удобнее всеже будет не стандартно ударение прописывать а тавить заглавной буквой - парсить проще.

unname
()
Ответ на: комментарий от unname

>думаю удобнее всеже будет не стандартно ударение прописывать а тавить >заглавной буквой - парсить проще.

а вот это не то что нужно?

http://packages.debian.org/unstable/text/mueller7accent-dict

там в статьях насколько я понимаю русские слова написаны с ударением,
и как раз с помощью заглавных букв.

fghj ★★★★★
()

Ну вот вам слово с двумя буквами ё: четырёхвёсельная лодка.

Таких не так уж мало...

Так что еще двойные ударения обрабатывать. Или паузу на делать при произношении

anonymous
()
Ответ на: комментарий от unname

Выдержки из словаря http://www.auditech.ru/lexicon.tbl

Аверьянов a v' i r' j "a n a f авторский "a f t a r s k' i j космический k a s m' "i tS' i s k' i j

и т.д.

То есть словарь нужен фонологический, слова в котором выглядят подобно падонкаффскому езыку. Слова должны быть написаны в Speech Assessment Methods Phonetic Alphabet (SAMPA) (http://en.wikipedia.org/wiki/SAMPA)

Профессионально этим занимаются в http://www.auditech.ru, но они хотят денег.

pablott
()
Ответ на: комментарий от SI

Автор новости ! Запости плз его мыло, а то я запарился искать !

anonymous
()
Ответ на: комментарий от pablott

Я в шоке!

Во-первых: апостроф#апостро'ф,апостро'фы,апостро'фа

Во-вторых: четырёхвесельный#четырё`хвесе'льный,четырё`хвесе'льная

pablott
()
Ответ на: комментарий от madstorm

>Те кто хоть что-то опнимают в синтезаторах речи должны помочь по-любому! Тока озвучка чтоб была в 2-х исполнениях - мужской и женский голос. И женский пусть будет по-сексуальнее :)

Ага, Goblin сделает озвучку :)

anonymous
()
Ответ на: комментарий от pablott

Блин. Наверно первый более менее интересный проект за последний год появился, так на лоре 60 процентов говорят что это гавно, а остальные - то что это невозможно. Пи*дуйте в школу к своей училке это объяняйте. А потом покажите папе дневник и спать.

anonymous
()
Ответ на: комментарий от home_user

А чем не катит multitran? multitran.ru multitran.sourceforge.net.

anonymous
()
Ответ на: комментарий от anonymous

>Ага, Goblin сделает озвучку :)

Надо на такое дело скинуться. и при запуске проги: "Я категорически вас приветствую."

dn2010 ★★★★★
()
Ответ на: комментарий от JB

> Ты утверждаешь что синтезатор будет закрытым? На основе чего ты сделал такой бредовый вывод?

Это ваши досужие домыслы. Я не говорил про закрытость. Просто удивительно, как при наличии нормальных проектов пытаются сделать новый. И не просто так, а под крылом Ubuntu. Вот поэтому я после Rosetta и отношусь к проектам Ubuntu как к велосипедам. :)

Skull ★★★★★
()
Ответ на: комментарий от KA6AH

> звёздолёт =)

Звездолёт, грамотей хренов! :)

Skull ★★★★★
()
Ответ на: комментарий от unname

> 5. выделить web скрипты для вбивания новых слов, после модерации которе попадут в словарь.

Ага, набегут подростки и сделают ту какашку, как с Rosetta. Ну-ну... :)

Skull ★★★★★
()
Ответ на: комментарий от anonymous

> Блин. Наверно первый более менее интересный проект за последний год появился, так на лоре 60 процентов говорят что это гавно, а остальные - то что это невозможно.

Таких проектов - как грязи. Поэтому правильно и говорят. "Коллективный разум LOR близок к истине, как никто другой" (с)

Skull ★★★★★
()
Ответ на: комментарий от Skull

>Таких проектов - как грязи.

И пока ни одного работающего, одни эстонские роботы.

dn2010 ★★★★★
()
Ответ на: комментарий от anonymous

> "Синтезатор русской речи для Linux" - странно, "Синтезатор русской речи для Ubuntu" - полный бред.

"Taking over the world proceeds as planned" (C)

:)

AP ★★★★★
()
Ответ на: комментарий от madstorm

> И женский пусть будет по-сексуальнее :)

Ну уж нет, назло Вам сымитируем голос Вашей бабушки :)

AP ★★★★★
()
Ответ на: комментарий от blaster999

> Учитывая правило "Как слышыца так и пишыца" - почему бы и нет?

а как ударяецца?

в смысле куда ударения ставить :)

stiff
()
Ответ на: комментарий от svu

> Какой ужос. А то, что правильный чтец должен быть хорошим артистом - это неважно?

Кстати спорно. Можно сказать и что медиум должен быть нейтральным, как почти нейтральным голосом переводят фильмы овервойсом. Сам текст, по своей природе, не имеет окраски, а интонирование - это уже другое искусство - постановка, не литература.

sin_a ★★★★★
()

Если есть необходимость, то в Питере помогу, мыло: nselikhov_---@__gmail._____com

Вынуть "-" и "_".

ЗЫ По максимуму надо помочь. Это мое ИМХО! Только надо привлечь тех, кто давно занимается

ManJak ★★★★★
()
Ответ на: комментарий от ManJak

>Если есть необходимость, то в Питере помогу, мыло: nselikhov_---@__gmail._____com Вынуть "-" и "_".

И остальные буквы тоже вынуть :)

DIMON ★★★
()
Ответ на: комментарий от DIMON

Кроме трудности с ударением, на письме часто пишут букву е вместо ё, особенно после гласных и ъ.

При этом в некоторых словах возможно неоднозначное чтение:
'всё' и 'все';
'Объём' и кого-нибудь 'объем'.

Так что словарь опять не поможет.

zaregazza
()
Ответ на: комментарий от zaregazza

> в некоторых словах возможно неоднозначное чтение: 'всё' и 'все'; 'Объём' и кого-нибудь 'объем'.

>Так что словарь опять не поможет.

И это верно :((

Ещё может быть 'домА' и 'дОма' и т.д. Семантика нужна однако.

pablott
()

Если у него движок написан под латинские языки то русский на нем будет звучать странно, тк все восточные языки(куда входит русский) "интанационные" и для них движок надо другой писать либо затачивать, а не так как сделали беларусы...

TheMixa ★★★
()
Ответ на: комментарий от TheMixa

>"интанационные"

o_O

Если ты про о=а, и другие. Укранский тогда видимо не относится к "интанационные" ибо как пишется, так и слишится.

В русском не так.

anonymous
()
Ответ на: комментарий от anonymous

А у белорусов руляд "Адзин" и "Захаваць" ;)))

anonymous
()
Ответ на: комментарий от anonymous

>Если ты про о=а, и другие. Укранский тогда видимо не относится к "интанационные" ибо как пишется, так и слишится.

Нет не со всем про это говорил... правильно выразиться не могу тк не лингвист. Ну например некоторые слова могут иметь различные ударения в различных сочетаниях плюс у некоторых слов при смене ударения меняется смысл. Потом по части произношения: в латинских языках оно "строгое" в русском же мало того многие сочетания букв читаются в некоторых словах могут по разному, так и в зависимотси от интонации "тянутся" по разному... врезультате чисто словарем не обойтись, необходима еще заточка движка, а то получится очередной "русский" MS TTS например.

TheMixa ★★★
()
Ответ на: комментарий от TheMixa

Вот он, опенсорс в чистом виде... человек попросил о помощи. Вместо нее 100 постов помоев и умствований

anonymous
()
Ответ на: комментарий от HongZa

> Объясните, плиз, зачем это нужно Я имеею в виду вообще синтезирование речи как таковое?

Ты когда-нибудь видел (нет не видел, а точнее слышал) как сделан синтез речи под Mac OS X? Единственная вещь, до которой Линь не дотянул (а вообще-то никто не дотянул в этом плане до Mac OS). П.С.:Хотел бы помочь поекту.

anonymous
()
Ответ на: комментарий от anonymous

>Кто-то спрашивал в чем проблема в письме. Да именно в у дарениях, автор спрашивает, есть ли правила для сраного ударения. А если нет, то есть ли словари с ударениями.

Народ, я сам в русском языке делаю ошибки, но кое-что я знаю: существует такая вещь -- "Орфографический словарь"

anonymous
()
Ответ на: комментарий от anonymous

> Укранский тогда видимо не относится к "интанационные" ибо как пишется, так и слишится.

Это не так. Украинский язык тоже имеет целый ряд правил и исключений из них, которые не согласуются с этим принципом.

eugine_kosenko ★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.