LINUX.ORG.RU
ФорумTalks

ПО для оффлайн распознавания речи

 ,


2

4

Друзья, подскажите, пожалуйста, существует ли в природе какой-нибудь приличный софт для распознавания речи на русском языке, не требующий постоянного доступа к интернету? Желательно СПО, но нормально работающая проприетарщина тоже сойдёт.

★★★

существует ли в природе какой-нибудь приличный софт для распознавания речи на русском языке

Нету, в природе вместо «Speech Synthesis & Analysis Software» © обычно советуют секретаршу.

quickquest ★★★★★ ()

Нет такого, пробовал Sphinx, так промучился с ним неделю, чтобы просто распознать банальные голосовые команды, какие уж там фразы или предложения... Так и эти команды распознает через раз. Короче полная безнадёга, нужно самому брать Tensorflow и тренировать нейросетку.

foror ★★★★ ()
Последнее исправление: foror (всего исправлений: 1)

Нужно распознавание речи или распознавание голосовых команд? Это две абсолютно разные задачи, на самом деле.

Если нужно именно распознавание команд, а не распознавание речи, то нужно было просто обучить cvoicecontrol, а не заниматься чёрт знает чем. :)

Stanson ★★★★★ ()

Гугель и яндекс лицензируют свои распознавалки для оффлайна.
Ценник зависит от левой пятки маркетолога, но обычно это сотни и десятки тысяч долларов соответственно.

Goury ★★★★★ ()
Ответ на: комментарий от next_time

А какая разница? Мне кажется переход между фонетической записью и записью в терминах конкретного языка тривиален.

Stahl ★★☆ ()
Ответ на: комментарий от Stahl

во-первых, это не совсем так, напр. character читается как «карите» но char читаетсся как «чар»

чтобы читается как «штобы» и т.д.

next_time ★★★★★ ()
Последнее исправление: next_time (всего исправлений: 1)
Ответ на: комментарий от next_time

И что? Что тебе мешает составить словарь языка в котором будет написано «штобы» и ему будет соответствовать «чтобы»? Ничего не мешает. Если у тебя будет записан набор звуков, то задача, считай, решена.

Stahl ★★☆ ()
Ответ на: комментарий от Stahl

во-вторых, имея заранее заданный список слов можно уже самому sed-ом с минимальной логикой перевести запись в набор этих слов (задача управления компьютером по голосу)

next_time ★★★★★ ()
Ответ на: комментарий от Stahl

вот я и хочу получить набор звуков в виде, наиболее близком тому, в котором он был записан, чтобы не получить на входе character вместо karate или «чтобы» вместо «шторы»

next_time ★★★★★ ()
Последнее исправление: next_time (всего исправлений: 1)
Ответ на: комментарий от next_time

Ну я тебе и говорю, что это самая сложная часть. И нормальной реализации её нет. Если бы она была, то мы с некоторыми железяками вполне могли бы говорить.

Stahl ★★☆ ()
Ответ на: комментарий от Stanson

Нужно распознавание речи в текст с имеющейся записи. Попробовал демку программы Voco Pro под Винду. Результат — близко к автосубтитрам Ютуба, т.е. «так себе». При этом голос с микрофона програма распознает почти на уровне окей гугла. Похоже, правы те, кто говорит, что пока задача толком не решена.

Alden ★★★ ()
Ответ на: комментарий от Goury

Гугель и яндекс лицензируют свои распознавалки для оффлайна.
Ценник зависит от левой пятки маркетолога, но обычно это сотни и десятки тысяч долларов соответственно.

А как это выглядит? Нужно покупать асиксы специализированное железо? Или летает на ксеонах/нвидиях? Я бы взял под свой стартап, если дадут в рассрочку бесплатно до взлета проекта, а там сочтемся )

foror ★★★★ ()
Последнее исправление: foror (всего исправлений: 1)
Ответ на: комментарий от foror

Для начала нужно не пороть ахинеи и хотя бы примерно представлять как работают современные нейронные сети.

Стартап — это когда уже взлетело.
А у тебя — очередное ООО Вектор, которое ещё и не знает что оно такое.
В здравом уме с такими никто дела не имеет.

Goury ★★★★★ ()
Ответ на: комментарий от Stahl

Если бы она была, то мы с некоторыми железяками вполне могли бы говорить

А как же амазон или тот же сири? У гугла вполне неплохо распознает предложения. Когда пиксель презентовали, так их главный индус по английски тарабанил, а система только успевала записывать. Если конечно это не мухлеж.

foror ★★★★ ()
Ответ на: комментарий от Stahl

но распознавание речи, записанное фонетическим алфавитом локализует ошибкт до 1 символа на звук, что позволяет использовать более эффективные алгоритмы коррекции

грубо говоря, неважно, что 30% символов неправильно распознано: если произносится, скажем, путь к файлу, этого может быть достаточно

next_time ★★★★★ ()
Ответ на: комментарий от next_time

Ну? Я и говорю, что расшифровка аудиодорожки до уровня фонетического алфавита — самое сложное. Остальное — фигня на уровне спеллчекера.

Stahl ★★☆ ()
Ответ на: комментарий от Stahl

ну так она есть: у меня на макоси сири вполне справляется с распознаванием текста

проблема в том что она тупая и не умеет переключаться с русского на английский, кроме того английский язык — идиотский в плане записи и «карамба» можно записать как karamba или charamba, «комбат» как kombat или combat. наконец, она слабо пытается искать какие-то либо действия (программы) или файлы локально, зато активно пытается искать в гугле произнесённый текст (нахрен это надо, в гугл текст я и руками наберу)

next_time ★★★★★ ()

Dragon вроде один из двух лидеров рынка. Кто второй - не помню. Я не знаю, требуется ли там подключение к инету или не требуется. Задача очень сложная - про неё были исследования учёных. Что по сути для хорошего распознавания речи одних механизмов распознавания «отдельных слов» недостаточно. Машина должна понимать семантику произносимого.

Deleted ()
Ответ на: комментарий от Deleted

Машина должна понимать семантику произносимого.

Даже человеки не всегда понимают семантику произносимого, например «Пуськи бятые» © :)

quickquest ★★★★★ ()

Тут говорили про фонетику, семантику и ещё о каких-то штуках.

Если по порядку, то фонетика - это всего лишь третий этап обработки при распознавании речи, а семантика - тут вообще ни причём. Не знаешь слов - тут уже ничего не поделаешь - иди учи словарь/язык.

Первый этап - это адаптация к шумовой окружающей обстановке. Мозг автоматически выпиливает, например, тиканье часов, шум кондиционера, чьи-то разговоры в стороне, звук телевизора, ну и ещё тысячи вещей. И даже наше сознание особо ничего не предпринимаем при этом. Мозг это делает автоматом.

Остаётся почти идеальный частотный спектр собеседника, после фильтрации мозгом. Бывают конечно исключения, когда шумы вокруг на порядки громче голоса и к тому же они совсем уж апереодичные и непредсказуемые.

После успешного прохождения фильтрации, начинается второй этап - адаптация к тональности и тембру голоса собеседника, это почти тоже автоматом делается. К изъянам самой речи собеседника - ну там шипилявит или не выговаривает некоторые звуки, стандартно «Р», или ещё чего. Говор, когда больше например буква «А» похожа на букву «Б» - славноизвестный «вОлОгОдский» говор к примеру. К скорости самой речи.

Вобщем - эти первых два этапа практически никак никакой известной программой не обрабатываются и в анализатор фонетики сливается весь описанный мусор, среди которого речи в чистом виде практически нет.

Если например проводить тестирование в студии звукозаписи, с помощью человека со среднестатистическим тембром и тональностью голоса и с дикторской дикцией - можно вполне добиться гораздо большей эффективности работы любой распознающей программы. Но подобные условия - это сферический конь в вакууме.

Serg_HIS ()
Ответ на: комментарий от Serg_HIS

буква «А» похожа на букву «Б»

конечно же на букву «О»:)

Serg_HIS ()
Ответ на: комментарий от Alden

Нужно распознавание речи в текст с имеющейся записи.

Нет такого, чтобы нормально работало. Со времён VoiceType из OS/2 Warp почти ничего не изменилось. Компутеры так и не умеют распознавать контекст.

Stanson ★★★★★ ()
Ответ на: комментарий от Serg_HIS

как будто фильтр по частотам до 1-8 кГц такая сложная задача

также, «К изъянам самой речи собеседника - ну там шипилявит или не выговаривает некоторые звуки» — это уже семантика и коррекция по контексту

next_time ★★★★★ ()
Ответ на: комментарий от Stahl

первый этап имеет кучу неразрешимых проблем, в частности у человека он сбоит с вероятностью более 20%, то есть распознавание человеком собственно звуков ещё хуже, чем лучшим ПО на текущий момент

проблема, в частности, ещё и в качестве произношения

next_time ★★★★★ ()
Ответ на: комментарий от next_time

Судя по вашим высказываниям, у вас весьма отдалённое представление о сути проблемы поднятой в теме.

Чтобы стало немного понятнее. Люди в принципе с лёгкостью могут различить в музыкальной композиции, какие музыкальные инструменты какую партию играют. Но на сегодня нет ни одной программы, которая может адекватно перевести из звукового файла в midi файл. Хотя люди треннерованные в музык, вполне идентично могут это сделать даже учитывая аккорды. Как только это будет реализовано программно, до нормальных распознавателей речи грубо говоря пол шага в принципе останется. Практически на выходе будут уже фонемы, которые нужно прогнать через словарь.

Serg_HIS ()
Ответ на: комментарий от Serg_HIS

а что касается софта звук -> midi, то такого софта нет (?) потому, что он никому не нужен

секунду. как это нет таких программ? было же навалом раньше ПО, которое умело по записи с микрофона искать название песни и исполнителя. как бы оно это сделало без перевода звук->midi/аналогичный формат?

next_time ★★★★★ ()
Последнее исправление: next_time (всего исправлений: 1)
Ответ на: комментарий от ptah_alexs

оно так работать не может — потому, что с микрофона вашего смартфона + динамики источника выйдет что угодно, но только не данные идентичные оригиналу, хеш от них брать бесполезно

next_time ★★★★★ ()
Ответ на: комментарий от ptah_alexs

ну так любая система распознавания звуков только так и может работать: берётся «срез спектра», берутся диффы от некоторых эталонных данных, дальше составляется хеш и ищется оригинал в базе данных

там вся проблема как раз «срез спектра» сделать, остальное — тривиальщина

next_time ★★★★★ ()
Ответ на: комментарий от ptah_alexs

это перевод звука в миди: задача отделить звук нескольких музыкальных инструментов от произвольных внешних шумов не сильно отличается от задачи отделения звука определённого музыкального инструмента от прочих инструментов

найденные «срезы спектра» придётся содержать в некотором midi-образном формате, в любом случае

next_time ★★★★★ ()
Ответ на: комментарий от next_time

А чего вы тогда здесь бузите. Судя по всему вы даже не поняли, что я вам написал в предыдущих постах.

Serg_HIS ()
Ответ на: комментарий от next_time

Вам даже не только я сказал, что срез частот никак не решает задачу. Изучите матчасть.

Serg_HIS ()
Ответ на: комментарий от next_time

Если вам действительно интересно - то совершенно подобные проблемы актуальны и в распознавании изображений (изображений текстов) проблемы совершенно идентичны.

Проблема на уровне «оцифровки» до уровня символов. Будь то векторы или лексемы - разницы нет.

Проблема в головах людей.

Serg_HIS ()
Ответ на: комментарий от next_time

звук нескольких музыкальных инструментов от произвольных внешних шумов

Ещё раз напрягусь для этого «чемодана», «совершенный» звук без шумов даже звукозаписывающей техники. Нет, не распознает ни одна программа в достаточные партитуры для стандартного слушателя, чтобы ему это показалось приемлемым.

Serg_HIS ()
Ответ на: комментарий от Serg_HIS

проблемой распознавания изображений занимался, там совершенно иной первичный разбор иноформации

а на последующих этапах — да, всё очень похоже, потому и говорю, что главное — это последующие этапы на которых можно скорректировать ошибки распознавания на первом этапе

next_time ★★★★★ ()
Последнее исправление: next_time (всего исправлений: 1)
Ответ на: комментарий от Serg_HIS

я мог бы поделиться исходниками, но сейчас делать этого не буду

next_time ★★★★★ ()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.