ПО для оффлайн распознавания речи

http://cmusphinx.sourceforge.net/ не знаю только насколько хорошо работает. Тут есть про настройку русского в сфинксе: https://habrahabr.ru/post/237589/

ptah_alexs ★★★★★
(30.04.17 10:51:39 MSK)

Ссылка

существует ли в природе какой-нибудь приличный софт для распознавания речи на русском языке

Нету, в природе вместо «Speech Synthesis & Analysis Software» © обычно советуют секретаршу.

quickquest ★★★★★
(30.04.17 12:10:57 MSK)

Ссылка

Нет такого, пробовал Sphinx, так промучился с ним неделю, чтобы просто распознать банальные голосовые команды, какие уж там фразы или предложения... Так и эти команды распознает через раз. Короче полная безнадёга, нужно самому брать Tensorflow и тренировать нейросетку.

foror ★★★★★
(30.04.17 12:37:24 MSK)
Последнее исправление: foror 30.04.17 12:38:20 MSK (всего исправлений: 1)

Ссылка

заодно спрошу, а есть ли распознавалки произвольного языка, но не в обычный текст, а в запись фонетическим алфавитом?

https://ru.wikipedia.org/wiki/Международный_фонетический_алфавит

next_time ★★★★★
(30.04.17 12:53:33 MSK)

Нужно распознавание речи или распознавание голосовых команд? Это две абсолютно разные задачи, на самом деле.

Если нужно именно распознавание команд, а не распознавание речи, то нужно было просто обучить cvoicecontrol, а не заниматься чёрт знает чем. :)

Stanson ★★★★★
(30.04.17 13:29:30 MSK)

Гугель и яндекс лицензируют свои распознавалки для оффлайна.
Ценник зависит от левой пятки маркетолога, но обычно это сотни и десятки тысяч долларов соответственно.

Goury ★★★★★
(30.04.17 13:41:08 MSK)

Ответ на: комментарий от next_time 30.04.17 12:53:33 MSK

А какая разница? Мне кажется переход между фонетической записью и записью в терминах конкретного языка тривиален.

~~Stahl~~ ★★☆
(30.04.17 14:23:58 MSK)

Ответ на: комментарий от Stahl 30.04.17 14:23:58 MSK

во-первых, это не совсем так, напр. character читается как «карите» но char читаетсся как «чар»

чтобы читается как «штобы» и т.д.

next_time ★★★★★
(30.04.17 14:37:59 MSK)
Последнее исправление: next_time 30.04.17 14:38:30 MSK (всего исправлений: 1)

Ответ на: комментарий от next_time 30.04.17 14:37:59 MSK

И что? Что тебе мешает составить словарь языка в котором будет написано «штобы» и ему будет соответствовать «чтобы»? Ничего не мешает. Если у тебя будет записан набор звуков, то задача, считай, решена.

~~Stahl~~ ★★☆
(30.04.17 14:41:46 MSK)

Ответ на: комментарий от Stahl 30.04.17 14:23:58 MSK

во-вторых, имея заранее заданный список слов можно уже самому sed-ом с минимальной логикой перевести запись в набор этих слов (задача управления компьютером по голосу)

next_time ★★★★★
(30.04.17 14:42:13 MSK)

Ссылка

Ответ на: комментарий от Stahl 30.04.17 14:41:46 MSK

вот я и хочу получить набор звуков в виде, наиболее близком тому, в котором он был записан, чтобы не получить на входе character вместо karate или «чтобы» вместо «шторы»

next_time ★★★★★
(30.04.17 14:55:57 MSK)
Последнее исправление: next_time 30.04.17 14:57:39 MSK (всего исправлений: 1)

Ответ на: комментарий от next_time 30.04.17 14:55:57 MSK

Ну я тебе и говорю, что это самая сложная часть. И нормальной реализации её нет. Если бы она была, то мы с некоторыми железяками вполне могли бы говорить.

~~Stahl~~ ★★☆
(30.04.17 14:58:37 MSK)

Ответ на: комментарий от Stanson 30.04.17 13:29:30 MSK

Нужно распознавание речи в текст с имеющейся записи. Попробовал демку программы Voco Pro под Винду. Результат — близко к автосубтитрам Ютуба, т.е. «так себе». При этом голос с микрофона програма распознает почти на уровне окей гугла. Похоже, правы те, кто говорит, что пока задача толком не решена.

Alden ★★★★
(30.04.17 15:17:51 MSK) автор топика

Ответ на: комментарий от Goury 30.04.17 13:41:08 MSK

Гугель и яндекс лицензируют свои распознавалки для оффлайна.
Ценник зависит от левой пятки маркетолога, но обычно это сотни и десятки тысяч долларов соответственно.

А как это выглядит? Нужно покупать ~~асиксы~~ специализированное железо? Или летает на ксеонах/нвидиях? Я бы взял под свой стартап, если дадут ~~в рассрочку~~ бесплатно до взлета проекта, а там сочтемся )

foror ★★★★★
(30.04.17 15:54:51 MSK)
Последнее исправление: foror 30.04.17 15:55:11 MSK (всего исправлений: 1)

Ответ на: комментарий от foror 30.04.17 15:54:51 MSK

Для начала нужно не пороть ахинеи и хотя бы примерно представлять как работают современные нейронные сети.

Стартап — это когда уже взлетело.
А у тебя — очередное ООО Вектор, которое ещё и не знает что оно такое.
В здравом уме с такими никто дела не имеет.

Goury ★★★★★
(30.04.17 15:57:38 MSK)

Ссылка

Ответ на: комментарий от Stahl 30.04.17 14:58:37 MSK

Если бы она была, то мы с некоторыми железяками вполне могли бы говорить

А как же амазон или тот же сири? У гугла вполне неплохо распознает предложения. Когда пиксель презентовали, так их главный индус по английски тарабанил, а система только успевала записывать. Если конечно это не мухлеж.

foror ★★★★★
(30.04.17 15:58:53 MSK)

Ответ на: комментарий от foror 30.04.17 15:58:53 MSK

Распознавание и синтез - вещи немного разные.

Solace ★★
(30.04.17 17:18:55 MSK)

Ссылка

Ответ на: комментарий от Stahl 30.04.17 14:58:37 MSK

но распознавание речи, записанное фонетическим алфавитом локализует ошибкт до 1 символа на звук, что позволяет использовать более эффективные алгоритмы коррекции

грубо говоря, неважно, что 30% символов неправильно распознано: если произносится, скажем, путь к файлу, этого может быть достаточно

next_time ★★★★★
(30.04.17 17:51:22 MSK)

Ответ на: комментарий от next_time 30.04.17 17:51:22 MSK

Ну? Я и говорю, что расшифровка аудиодорожки до уровня фонетического алфавита — самое сложное. Остальное — фигня на уровне спеллчекера.

~~Stahl~~ ★★☆
(30.04.17 17:57:15 MSK)

Ответ на: комментарий от Stahl 30.04.17 14:58:37 MSK

ну так она есть: у меня на макоси сири вполне справляется с распознаванием текста

проблема в том что она тупая и не умеет переключаться с русского на английский, кроме того английский язык — идиотский в плане записи и «карамба» можно записать как karamba или charamba, «комбат» как kombat или combat. наконец, она слабо пытается искать какие-то либо действия (программы) или файлы локально, зато активно пытается искать в гугле произнесённый текст (нахрен это надо, в гугл текст я и руками наберу)

next_time ★★★★★
(30.04.17 18:00:40 MSK)

Ссылка

Dragon вроде один из двух лидеров рынка. Кто второй - не помню. Я не знаю, требуется ли там подключение к инету или не требуется. Задача очень сложная - про неё были исследования учёных. Что по сути для хорошего распознавания речи одних механизмов распознавания «отдельных слов» недостаточно. Машина должна понимать семантику произносимого.

Deleted
(30.04.17 20:14:24 MSK)

Ответ на: комментарий от Stahl 30.04.17 17:57:15 MSK

ок, но остальное может пофиксить косяки первого

next_time ★★★★★
(30.04.17 20:33:12 MSK)

Ответ на: комментарий от next_time 30.04.17 20:33:12 MSK

Без хорошего первого второе — набор омерзительных костылей.

~~Stahl~~ ★★☆
(30.04.17 20:35:32 MSK)

В Android.

~~Deathstalker~~ ★★★★★
(30.04.17 20:55:38 MSK)

Ссылка

Ответ на: комментарий от Deleted 30.04.17 20:14:24 MSK

Машина должна понимать семантику произносимого.

Даже человеки не всегда понимают семантику произносимого, например «Пуськи бятые» © :)

quickquest ★★★★★
(30.04.17 21:35:12 MSK)

Ссылка

Тут говорили про фонетику, семантику и ещё о каких-то штуках.

Если по порядку, то фонетика - это всего лишь третий этап обработки при распознавании речи, а семантика - тут вообще ни причём. Не знаешь слов - тут уже ничего не поделаешь - иди учи словарь/язык.

Первый этап - это адаптация к шумовой окружающей обстановке. Мозг автоматически выпиливает, например, тиканье часов, шум кондиционера, чьи-то разговоры в стороне, звук телевизора, ну и ещё тысячи вещей. И даже наше сознание особо ничего не предпринимаем при этом. Мозг это делает автоматом.

Остаётся почти идеальный частотный спектр собеседника, после фильтрации мозгом. Бывают конечно исключения, когда шумы вокруг на порядки громче голоса и к тому же они совсем уж апереодичные и непредсказуемые.

После успешного прохождения фильтрации, начинается второй этап - адаптация к тональности и тембру голоса собеседника, это почти тоже автоматом делается. К изъянам самой речи собеседника - ну там шипилявит или не выговаривает некоторые звуки, стандартно «Р», или ещё чего. Говор, когда больше например буква «А» похожа на букву «Б» - славноизвестный «вОлОгОдский» говор к примеру. К скорости самой речи.

Вобщем - эти первых два этапа практически никак никакой известной программой не обрабатываются и в анализатор фонетики сливается весь описанный мусор, среди которого речи в чистом виде практически нет.

Если например проводить тестирование в студии звукозаписи, с помощью человека со среднестатистическим тембром и тональностью голоса и с дикторской дикцией - можно вполне добиться гораздо большей эффективности работы любой распознающей программы. Но подобные условия - это сферический конь в вакууме.

~~Serg_HIS~~
(30.04.17 23:04:58 MSK)

Ответ на: комментарий от Serg_HIS 30.04.17 23:04:58 MSK

буква «А» похожа на букву «Б»

конечно же на букву «О»:)

~~Serg_HIS~~
(30.04.17 23:09:47 MSK)

Ссылка

Ответ на: комментарий от Alden 30.04.17 15:17:51 MSK

Нужно распознавание речи в текст с имеющейся записи.

Нет такого, чтобы нормально работало. Со времён VoiceType из OS/2 Warp почти ничего не изменилось. Компутеры так и не умеют распознавать контекст.

Stanson ★★★★★
(30.04.17 23:58:54 MSK)

Ссылка

Ответ на: комментарий от Serg_HIS 30.04.17 23:04:58 MSK

как будто фильтр по частотам до 1-8 кГц такая сложная задача

также, «К изъянам самой речи собеседника - ну там шипилявит или не выговаривает некоторые звуки» — это уже семантика и коррекция по контексту

next_time ★★★★★
(01.05.17 02:06:44 MSK)

Ответ на: комментарий от Stahl 30.04.17 20:35:32 MSK

первый этап имеет кучу неразрешимых проблем, в частности у человека он сбоит с вероятностью более 20%, то есть распознавание человеком собственно звуков ещё хуже, чем лучшим ПО на текущий момент

проблема, в частности, ещё и в качестве произношения

next_time ★★★★★
(01.05.17 02:15:12 MSK)

Ссылка

Ответ на: комментарий от next_time 01.05.17 02:06:44 MSK

Судя по вашим высказываниям, у вас весьма отдалённое представление о сути проблемы поднятой в теме.

Чтобы стало немного понятнее. Люди в принципе с лёгкостью могут различить в музыкальной композиции, какие музыкальные инструменты какую партию играют. Но на сегодня нет ни одной программы, которая может адекватно перевести из звукового файла в midi файл. Хотя люди треннерованные в музык, вполне идентично могут это сделать даже учитывая аккорды. Как только это будет реализовано программно, до нормальных распознавателей речи грубо говоря пол шага в принципе останется. Практически на выходе будут уже фонемы, которые нужно прогнать через словарь.

~~Serg_HIS~~
(01.05.17 03:45:50 MSK)

Горыныч

Lordwind ★★★★★
(01.05.17 07:33:53 MSK)

Ссылка

Ответ на: комментарий от Serg_HIS 01.05.17 03:45:50 MSK

какие люди? я, например, не отличу на слух бас-гитару от обычной

next_time ★★★★★
(01.05.17 13:20:25 MSK)

Ответ на: комментарий от Serg_HIS 01.05.17 03:45:50 MSK

а что касается софта звук -> midi, то такого софта нет (?) потому, что он никому не нужен

секунду. как это нет таких программ? было же навалом раньше ПО, которое умело по записи с микрофона искать название песни и исполнителя. как бы оно это сделало без перевода звук->midi/аналогичный формат?

next_time ★★★★★
(01.05.17 13:23:14 MSK)
Последнее исправление: next_time 01.05.17 13:29:10 MSK (всего исправлений: 1)

Ответ на: комментарий от next_time 01.05.17 13:23:14 MSK

Там просто делается «слепок»-хэш который сравнивается с базой песен.

ptah_alexs ★★★★★
(01.05.17 13:48:23 MSK)

Ответ на: комментарий от ptah_alexs 01.05.17 13:48:23 MSK

оно так работать не может — потому, что с микрофона вашего смартфона + динамики источника выйдет что угодно, но только не данные идентичные оригиналу, хеш от них брать бесполезно

next_time ★★★★★
(01.05.17 13:56:34 MSK)

Ответ на: комментарий от next_time 01.05.17 13:56:34 MSK

Хэш не буквально, я думаю берется срез спектра в нескольких (десятков) точек трека.

ptah_alexs ★★★★★
(01.05.17 16:26:02 MSK)

Ответ на: комментарий от ptah_alexs 01.05.17 16:26:02 MSK

ну так любая система распознавания звуков только так и может работать: берётся «срез спектра», берутся диффы от некоторых эталонных данных, дальше составляется хеш и ищется оригинал в базе данных

там вся проблема как раз «срез спектра» сделать, остальное — тривиальщина

next_time ★★★★★
(01.05.17 17:05:20 MSK)

Ответ на: комментарий от next_time 01.05.17 17:05:20 MSK

Я про то что это не перевод звука в midi.

ptah_alexs ★★★★★
(01.05.17 17:34:10 MSK)

Ответ на: комментарий от ptah_alexs 01.05.17 17:34:10 MSK

это перевод звука в миди: задача отделить звук нескольких музыкальных инструментов от произвольных внешних шумов не сильно отличается от задачи отделения звука определённого музыкального инструмента от прочих инструментов

найденные «срезы спектра» придётся содержать в некотором midi-образном формате, в любом случае

next_time ★★★★★
(01.05.17 18:33:38 MSK)

Ответ на: комментарий от next_time 01.05.17 18:33:38 MSK

Срез спектра никак не относится к задаче отделения одного инструмента от другого.

ptah_alexs ★★★★★
(01.05.17 19:05:11 MSK)

Ответ на: комментарий от ptah_alexs 01.05.17 19:05:11 MSK

самым прямым образом

next_time ★★★★★
(01.05.17 19:23:08 MSK)

Ответ на: комментарий от next_time 01.05.17 13:20:25 MSK

А чего вы тогда здесь бузите. Судя по всему вы даже не поняли, что я вам написал в предыдущих постах.

~~Serg_HIS~~
(01.05.17 21:23:19 MSK)

Ссылка

Ответ на: комментарий от next_time 01.05.17 19:23:08 MSK

Вам даже не только я сказал, что срез частот никак не решает задачу. Изучите матчасть.

~~Serg_HIS~~
(01.05.17 21:27:15 MSK)

Ссылка

Ответ на: комментарий от next_time 01.05.17 19:23:08 MSK

Если вам действительно интересно - то совершенно подобные проблемы актуальны и в распознавании изображений (изображений текстов) проблемы совершенно идентичны.

Проблема на уровне «оцифровки» до уровня символов. Будь то векторы или лексемы - разницы нет.

Проблема в головах людей.

~~Serg_HIS~~
(01.05.17 22:56:24 MSK)

Ответ на: комментарий от next_time 01.05.17 18:33:38 MSK

звук нескольких музыкальных инструментов от произвольных внешних шумов

Ещё раз напрягусь для этого «чемодана», «совершенный» звук без шумов даже звукозаписывающей техники. Нет, не распознает ни одна программа в достаточные партитуры для стандартного слушателя, чтобы ему это показалось приемлемым.

~~Serg_HIS~~
(01.05.17 23:18:04 MSK)

Ответ на: комментарий от Serg_HIS 01.05.17 23:18:04 MSK

а зачем ей в партитуры распознавать, чтобы искать записанную на микрофон песню в базе данных?

next_time ★★★★★
(01.05.17 23:39:38 MSK)

Ответ на: комментарий от Serg_HIS 01.05.17 22:56:24 MSK

проблемой распознавания изображений занимался, там совершенно иной первичный разбор иноформации

а на последующих этапах — да, всё очень похоже, потому и говорю, что главное — это последующие этапы на которых можно скорректировать ошибки распознавания на первом этапе

next_time ★★★★★
(01.05.17 23:42:24 MSK)
Последнее исправление: next_time 01.05.17 23:44:32 MSK (всего исправлений: 1)

Ответ на: комментарий от next_time 01.05.17 23:39:38 MSK

Предложи свой алгоритм!

~~Serg_HIS~~
(01.05.17 23:43:45 MSK)

Ответ на: комментарий от Serg_HIS 01.05.17 23:43:45 MSK

я мог бы поделиться исходниками, но сейчас делать этого не буду

next_time ★★★★★
(01.05.17 23:47:51 MSK)

Ссылка

Похожие темы