LINUX.ORG.RU

Оцифровать голов с mp3 в текст.

 ,


1

3

Ищу чем можно оцифровать голов записанный в mp3 Весь голос русский. Хочу на входе дать mp3 а на выходе получить текст.

Точность - не так важна, достаточно будет примерной точности. Мне нужно это для примерного поиска того, что уже слышал и помню фразы или отдельные слова аудиозаписи.

Голос четкий и громкий. К примеру гугл translate если просто телефона к колонкам- слышит почти все слова правильно.

Обработка - пакетная, то есть у меня есть список файлов, я хотел бы иметь возможность задать входящее имя файла без необходимости выбирать файлы через GUI (так как файлов много).

Подойдут решения даже под win если есть, или какие то веб сервисы которые можно использовать бесплатно но где нет лимитов скажем на длительность или размер файла.

спасибо.

мне кажется можно закостылить. надиктовав это mp3 в голосовое сообщение в ВК, а потом попросить ВК распознать текст с голосового сообщения. в мобильном приложении в ВК есть функция распознавания текста в голосовом сообщении

romanlinux ()
Ответ на: комментарий от romanlinux

ну там более 2000 часов так что костылить с вк думаю не выйдет. если есть какие то api которые можно в принципе я готов и разрезать файлы по длительности в принципе, скрипт напишу какой нибудь. то есть если к примеру даже с лимитам к api я за год смогу это обработать - будет даже очень ок.

VoDD87 ()
Ответ на: комментарий от vvn_black

тысяч в 80 рублей? вижу что сам SpeechKit имеет только лимиты, но фишка в том что я должен класть данные в их хранилице, а оно уже платное, верно?

Если разбить файлы к примеру по 500 KiB то мое хранилище будет не больше мегабайта, тогда надо будет обработать 260 000 объёктов, сколько запросов на каждый объёкт чтобы его загрузить и удалить? два?, сколько я за них отдам?

трав мой к ним не учитывают, и между обектным хранилищем и SpeechKit тоже.

Поскольку SpeechKit требует времени обработки для, каждый объект можно обрабатывать неспешно с задержками.

VoDD87 ()
Ответ на: комментарий от VoDD87

но фишка в том что я должен класть данные в их хранилице, а оно уже платное, верно?

HTTP API есть. По-моему, есть условие, что дополнительно тарифицируется исходящий трафик от Яндекса.

vvn_black ★★★★★ ()
Ответ на: комментарий от vvn_black

HTTP API есть. ну вот там на сколько я понял, как раз и надо указывать ссылку на файл в объектном хранилице яндекса.

трафик будет только от меня к ним и между их сервисами.

VoDD87 ()
Ответ на: комментарий от VoDD87

Так там несколько методов, потоковое по-моему не использует бакет.

Да, и чего гадать, когда можно же за два месяца всё протестить за 3000 промо денег, и качество и расходы.

vvn_black ★★★★★ ()
Последнее исправление: vvn_black (всего исправлений: 1)

Vosk можно использовать. Сервер поставить через докер или просто питоновкий пакет через pip.

Модель большая здесь:

https://alphacephei.com/vosk/models/vosk-model-ru-0.10.zip

Для декодирования mp3 ffmpeg.

Пример кода здесь:

https://github.com/alphacep/vosk-server/blob/master/websocket/test_ffmpeg.py

2000 часов обработаются за неделю, если в 10 потоков пускать на современном сервере с 8 ядрами.

welkam ★★ ()

Какие-то очень сложные советы.

https://github.com/agermanidis/autosub

Принимает на вход что угодно, что поддерживается ффмпегом (я вообще WAV скармливал). Можно указывать разные языки, можно даже автоматически переводить распознанное с языка на язык.

На выход даёт SRT или JSON. В первом случае можно регэкспами убрать временные отметки, если они не нужны. Я это делал саблаймом, но можно и sed какой-нибудь заюзать.

AP ★★★★★ ()
Последнее исправление: AP (всего исправлений: 1)
Ответ на: комментарий от xtouqh

Тыкали давеча этот воск; билд демки на фоне сфинкса просто огромный (больше 150 МБ, кажется), а всё так же ни хрена не распознаёт.

mertvoprog ()

Обычно этим фрилансеры занимаются.

XoFfiCEr ★★★★ ()
Ответ на: комментарий от welkam

Только для перевода. Для speech-to-text — нет.

AP ★★★★★ ()
Ограничение на отправку комментариев: только для зарегистрированных пользователей