Оцифровать голов с mp3 в текст.

1

3

Ищу чем можно оцифровать голов записанный в mp3 Весь голос русский. Хочу на входе дать mp3 а на выходе получить текст.

Точность - не так важна, достаточно будет примерной точности. Мне нужно это для примерного поиска того, что уже слышал и помню фразы или отдельные слова аудиозаписи.

Голос четкий и громкий. К примеру гугл translate если просто телефона к колонкам- слышит почти все слова правильно.

Обработка - пакетная, то есть у меня есть список файлов, я хотел бы иметь возможность задать входящее имя файла без необходимости выбирать файлы через GUI (так как файлов много).

Подойдут решения даже под win если есть, или какие то веб сервисы которые можно использовать бесплатно но где нет лимитов скажем на длительность или размер файла.

спасибо.

Ссылка

← Посоветуйте железо для уличного стрима

OBS studio. Захват окна браузера →

Помнил про CMU Sphinx, но он похоже заброшен, но там же ссылка на (disclaimer: не использовал) https://alphacephei.com/vosk/.

xtouqh
(11.09.20 16:00:00 MSK)

мне кажется можно закостылить. надиктовав это mp3 в голосовое сообщение в ВК, а потом попросить ВК распознать текст с голосового сообщения. в мобильном приложении в ВК есть функция распознавания текста в голосовом сообщении

romanlinux ★★★
(11.09.20 16:25:58 MSK)

Ответ на: комментарий от romanlinux 11.09.20 16:25:58 MSK

ну там более 2000 часов так что костылить с вк думаю не выйдет. если есть какие то api которые можно в принципе я готов и разрезать файлы по длительности в принципе, скрипт напишу какой нибудь. то есть если к примеру даже с лимитам к api я за год смогу это обработать - будет даже очень ок.

VoDD87 ★
(11.09.20 21:32:42 MSK) автор топика

Ответ на: комментарий от VoDD87 11.09.20 21:32:42 MSK

2000 часов

SpeechKit от Яндекс, тысяч в 80 выйдет.

vvn_black ★★★★★
(11.09.20 22:04:13 MSK)
Последнее исправление: vvn_black 11.09.20 22:08:47 MSK (всего исправлений: 1)

Ответ на: комментарий от vvn_black 11.09.20 22:04:13 MSK

тысяч в 80 рублей? вижу что сам SpeechKit имеет только лимиты, но фишка в том что я должен класть данные в их хранилице, а оно уже платное, верно?

Если разбить файлы к примеру по 500 KiB то мое хранилище будет не больше мегабайта, тогда надо будет обработать 260 000 объёктов, сколько запросов на каждый объёкт чтобы его загрузить и удалить? два?, сколько я за них отдам?

трав мой к ним не учитывают, и между обектным хранилищем и SpeechKit тоже.

Поскольку SpeechKit требует времени обработки для, каждый объект можно обрабатывать неспешно с задержками.

VoDD87 ★
(11.09.20 22:38:12 MSK) автор топика

Ответ на: комментарий от VoDD87 11.09.20 22:38:12 MSK

но фишка в том что я должен класть данные в их хранилице, а оно уже платное, верно?

HTTP API есть. По-моему, есть условие, что дополнительно тарифицируется исходящий трафик от Яндекса.

vvn_black ★★★★★
(11.09.20 22:44:40 MSK)

Ответ на: комментарий от vvn_black 11.09.20 22:44:40 MSK

HTTP API есть. ну вот там на сколько я понял, как раз и надо указывать ссылку на файл в объектном хранилице яндекса.

трафик будет только от меня к ним и между их сервисами.

VoDD87 ★
(11.09.20 22:45:59 MSK) автор топика

Ответ на: комментарий от VoDD87 11.09.20 22:45:59 MSK

Так там несколько методов, потоковое по-моему не использует бакет.

Да, и чего гадать, когда можно же за два месяца всё протестить за 3000 промо денег, и качество и расходы.

vvn_black ★★★★★
(11.09.20 22:53:35 MSK)
Последнее исправление: vvn_black 11.09.20 22:54:13 MSK (всего исправлений: 1)

Ссылка

Ютуб вроде бесплатно генерит русские субтитры для видео.

kogoth
(11.09.20 23:12:54 MSK)

Vosk можно использовать. Сервер поставить через докер или просто питоновкий пакет через pip.

Модель большая здесь:

https://alphacephei.com/vosk/models/vosk-model-ru-0.10.zip

Для декодирования mp3 ffmpeg.

Пример кода здесь:

https://github.com/alphacep/vosk-server/blob/master/websocket/test_ffmpeg.py

2000 часов обработаются за неделю, если в 10 потоков пускать на современном сервере с 8 ядрами.

welkam ★★
(12.09.20 01:11:21 MSK)

Ссылка

Какие-то очень сложные советы.

https://github.com/agermanidis/autosub

Принимает на вход что угодно, что поддерживается ффмпегом (я вообще WAV скармливал). Можно указывать разные языки, можно даже автоматически переводить распознанное с языка на язык.

На выход даёт SRT или JSON. В первом случае можно регэкспами убрать временные отметки, если они не нужны. Я это делал саблаймом, но можно и sed какой-нибудь заюзать.