LINUX.ORG.RU

Голосовой ввод через vosk, оказывается, существует и даже работает

 , , , vosk,


0

1

Попробовал метод ввода для vosk, и он даже заработал. Иногда, правда, уходит в OOM, т.к. python3 занимает всю память.

Код здесь: https://github.com/PhilippeRo/IBus-Speech-To-Text и здесь: https://github.com/PhilippeRo/gst-VOSK/

Там выложены .rpm, я их тупо перегнал в .deb с помощью alien –to-deb (в деб сходу у меня не собралось, тут я нуб).

Ещё существует вариант с добавленным RNNoise: https://github.com/PhilippeRo/gst-vosk и https://github.com/Manish7093/IBus-Speech-To-Text но его пока не пробовал.

Не нашёл там возможности переключать языки голосового ввода. Но хотя бы на одном уже можно диктовать!

Кто бы всё это допилил и завернул ещё, цены бы ему не было!



Последнее исправление: dataman (всего исправлений: 1)
Ответ на: комментарий от ggrn

Поделиться с обчеством. Подумал, что многим может быть полезно. Кроме того, кто-то может подхватить проект. Когда-то мне понадобился голосовой ввод и я обнаружил, что для линукса навалом проектов в командной строке (обёрток вокруг vosk/whisper/etc), но вообще ничего для GUI. Чтобы можно было открыть какой-нибудь Libreoffice Writer и просто диктовать текст.

gregg128
() автор топика
Ответ на: комментарий от gregg128

Такого рода проекты - дело не благодарное, иксы вейланд, странные вмы и прочие глюки, наверно подход через ibus неплох или какую-то виртуальную клавиатуру подключать. Но есть еще проблема с разными языками и переключением раскладок. В общем все равно это все в линуксе костыльно и у всех работать не будет, поэтому каждый пилит себе такую штуку под собственную систему. У меня где-то был скрипт, который из воска через xdotool или что-то там подобное для вейланда мог печатать текст, но менять раскладку оно не умело и мне лень в этом разбираться.

Вот если бы на уровне DE запилили КДЕ или Гномы - было бы возможно и удобно. В Гноме например есть экранная клавиатура, может посмотреть как они сделали «по нормальному», но от проблемы ввода на разных языках все равно не уйти.

masa ★★★
()
Последнее исправление: masa (всего исправлений: 1)
Ответ на: комментарий от rtxtxtrx

Мне нужен ввод в GUI в линуксе, причём без костылей. Разных решений в духе «чешу правой рукой левое ухо» довольно много, но меня интересовало именно полноценное опен-сорс оффлайн-распознавание в линукс, работающее в xfce/gnome.

gregg128
() автор топика
Ответ на: комментарий от masa

Мне такого варианта с воск вполне хватает. Вот этот комментарий наговариваю голосом. Приходится немного редактировать, конечно. Ещё бы аппаратное ускорение добавить. Вроде бы, есть в sherpa-nncn, но я пока не разобрался.

gregg128
() автор топика
Ответ на: комментарий от gregg128

Такое может понадобиться разве что инвалидам. Здоровый человек на обычной клавиатуре печатает намного быстрее, чем говорит. Проверено многократно.

Пытался пользоваться голосовым вводом на телефонах, где клавиатура неполноценная. Даже там неудобно. В основном, потому что несколько ошибок всё равно сделает, а в интерфейсе телефона исправлять ошибки долго и неудобно.

Chiffchaff
()