LINUX.ORG.RU

Canonical представила Myna — локальную систему преобразования речи в текст для Ubuntu Desktop

 , , myna, ,

Canonical представила Myna — локальную систему преобразования речи в текст для Ubuntu Desktop

0

1

Canonical представила проект Myna — новую систему преобразования речи в текст для Ubuntu Desktop. Проект нацелен на встроенную диктовку: пользователь нажимает горячую клавишу, говорит, а распознанный текст появляется в активном приложении. В анонсе подчёркивается, что Myna должна ощущаться как естественная часть рабочего стола Ubuntu и при этом работать с учётом приватности пользователя. Список поддерживаемых языков ввода на момент публикации новости не оглашён.

Первая цель проекта — Ubuntu 26.10. На этом этапе Canonical не пытается сделать полноценного голосового ассистента или систему управления рабочим столом голосом. Разработчики намеренно ограничили область первой версии базовой, надёжной диктовкой: нажать сочетание клавиш, произнести текст и получить результат в текущем поле ввода. Первичная проверяемая среда — Ubuntu Desktop на Wayland с GNOME, но архитектуру планируют оставить достаточно открытой для будущей поддержки других окружений.

Myna рассчитана на локальное распознавание речи. После установки необходимых моделей интернет-соединение для работы диктовки не требуется, микрофон должен использоваться только после явной активации пользователем, аудио обрабатывается в памяти и затем отбрасывается, а записи не отправляются во внешние сервисы. В проектной спецификации также указано, что решение должно избегать сохранения аудио по умолчанию и не должно незаметно переключаться на облачный сервис.

Код и документация Myna опубликованы в репозитории Canonical на GitHub. Проект описан как лёгкое приложение speech-to-text для Ubuntu Desktop и распространяется под лицензией GPL-3.0. При этом проект находится на ранней стадии: в репозитории пока нет опубликованных релизов, а архитектурная спецификация имеет статус Proposed.

Основные функции и особенности Myna

  • Push-to-talk диктовка. Пользователь удерживает настраиваемую горячую клавишу, говорит, а система вставляет распознанный текст в выбранное поле ввода. Диктовка завершается после отпускания клавиши.

  • Локальное распознавание речи. Распознавание выполняется на машине пользователя через локальный inference-стек. Это снижает зависимость от облака и позволяет работать без сети после установки моделей.

  • Приватная обработка аудио. Микрофон активируется только во время пользовательской сессии диктовки. Аудио не должно записываться на диск по умолчанию, используется ограниченный буфер в памяти, который очищается после завершения сессии.

  • Визуальный индикатор активности. Во время записи и транскрибации пользователь должен видеть понятный индикатор состояния. В спецификации упоминаются состояния вроде Recording, Transcribing, Finalizing и Error.

  • Вставка только стабильного текста. В первой реализации промежуточные гипотезы распознавания не должны подставляться прямо в приложение. В целевое поле отправляется только подтверждённый итоговый текст.

  • Постобработка текста. Сырая расшифровка может проходить нормализацию, расстановку пунктуации, капитализацию, форматирование и преобразование устных форм в письменные, например “twenty two” → “22”.

  • Выбор языка диктовки. Система должна поддерживать настраиваемый язык диктовки, по умолчанию ориентируясь на язык интерфейса пользователя, если для него доступна подходящая модель.

  • Профили качества модели. В спецификации предусмотрены разные профили моделей: лёгкий вариант с меньшим потреблением ресурсов, сбалансированный профиль по умолчанию и более качественный, но более тяжёлый вариант.

  • Безопасная работа с фокусом ввода. Цель для вставки текста выбирается в начале сессии. Если фокус окна меняется во время диктовки, система не должна молча отправлять текст в другое приложение.

  • Блокировка в защищённых полях. Диктовка должна блокироваться в password-полях, окнах аутентификации и других защищённых местах, если приложение или тулкит позволяют это определить.

  • Интеграция с Wayland/GNOME. Первая версия ориентирована на Wayland и GNOME. Для начальной вставки текста рассматривается IBus, а в будущем планируется более нативный Wayland-путь через input-method/text-input протоколы.

  • Настройки пользователя. В планируемом интерфейсе настроек должны быть включение/отключение STT, выбор горячей клавиши, языка диктовки, микрофона, профиля модели, параметров постобработки и индикатора активности.

В первой итерации за рамками проекта остаются пробуждение по ключевой фразе, постоянное фоновое прослушивание, облачное распознавание, голосовой ассистент, голосовые команды, управление рабочим столом, перевод речи, определение говорящего, автоматическое определение языка и история диктовок. Иными словами, Canonical начинает не с “AI-ассистента”, а с более приземлённой функции: локального голосового ввода текста в обычные приложения Ubuntu.

>>> Источник

★★★★★

Проверено: cetjs2 ()
Последнее исправление: cetjs2 (всего исправлений: 4)

В первой итерации за рамками проекта остаются пробуждение по ключевой фразе, постоянное фоновое прослушивание, облачное распознавание, голосовой ассистент, голосовые команды, управление рабочим столом, перевод речи, определение говорящего, автоматическое определение языка и история диктовок.

Звучит как абсолютно бесполезная хрень.

Код и документация Myna опубликованы в репозитории Canonical на GitHub.

Там ничего, кроме Ридми и лицензии нет.

MoldAndLimeHoney ★★★
()
Последнее исправление: MoldAndLimeHoney (всего исправлений: 1)

Замечательно.

Нужно.

Очень.

Особенно людям с ограничениями. А вот о них думают меньше всего. Ведь они не радужные. Убирают, ломают, портят всё что связано с работой для них. За Орку вообще стыдно. А речевой ввод появлялся, но потом резко всё сломали. Практически пятнадцать лет понадобилось, чтобы вернуть поддержку.

PcheloBiaka
()

лёгкое приложение speech-to-text
вес модели 0.6B, 1.7B параметров

Кекъ. Масштаб моделей в сравнении:

  • 0.6B (600 миллионов параметров) — это «легкая», но очень быстрая модель, созданная для эффективной работы. Её 4-битная версия занимает всего ~680 МБ памяти.
  • 1.7B (1.7 миллиарда параметров) — это «флагманская» модель, которая делает упор на максимальную точность, но при этом остается достаточно компактной. В 4-битном формате она весит ~2.1 ГБ.

Начинание конечно хорошее, но только вот:

  1. судя по размерам моделей, они взяли какую-то уже «готовую» универсальную США-нскую ЫЫ
  2. ни-Canonical даст возможность переключиться на не-мерканскую модель
  3. даже 0.6В для локального распознавания — много, должна быть мо-дуль-ность!
hargard ★★★
()
Последнее исправление: hargard (всего исправлений: 2)

Список поддерживаемых языков ввода, на момент публикации новости, не оглашён.

«Остальные 99 причин можете не перечислять».

hobbit ★★★★★
()

о, мунспик в линуксы завезли 🤡

etwrq ★★★★★
()

Пожалуйста, не забывайте тег ИИ, я не хочу читать про всякую муйню.

bread
()
Ответ на: комментарий от unclestephen

Смешно. Ещё на БК-0010 была система «Говорун» :) А вот книгу, записанную в mp3 так и не сумел перевести в текст :(

moskvich
()

работать с учётом приватности пользователя

Это та самая Canonical, что тайком включила слив всех поисковых запросов всех пользователей в Амазон по-умолчанию, глубочайше насрав на приватность бесплатных тестеров. Верю, чё - уж в этот-то раз точно не обманут, ага :-D

zabbal ★★★★☆
()

Код и документация Myna опубликованы в репозитории Canonical на GitHub.

4.2

BruteForce ★★★★
()

Myna
пробуждение по ключевой фразе, постоянное фоновое прослушивание, облачное распознавание, голосовой ассистент, голосовые команды, управление рабочим столом, перевод речи, определение говорящего, автоматическое определение языка и история диктовок

Прочёл сначала как «Мупа». Эй, Пупа, Лупа, принимайте пополнение! Такого вам кадра нарисовали…искусственный, лёгкий, ЫЫшный, революционер!

DzenPython
()

TLDR «речь в текст» это подразумевает «речь в действие»?

Loki13 ★★★★★
()

недавно установил подобную систему на работе для винды. работает через гугл. писать текст в документах и почте стало гораздо удобнее. теперь все сидят и разговаривают с ноутбуками ))
для линя подобную систему только приветствую..

vaka
()

То есть вас слушала алиса, вас слушал андроид, вас слушал айфон, теперь вас слушать будет убунта.. Замечательно. Но новые фичи это хорошо. Правда эта фича реализуется в 10 строк кода, я сам делал такую для команд в вовке. Томозное правда получается, ну нельзя там ждать целую секунду.

LightDiver ★★★★★
()
Ответ на: комментарий от PcheloBiaka

Особенно людям с ограничениями. А вот о них думают меньше всего

Надиктовщик людям с ограничениями не помогает. И людям без ограничений тоже. Единственный плюс от этой хрени - дикцию воспитывает)))

windows10 ★★★★★
()
Ответ на: комментарий от vaka

Наберете отчет на миллион рублей и отправите вслепую в налоговую? ;)

windows10 ★★★★★
()
Ответ на: комментарий от LightDiver

А вы оптимизатор. У меня на пистоне целых 40 заняло с onnx моделями.

Совершенно бесполезная хрень, которую чаще настраиваешь, чем используешь)

windows10 ★★★★★
()

Вот как чутьё подсказывало - не связывайся с канониклом. Сколько раз за всё время пользования линухом пытался поставить различные *бубунты в качестве основной домашней - ни разу больше месяца не мог их вытерпеть. А теперь тудой ещё и прослушивающую «мину» впиндюривают...

drfaust ★★★★★
()
Ответ на: комментарий от LightDiver

теперь вас слушать будет убунта

Оно же не по дефолту будет. Хотя… Если встроят в системд, я не удивлюсь. Но так-то и пусть слушают, жалко что ли. Что от вас услышишь то важного?

bread
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.