Canonical представила Myna — локальную систему преобразования речи в текст для Ubuntu Desktop

canonical, gnome, myna, speech recognition, ubuntu

Canonical представила проект Myna — новую систему преобразования речи в текст для Ubuntu Desktop. Проект нацелен на встроенную диктовку: пользователь нажимает горячую клавишу, говорит, а распознанный текст появляется в активном приложении. В анонсе подчёркивается, что Myna должна ощущаться как естественная часть рабочего стола Ubuntu и при этом работать с учётом приватности пользователя. Список поддерживаемых языков ввода на момент публикации новости не оглашён.

Первая цель проекта — Ubuntu 26.10. На этом этапе Canonical не пытается сделать полноценного голосового ассистента или систему управления рабочим столом голосом. Разработчики намеренно ограничили область первой версии базовой, надёжной диктовкой: нажать сочетание клавиш, произнести текст и получить результат в текущем поле ввода. Первичная проверяемая среда — Ubuntu Desktop на Wayland с GNOME, но архитектуру планируют оставить достаточно открытой для будущей поддержки других окружений.

Myna рассчитана на локальное распознавание речи. После установки необходимых моделей интернет-соединение для работы диктовки не требуется, микрофон должен использоваться только после явной активации пользователем, аудио обрабатывается в памяти и затем отбрасывается, а записи не отправляются во внешние сервисы. В проектной спецификации также указано, что решение должно избегать сохранения аудио по умолчанию и не должно незаметно переключаться на облачный сервис.

Код и документация Myna опубликованы в репозитории Canonical на GitHub. Проект описан как лёгкое приложение speech-to-text для Ubuntu Desktop и распространяется под лицензией GPL-3.0. При этом проект находится на ранней стадии: в репозитории пока нет опубликованных релизов, а архитектурная спецификация имеет статус Proposed.

Основные функции и особенности Myna

Push-to-talk диктовка. Пользователь удерживает настраиваемую горячую клавишу, говорит, а система вставляет распознанный текст в выбранное поле ввода. Диктовка завершается после отпускания клавиши.
Локальное распознавание речи. Распознавание выполняется на машине пользователя через локальный inference-стек. Это снижает зависимость от облака и позволяет работать без сети после установки моделей.
Приватная обработка аудио. Микрофон активируется только во время пользовательской сессии диктовки. Аудио не должно записываться на диск по умолчанию, используется ограниченный буфер в памяти, который очищается после завершения сессии.
Визуальный индикатор активности. Во время записи и транскрибации пользователь должен видеть понятный индикатор состояния. В спецификации упоминаются состояния вроде Recording, Transcribing, Finalizing и Error.
Вставка только стабильного текста. В первой реализации промежуточные гипотезы распознавания не должны подставляться прямо в приложение. В целевое поле отправляется только подтверждённый итоговый текст.
Постобработка текста. Сырая расшифровка может проходить нормализацию, расстановку пунктуации, капитализацию, форматирование и преобразование устных форм в письменные, например “twenty two” → “22”.
Выбор языка диктовки. Система должна поддерживать настраиваемый язык диктовки, по умолчанию ориентируясь на язык интерфейса пользователя, если для него доступна подходящая модель.
Профили качества модели. В спецификации предусмотрены разные профили моделей: лёгкий вариант с меньшим потреблением ресурсов, сбалансированный профиль по умолчанию и более качественный, но более тяжёлый вариант.
Безопасная работа с фокусом ввода. Цель для вставки текста выбирается в начале сессии. Если фокус окна меняется во время диктовки, система не должна молча отправлять текст в другое приложение.
Блокировка в защищённых полях. Диктовка должна блокироваться в password-полях, окнах аутентификации и других защищённых местах, если приложение или тулкит позволяют это определить.
Интеграция с Wayland/GNOME. Первая версия ориентирована на Wayland и GNOME. Для начальной вставки текста рассматривается IBus, а в будущем планируется более нативный Wayland-путь через input-method/text-input протоколы.
Настройки пользователя. В планируемом интерфейсе настроек должны быть включение/отключение STT, выбор горячей клавиши, языка диктовки, микрофона, профиля модели, параметров постобработки и индикатора активности.

В первой итерации за рамками проекта остаются пробуждение по ключевой фразе, постоянное фоновое прослушивание, облачное распознавание, голосовой ассистент, голосовые команды, управление рабочим столом, перевод речи, определение говорящего, автоматическое определение языка и история диктовок. Иными словами, Canonical начинает не с “AI-ассистента”, а с более приземлённой функции: локального голосового ввода текста в обычные приложения Ubuntu.

>>> Источник

Ссылка

← Qt Creator 20

Выпуск Альт Рабочая станция К 11.4 →

В первой итерации за рамками проекта остаются пробуждение по ключевой фразе, постоянное фоновое прослушивание, облачное распознавание, голосовой ассистент, голосовые команды, управление рабочим столом, перевод речи, определение говорящего, автоматическое определение языка и история диктовок.

Звучит как абсолютно бесполезная хрень.

Код и документация Myna опубликованы в репозитории Canonical на GitHub.

Там ничего, кроме Ридми и лицензии нет.

MoldAndLimeHoney ★★★
(18.06.26 06:21:14 MSK)
Последнее исправление: MoldAndLimeHoney 18.06.26 06:22:24 MSK (всего исправлений: 1)

Canonical™ Mynock®.

token_polyak ★★★★★
(18.06.26 06:25:35 MSK)

Ссылка

Замечательно.

Нужно.

Очень.

Особенно людям с ограничениями. А вот о них думают меньше всего. Ведь они не радужные. Убирают, ломают, портят всё что связано с работой для них. За Орку вообще стыдно. А речевой ввод появлялся, но потом резко всё сломали. Практически пятнадцать лет понадобилось, чтобы вернуть поддержку.

PcheloBiaka ★
(18.06.26 06:27:18 MSK)

лёгкое приложение speech-to-text
вес модели 0.6B, 1.7B параметров

Кекъ. Масштаб моделей в сравнении:

0.6B (600 миллионов параметров) — это «легкая», но очень быстрая модель, созданная для эффективной работы. Её 4-битная версия занимает всего ~680 МБ памяти.
1.7B (1.7 миллиарда параметров) — это «флагманская» модель, которая делает упор на максимальную точность, но при этом остается достаточно компактной. В 4-битном формате она весит ~2.1 ГБ.

Начинание конечно хорошее, но только вот:

судя по размерам моделей, они взяли какую-то уже «готовую» универсальную США-нскую ЫЫ
ни-Canonical даст возможность переключиться на не-мерканскую модель
даже 0.6В для локального распознавания — много, должна быть мо-дуль-ность!

hargard ★★★
(18.06.26 08:27:25 MSK)
Последнее исправление: hargard 18.06.26 08:29:29 MSK (всего исправлений: 2)

Ссылка

Список поддерживаемых языков ввода, на момент публикации новости, не оглашён.

«Остальные 99 причин можете не перечислять».

hobbit ★★★★★
(18.06.26 09:39:09 MSK)

о, мунспик в линуксы завезли 🤡

etwrq ★★★★★
(18.06.26 14:33:25 MSK)

Ссылка

Пожалуйста, не забывайте тег ИИ, я не хочу читать про всякую муйню.

bread ☆
(18.06.26 14:42:55 MSK)

Ссылка

Можно ли будет наоборот текст в речь переводить?

cetjs2 ★★★★★
(18.06.26 20:47:05 MSK)

Ответ на: комментарий от cetjs2 18.06.26 20:47:05 MSK

я пытался найти ответ, но тщетно, судя по всему пока нет

unclestephen ★★★★★
(18.06.26 21:25:06 MSK) автор топика

Ответ на: комментарий от unclestephen 18.06.26 21:25:06 MSK

Смешно. Ещё на БК-0010 была система «Говорун» :) А вот книгу, записанную в mp3 так и не сумел перевести в текст :(

moskvich
(18.06.26 21:31:05 MSK)

Ссылка

работать с учётом приватности пользователя

Это та самая Canonical, что тайком включила слив всех поисковых запросов всех пользователей в Амазон по-умолчанию, глубочайше насрав на приватность бесплатных тестеров. Верю, чё - уж в этот-то раз точно не обманут, ага :-D

zabbal ★★★☆☆
(18.06.26 21:46:50 MSK)

Ссылка

Код и документация Myna опубликованы в репозитории Canonical на GitHub.

4.2

BruteForce ★★★★
(18.06.26 22:44:22 MSK)

Ссылка

Myna
пробуждение по ключевой фразе, постоянное фоновое прослушивание, облачное распознавание, голосовой ассистент, голосовые команды, управление рабочим столом, перевод речи, определение говорящего, автоматическое определение языка и история диктовок

Прочёл сначала как «Мупа». Эй, Пупа, Лупа, принимайте пополнение! Такого вам кадра нарисовали…искусственный, лёгкий, ЫЫшный, революционер!

DzenPython ★
(18.06.26 23:44:27 MSK)

Ссылка

TLDR «речь в текст» это подразумевает «речь в действие»?

Loki13 ★★★★★
(19.06.26 00:44:02 MSK)

Ссылка

недавно установил подобную систему на работе для винды. работает через гугл. писать текст в документах и почте стало гораздо удобнее. теперь все сидят и разговаривают с ноутбуками ))
для линя подобную систему только приветствую..

vaka ★
(19.06.26 02:02:00 MSK)

То есть вас слушала алиса, вас слушал андроид, вас слушал айфон, теперь вас слушать будет убунта.. Замечательно. Но новые фичи это хорошо. Правда эта фича реализуется в 10 строк кода, я сам делал такую для команд в вовке. Томозное правда получается, ну нельзя там ждать целую секунду.

LightDiver ★★★★★
(19.06.26 02:07:56 MSK)

Ответ на: комментарий от PcheloBiaka 18.06.26 06:27:18 MSK

Особенно людям с ограничениями. А вот о них думают меньше всего

Надиктовщик людям с ограничениями не помогает. И людям без ограничений тоже. Единственный плюс от этой хрени - дикцию воспитывает)))

~~windows10~~ ★★★★★
(19.06.26 04:56:02 MSK)

Ссылка

Ответ на: комментарий от vaka 19.06.26 02:02:00 MSK

Наберете отчет на миллион рублей и отправите вслепую в налоговую? ;)

~~windows10~~ ★★★★★
(19.06.26 04:57:30 MSK)

Ссылка

Ответ на: комментарий от LightDiver 19.06.26 02:07:56 MSK

А вы оптимизатор. У меня на пистоне целых 40 заняло с onnx моделями.

Совершенно бесполезная хрень, которую чаще настраиваешь, чем используешь)

~~windows10~~ ★★★★★
(19.06.26 04:58:53 MSK)

Ссылка

Вот как чутьё подсказывало - не связывайся с канониклом. Сколько раз за всё время пользования линухом пытался поставить различные *бубунты в качестве основной домашней - ни разу больше месяца не мог их вытерпеть. А теперь тудой ещё и прослушивающую «мину» впиндюривают...

drfaust ★★★★★
(19.06.26 06:29:01 MSK)

Ссылка

Ответ на: комментарий от LightDiver 19.06.26 02:07:56 MSK

теперь вас слушать будет убунта

Оно же не по дефолту будет. Хотя… Если встроят в системд, я не удивлюсь. Но так-то и пусть слушают, жалко что ли. Что от вас услышишь то важного?

bread ☆
(19.06.26 08:28:13 MSK)

Ссылка

Внутри whisper, или что-то другое?

MrClon ★★★★★
(19.06.26 10:52:18 MSK)

Ссылка

Ответ на: комментарий от MoldAndLimeHoney 18.06.26 06:21:14 MSK

Там ничего, кроме Ридми и лицензии нет.

… и каталога docs/architecture

Наверное так:

Некоторые программы можно скачать в виде бинарика.

Другие - в виде исходников, из которых можно собрать бинарник.

Canonical пошли дальше: скачиваешь описание ахитектуры, из которой LLM’ка генерит исходник, из которого собираешь бинаринк.

Kroz ★★★★★
(19.06.26 12:09:08 MSK)

Ну, Мупа, так Мупа. Пусть будет.

tiinn ★★★★★
(19.06.26 12:25:58 MSK)

Ссылка

Ответ на: комментарий от Kroz 19.06.26 12:09:08 MSK

описание ахитектуры, из которой LLM’ка генерит исходник, из которого собираешь бинаринк.

Идея-то хорошая - уверен, за этим будущее. Ставишь температуру LLM в 0 - получаешь детерминированный выхлоп. Исходник получается максимально компактный и челочекочитаемый - просто набор .md файлов. Компилятор, правда, весит десятки гигабайт, так что возможно придётся пару порнокиношек удалить, но удобство работы того стоит ;)

zabbal ★★★☆☆
(19.06.26 12:30:28 MSK)

Ну теперь - то уж точно гну\линукс на ПК взлетит! Как без этого раньше жили, а как теперь заживем!

oOoOo
(19.06.26 12:46:59 MSK)

Ссылка

Ответ на: комментарий от PcheloBiaka 18.06.26 06:27:18 MSK

Особенно людям с ограничениями

А почему это должно решаться на уровне ОС? К примеру: проблемы со зрением? Очки\экран\лупа. Проблемы со слухом? Слух.аппарат… И.т.д. Зачем это решать на уровне ОС? Хорошо, Ubuntu это ОС + DE. Тогда зачем это решать на уровне DE? Хорошо, пускай будет DE для таких случаев, зачем это делать из DE для людей неограниченных? Не понимаю…

oOoOo
(19.06.26 12:55:38 MSK)

Ссылка

Сразу вспоминается древний анекдот. На презентации голосового управления подкрадывается человек и быстро говорит:

формат ц
йес

Psilocybe ★★★★★
(19.06.26 13:06:49 MSK)

Ссылка

Ответ на: комментарий от Kroz 19.06.26 12:09:08 MSK

Я кажется уже придумал концепт оси, где софта вообще не будет и ридми не будет - только файлы с именами ИИ, у которых нужно будет запросить нужный софт.

LightDiver ★★★★★
(19.06.26 13:12:30 MSK)

Ответ на: комментарий от LightDiver 19.06.26 13:12:30 MSK

Смотрите дальше. Софт не нужен.

Достаточно одного универсального приложения — облачного клиента. Автостартуемого на весь экран с единственной кнопкой в поле для ввода запроса. Нечто вроде враппера над «браузером», «плеером», «игрорями», другим софтом, на самом деле крутящимися на облачных серверах и текстом/потоком транслируемых на локальное устройство.

А уже в зависимости от запроса, оно само определяет и на какой облачный сервис перенаправить и какую неронку пользовать.

hargard ★★★
(19.06.26 13:44:09 MSK)

Ссылка

Ответ на: комментарий от LightDiver 19.06.26 13:12:30 MSK

Я кажется уже придумал концепт оси, где софта вообще не будет и ридми не будет - только файлы с именами ИИ, у которых нужно будет запросить нужный софт.

Вот ещё идея: есть файлы с описанием, они скармливаются ИИ, которая генерит сигнал через нейролинк прямо в мозг, и у юзера возникает ощущение что всё работает как надо.

::)))

Kroz ★★★★★
(19.06.26 14:48:21 MSK)

Ответ на: комментарий от LightDiver 19.06.26 13:12:30 MSK

ты опоздал. Я на ютубе уже видел. ИИ ОС какая-то. Человек запрашивает «Пэйнт в стиле 98 винды» и появляется программа. Не запомнил названия, дал бы ссылку. Ни строки кода человек не пишет, это чисто имитация ИИ.

PcheloBiaka ★
(19.06.26 14:54:58 MSK)

Ссылка

Ответ на: комментарий от hobbit 18.06.26 09:39:09 MSK

Statement: если эту систему преобразования не сделали с нуля, а украли из модуля протокольного дроида, то перечисление шести миллионов форм коммуникаций не поместится в форумный топик.

apt_install_lrzsz ★★★★
(19.06.26 14:57:25 MSK)

Ссылка

Ответ на: комментарий от Kroz 19.06.26 14:48:21 MSK

и у юзера возникает ощущение что всё работает как надо

В студенчестве у меня некоторые сокурскники баловались такими средствами. Вечно им казалось то, чего нет. До добра такое не доводит.

LightDiver ★★★★★
(19.06.26 14:59:08 MSK)

Ссылка

Ответ на: комментарий от zabbal 19.06.26 12:30:28 MSK

Идея-то хорошая - уверен, за этим будущее.

УМВР выйдет на качественно новый уровень!

MoldAndLimeHoney ★★★
(19.06.26 15:00:06 MSK)

Ответ на: комментарий от MoldAndLimeHoney 19.06.26 15:00:06 MSK

Да ладно, мы с undefined behavior в С десятилетиями живём - нас мелочами не испугать ;)

zabbal ★★★☆☆
(19.06.26 15:53:24 MSK)

Ссылка

очень хорошо, давно хотел попробовать в таком виде:

на созвонах (митингах) снимать звук, перекодировать его в текст и в фоном режиме искать этот текст в mindmap.

gagarin0 ★
(19.06.26 16:05:58 MSK)

Ссылка

На этом этапе Canonical не пытается сделать полноценного голосового ассистента или систему управления рабочим столом голосом.

А следовало бы! Только за основу надо было брать кастомный консольнй шелл, специально заточенный под голосовые команды и собственный набор инструментов. Это можно было бы делать и в до-ИИ эру, просто предоставив пользователям самим создавать команды и скрипты и набирая базу удачных решений.

Интерсно, как бы выглядел файлменеджер под голосовое управление?...

З.Ы. Очень интересно как они собираются подобное интегрировать в экосистему вайланд-хаоса со всеми этими противотанковыми рвами и минными полями.

kirill_rrr ★★★★★
(19.06.26 21:23:17 MSK)
Последнее исправление: kirill_rrr 19.06.26 21:26:37 MSK (всего исправлений: 1)

Ответ на: комментарий от kirill_rrr 19.06.26 21:23:17 MSK

Интересно, как бы выглядел файлменеджер под голосовое управление?…

- "Сравни два каталога: Важные Документы и Важные Документы бекап"
- Принята команда: "Снеси два каталога: Важные Документы и Важные Документы бекап" - y/n/t

Kroz ★★★★★
(20.06.26 11:09:21 MSK)