LINUX.ORG.RU

Первый выпуск Dragonfire 1.0 — голосового помощника для Linux

 , ,


1

3

После трёх лет разработки состоялся первый стабильный выпуск Dragonfire 1.0 — голосового ассистента для Linux, позволяющего организовать взаимодействие с рабочим столом при помощи голосовых команд. Изначально проект развивался для мотоциклетного шлема дополненной реальности Dargon Armor — полностью открытого проекта на основе плат Raspberry Pi 3, но впоследствии был расширен для применения на обычном Linux-десктопе. Код проекта написан на языке Python и распространяется по лицензии MIT. Доступны клиенты для десктопных дистрибутивов Linux, а также Android.

Для разбора голосовых команд применяется система распознавания речи Mozilla DeepSpeech, построенная на платформе машинного обучения TensorFlow. Для синтеза речи задействован пакет Festival. Интерфейс в форме вопрос/ответ базируется на библиотеке распознавания текста на естественном языке spaCy и данных из Wikipedia. Ответ формируется с применением нейронной сети seq2seq, натренированной по базе диалогов из фильмов. Для работы Dragonfire рекомендуется система с минимум 2 гигабайтами памяти и поддержкой CUDA. Кроме этого выпуск 1.0 может похвастаться следующими изменениями:

  • Исправлены послеустановочные скрипты.
  • Полностью реализован API.
  • Значительно улучшен серверный режим, в котором Dragonfire можно использовать для создания чат-ботовю
  • Базовый анализатор полностью задействует библиотеку spaCy.
  • Обеспечена возможность сохранения данных обучения, исходящих от многих пользователей Android, в базе данных MySQL.
  • В качестве альтернативы добавлена система распознавания речи Gspeech.

>>> Подробности

Ответ на: комментарий от Einstok_Fair

Сабж распознаёт с помощью Mozilla DeepSpeech, при желании можно заменить на какой-то гуглосервис. Mozilla DeepSpeech сейчас не умеет в великий и могучий, но по идее расширение его другими языками не должно быть проблемой. На сколько я понимаю вопрос тут в корпусе для обучения нейросетки, проект Common Voice (Mozilla DeepSpeech, на сколько я понял, использует его корпуса) вроде как собирается создавать и русский корпус

MrClon ★★★★★ ()
Последнее исправление: MrClon (всего исправлений: 1)

Для работы Dragonfire рекомендуется система с минимум 2 гигабайтами памяти и поддержкой CUDA

это вам не голимые проприетарные сири, алисы и т.д.! тут всё серьёзно!

anonymous ()
Ответ на: комментарий от Neresar

Однажды давным-давно, когда я только учился сидеть на горшке и мусолить в беззубом рту пустышку, пришла в голову совершенно крамольная мысль-идея поиграться с поделкой от IBM под названием «Dragon dictate».

Накатил, привязал к Word'у и принялся мычать в мелкофон несуразицу по типу стихов Пушкина.

Мычал-мычал, но так ничего толком и не вымычевал. Не, какие-то слова софтина довольно правильно распознавала. Но насчёт команд было глуховастенько.
Прозреваю, что с просьбами о наложении патча на кеды будет похоже, если не хуже.

rht ★★★★★ ()
Ответ на: комментарий от rht

Русские хакеры делали на базе Dragon dictate свой форк Kombat, древнейшая 16-битная прога, даже что-то понимала. В интернете тогда пиарили другие поделки, но в отличии от Kombat на русском они понимали чуть более, чем ничего. Говорят, можно заставить современный Dragon Naturally Speaking понимать русский после тренировки. Это, конечно, если нужно оффлайн решение, так то есть google speech recognition.

anonymous ()
Ответ на: комментарий от anonymous

Конечно серьезно. Жрет как не в себя. Русский не ферштейн, шутит матами, отвечает довольно быстро. Как собутыльник по большей пьяни сойдет.

anonymous ()
Ответ на: комментарий от anonymous

Возможно. Я пытался играться с русскоязычными модулями, реверсил даже что-то, украинский модуль вроде бы, он шёл в комплекте с другими модулями. Но так и не взлетело.

Про «Комбат» что-то одним ухом слышал.

Я, короче, в то время увлекался теоретизацией распознавания образов и нейросетями, поскольку доступных мануалов не было, но было жутко интересно и ново, а речь шла так, постольку поскольку.

rht ★★★★★ ()
Последнее исправление: rht (всего исправлений: 1)

Tom Clancy’s EndWar из бородатого 2008-го умела в управление голосом. И помнится, даже сносно работала на дохлом ноуте. А тут какие-то базы на гигабайты, CUDA и прочая жуть.

RazrFalcon ★★★★ ()
Ответ на: комментарий от micronekodesu

хотелось бы увидеть пример обучения, когда я говорю «компьютер, давай смотреть поней»

А вот мне не хотелось бы. Мне бы хотелось простую как молоток систему с настройкой на фиксированные команды и обсчёт принципиально на локалхосте.

kirill_rrr ★★★★★ ()

Значительно улучшен серверный режим, в котором Dragonfire можно использовать для создания чат-ботовю

Проверено: Shaman007

anonymous ()
Ответ на: комментарий от kirill_rrr

Простая система это какие-нибудь шелл-скрипты. Разработчики заявляют что систему можно обучать, и при этом в качестве примера предлагают какой-то идиотизм типа «Мне 20 лет и я бородат. А теперь скажи сколько мне лет.» Какой от этого толк на десктопе? Если эта шняга предполагается в качестве чат-бота - зачем ей десктопная реализация вообще?

micronekodesu ()
Ответ на: комментарий от micronekodesu

Школьник Ваня: Оля скажи, я сексуальный? Комп: Ах мой мальчик, ты такой сексуальный! Школьник Ваня: Оля скажи, у меня большой? Комп: Да, у тебя такой большой! Школьник Ваня: Оля скажи, ты хочешь его? Комп: Ох, ох! Да, хочу!!!

anonymous ()
Ответ на: комментарий от micronekodesu

Ну и пусть бы запускала шелл-скрипты по команде. Натренировать не на 10, а на 10К команд, и начнёт и кофе варить, и тапочки приносить. И я не уверен, что после обучения вся эта КУДА и гигабайты так уж нужны.

kirill_rrr ★★★★★ ()
Ответ на: комментарий от kirill_rrr

Так и я хочу увидеть реальное применение - открытие браузера с определенным запросом в поисковой строке (часть голосовой команды) как пример. Запрос «Есть ли у меня новая почта» - запустить скрипт, который подключится к почтарю и проверит «входящие» с вариантами ответа «нет, ничего» или «да, два письма от Васи и одно от Толи». Да банально «сколько будет два плюс два». Я такие примеры хочу видеть, потому что этим я бы пользовался. А не обучением бота на тему того сколько мне лет и что там они еще предлагают. И может я плохо искал, но вот таких реальных кейсов типа «как запустить скрипт» я не увидел.

И я не уверен, что после обучения вся эта КУДА и гигабайты так уж нужны.

Смотря что там внутри происходит. Если брать «классический» вариант когда голос переводится в текст и потом по этому тексту ищется что нужно выполнить то да, это все гораздо легче получается. Но если там нейросети едут через нейросети то оно может жрать ресурсы постоянно,

micronekodesu ()
Ответ на: комментарий от anonymous

Такие фразочки и голосовые движки могут надиктовать. У Acapela русский голос Alyona секси и английские новые интересные есть, слушай и тащись. Без фоновой музыки в NVDA есть триал на 15 дней, можно пускать в виртуалке.

anonymous ()
Ответ на: комментарий от micronekodesu

Так и я хочу увидеть реальное применение - открытие браузера с определенным запросом

так всё это давно есть - Сири называется. ещё и с чувством юмора и подьёбками. и комп для этого ненужон, отлично на телефоне работает. к сожалению, только в онлайн-режиме пока...

wisedraco ★★ ()
Ответ на: комментарий от LoloArctic

зогчем? это же анальный зонд. да ещё и с пистоном. что вообще упадочно. зачем люди ставят себе весь этот шпионский софт? чем им мешает обычный интерфейс компа, который никуда не шлёт никакую личную информацию?

Iron_Bug ★★★ ()
Ответ на: комментарий от wisedraco

Такие штуки задолго до Siri были. А в онлайновом режиме работает не пока, а навсегда. Идеология Apple заключается в том, что пользователи дебилы, которых надо доить.

Quasar ★★★★★ ()
Ответ на: комментарий от kto_tama

убунту открой ох е6@тb (в это время загружается «самая красивая болельщица в РФ») что за ерунда упала на ногу ёпрст что это убунту закрой твою

Нам нужны предсказатели. Всем. Но их нет, иначе бы они уже были здесь.

anonymous ()
Ответ на: комментарий от kirill_rrr

обсчёт принципиально на локалхосте

Voco говорят распознает русский, конечно на винде. Системные требования x64, i5, 4Gb RAM, стоимость 1700-14000руб, зависит от версии. Не сочтите за рекламу, поэтому ссылок не даю, просто случайно наткнулся на руборде. На мой взгляд google speech recognition все равно предпочтительнее и бесплатный.

anonymous ()

Горыныч ПРОФ 3.0

несколько лет назад тестил эту программу. с отзывами о её практической непригодности полностью согласен. Единственное светлое воспоминание - такой эпизод: однажды, когда она была включена, позвонили в дверь. Наша собачка, которая любила находиться около меня, как всегда соскочила и залаяла.. Ну а Горынич, пишет типа: " КТО?? ЧТО?? УХ!! АХ!!" и т.п. ну и позабавились же мы такому переводу с собачьего ))))

anonymous ()
Ответ на: комментарий от Iron_Bug

Я вижу две возможности использования: Первая - это нет ручек. Вторая - это если использовать систему в качестве медиацентра и, например, нет желания вставать с дивана, но хочется поставить видео на паузу.

LoloArctic ()