Первый выпуск Dragonfire 1.0 — голосового помощника для Linux

dragonfire, голосовой ввод, распознавание речи

После трёх лет разработки состоялся первый стабильный выпуск Dragonfire 1.0 — голосового ассистента для Linux, позволяющего организовать взаимодействие с рабочим столом при помощи голосовых команд. Изначально проект развивался для мотоциклетного шлема дополненной реальности Dargon Armor — полностью открытого проекта на основе плат Raspberry Pi 3, но впоследствии был расширен для применения на обычном Linux-десктопе. Код проекта написан на языке Python и распространяется по лицензии MIT. Доступны клиенты для десктопных дистрибутивов Linux, а также Android.

Для разбора голосовых команд применяется система распознавания речи Mozilla DeepSpeech, построенная на платформе машинного обучения TensorFlow. Для синтеза речи задействован пакет Festival. Интерфейс в форме вопрос/ответ базируется на библиотеке распознавания текста на естественном языке spaCy и данных из Wikipedia. Ответ формируется с применением нейронной сети seq2seq, натренированной по базе диалогов из фильмов. Для работы Dragonfire рекомендуется система с минимум 2 гигабайтами памяти и поддержкой CUDA. Кроме этого выпуск 1.0 может похвастаться следующими изменениями:

Исправлены послеустановочные скрипты.
Полностью реализован API.
Значительно улучшен серверный режим, в котором Dragonfire можно использовать для создания чат-ботовю
Базовый анализатор полностью задействует библиотеку spaCy.
Обеспечена возможность сохранения данных обучения, исходящих от многих пользователей Android, в базе данных MySQL.
В качестве альтернативы добавлена система распознавания речи Gspeech.

>>> Подробности

Ссылка

← SysVinit 2.90

Первый выпуск Android-x86 8.1 «Oreo» →

← 1 2 3 →

Ответ на: комментарий от Einstok_Fair 20.06.18 09:15:03 MSK

Сабж распознаёт с помощью Mozilla DeepSpeech, при желании можно заменить на какой-то гуглосервис. Mozilla DeepSpeech сейчас не умеет в великий и могучий, но по идее расширение его другими языками не должно быть проблемой. На сколько я понимаю вопрос тут в корпусе для обучения нейросетки, проект Common Voice (Mozilla DeepSpeech, на сколько я понял, использует его корпуса) вроде как собирается создавать и русский корпус

MrClon ★★★★★
(20.06.18 14:41:09 MSK)
Последнее исправление: MrClon 20.06.18 14:42:16 MSK (всего исправлений: 1)

Ссылка

Для работы Dragonfire рекомендуется система с минимум 2 гигабайтами памяти и поддержкой CUDA

это вам не голимые проприетарные сири, алисы и т.д.! тут всё серьёзно!

anonymous
(20.06.18 14:44:58 MSK)

Ответ на: комментарий от Einstok_Fair 20.06.18 09:15:03 MSK

Угу. Русский матерный со словарём.

Deleted
(20.06.18 15:34:00 MSK)

Ссылка

Ответ на: комментарий от Neresar 20.06.18 08:56:40 MSK

Однажды давным-давно, когда я только учился сидеть на горшке и мусолить в беззубом рту пустышку, пришла в голову совершенно крамольная мысль-идея поиграться с поделкой от IBM под названием «Dragon dictate».

Накатил, привязал к Word'у и принялся мычать в мелкофон несуразицу по типу стихов Пушкина.

Мычал-мычал, но так ничего толком и не вымычевал. Не, какие-то слова софтина довольно правильно распознавала. Но насчёт команд было глуховастенько.
Прозреваю, что с просьбами о наложении патча на кеды будет похоже, если не хуже.

Deleted
(20.06.18 15:47:28 MSK)

Отлично, теперь придётся держать микрофон влючённым и сливать уже обработанную звуковую информацию.

~~Napilnik~~ ★★★★★
(20.06.18 15:54:19 MSK)

Ссылка

Ответ на: комментарий от Deleted 20.06.18 15:47:28 MSK

Русские хакеры делали на базе Dragon dictate свой форк Kombat, древнейшая 16-битная прога, даже что-то понимала. В интернете тогда пиарили другие поделки, но в отличии от Kombat на русском они понимали чуть более, чем ничего. Говорят, можно заставить современный Dragon Naturally Speaking понимать русский после тренировки. Это, конечно, если нужно оффлайн решение, так то есть google speech recognition.

anonymous
(20.06.18 15:58:19 MSK)

Хочется прекратить нажимать на клавиши, давать команды голосом, а еще лучше мысленно

kto_tama ★★★★★
(20.06.18 16:04:16 MSK)

Ответ на: комментарий от anonymous 20.06.18 15:58:19 MSK

другие поделки

Горыныч и Диктограф назывались, по моему вообще лохотрон.
Kombat я давно уже залил на софтохостинг http://soft.sibnet.ru/soft/6508-kombat/ а то бы совсем сгинула прога в аналах истории.

anonymous
(20.06.18 16:11:27 MSK)

натренированной по базе диалогов из фильмов

«Кровь и бетон» использован?

spec_po_kiskam ★★★
(20.06.18 16:11:37 MSK)

Ссылка

Закрытый шлем с 4 RPi внутри — это мобильная сауна.

Singularity ★★★★★
(20.06.18 16:17:45 MSK)

Ссылка

под виндой выключил эту картавую, а под линухом вообще понятия не имею нафик он нужен.

bernd ★★★★★
(20.06.18 16:30:29 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.06.18 14:15:02 MSK

Может объединиться и сделать

Насмешил..

anonymous
(20.06.18 17:02:33 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.06.18 14:44:58 MSK

Конечно серьезно. Жрет как не в себя. Русский не ферштейн, шутит матами, отвечает довольно быстро. Как собутыльник по большей пьяни сойдет.

anonymous
(20.06.18 17:21:34 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.06.18 15:58:19 MSK

Возможно. Я пытался играться с русскоязычными модулями, реверсил даже что-то, украинский модуль вроде бы, он шёл в комплекте с другими модулями. Но так и не взлетело.

Про «Комбат» что-то одним ухом слышал.

Я, короче, в то время увлекался теоретизацией распознавания образов и нейросетями, поскольку доступных мануалов не было, но было жутко интересно и ново, а речь шла так, постольку поскольку.

Deleted
(20.06.18 17:25:15 MSK)
Последнее исправление: rht 20.06.18 17:26:15 MSK (всего исправлений: 1)

Ссылка

Tom Clancy’s EndWar из бородатого 2008-го умела в управление голосом. И помнится, даже сносно работала на дохлом ноуте. А тут какие-то базы на гигабайты, CUDA и прочая жуть.

~~RazrFalcon~~ ★★★★★
(20.06.18 17:52:28 MSK)

Ссылка

Надеюсь, на Qt?

anonymous
(20.06.18 18:18:14 MSK)

Ответ на: комментарий от anonymous 20.06.18 18:18:14 MSK

На пистоне.

anonymous
(20.06.18 18:20:13 MSK)

Ответ на: комментарий от anonymous 20.06.18 18:20:13 MSK

PyQt?

anonymous
(20.06.18 20:11:13 MSK)

Ссылка

Ответ на: комментарий от Deleted 20.06.18 15:47:28 MSK

сидя на горшке, мусоля пустышку в беззубом рту<_<, мне любопытно: чем ты занимался у мамочки в животике)?

anonymous
(20.06.18 20:17:54 MSK)

Ответ на: комментарий от micronekodesu 20.06.18 09:17:10 MSK

хотелось бы увидеть пример обучения, когда я говорю «компьютер, давай смотреть поней»

А вот мне не хотелось бы. Мне бы хотелось простую как молоток систему с настройкой на фиксированные команды и обсчёт принципиально на локалхосте.

kirill_rrr ★★★★★
(20.06.18 20:19:26 MSK)

Значительно улучшен серверный режим, в котором Dragonfire можно использовать для создания чат-ботовю

Проверено: Shaman007

anonymous
(20.06.18 20:21:35 MSK)

Ссылка

Ответ на: комментарий от kirill_rrr 20.06.18 20:19:26 MSK

Простая система это какие-нибудь шелл-скрипты. Разработчики заявляют что систему можно обучать, и при этом в качестве примера предлагают какой-то идиотизм типа «Мне 20 лет и я бородат. А теперь скажи сколько мне лет.» Какой от этого толк на десктопе? Если эта шняга предполагается в качестве чат-бота - зачем ей десктопная реализация вообще?

micronekodesu ★★★
(20.06.18 20:23:39 MSK)

Ответ на: комментарий от micronekodesu 20.06.18 20:23:39 MSK

Школьник Ваня: Оля скажи, я сексуальный? Комп: Ах мой мальчик, ты такой сексуальный! Школьник Ваня: Оля скажи, у меня большой? Комп: Да, у тебя такой большой! Школьник Ваня: Оля скажи, ты хочешь его? Комп: Ох, ох! Да, хочу!!!

anonymous
(20.06.18 20:33:25 MSK)

Ответ на: комментарий от micronekodesu 20.06.18 20:23:39 MSK

Ну и пусть бы запускала шелл-скрипты по команде. Натренировать не на 10, а на 10К команд, и начнёт и кофе варить, и тапочки приносить. И я не уверен, что после обучения вся эта КУДА и гигабайты так уж нужны.

kirill_rrr ★★★★★
(20.06.18 20:33:39 MSK)

А есть какие то обзоры, примеры использования? А то всё ещё не понятно, что оно сейчас из себя представялет.

kirill_rrr ★★★★★
(20.06.18 20:37:05 MSK)

Ответ на: комментарий от Novel 20.06.18 12:45:51 MSK

Проверено: Shaman007
для создания чат-ботовю

Шома на этот раз, видимо не при делах: «Исправление cetjs2».

ashot ★★★★
(20.06.18 20:52:56 MSK)
Последнее исправление: ashot 20.06.18 20:53:42 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от kirill_rrr 20.06.18 20:33:39 MSK

Так и я хочу увидеть реальное применение - открытие браузера с определенным запросом в поисковой строке (часть голосовой команды) как пример. Запрос «Есть ли у меня новая почта» - запустить скрипт, который подключится к почтарю и проверит «входящие» с вариантами ответа «нет, ничего» или «да, два письма от Васи и одно от Толи». Да банально «сколько будет два плюс два». Я такие примеры хочу видеть, потому что этим я бы пользовался. А не обучением бота на тему того сколько мне лет и что там они еще предлагают. И может я плохо искал, но вот таких реальных кейсов типа «как запустить скрипт» я не увидел.

И я не уверен, что после обучения вся эта КУДА и гигабайты так уж нужны.

Смотря что там внутри происходит. Если брать «классический» вариант когда голос переводится в текст и потом по этому тексту ищется что нужно выполнить то да, это все гораздо легче получается. Но если там нейросети едут через нейросети то оно может жрать ресурсы постоянно,

micronekodesu ★★★
(20.06.18 21:06:18 MSK)

Ответ на: комментарий от anonymous 20.06.18 20:33:25 MSK

Такие фразочки и голосовые движки могут надиктовать. У Acapela русский голос Alyona секси и английские новые интересные есть, слушай и тащись. Без фоновой музыки в NVDA есть триал на 15 дней, можно пускать в виртуалке.

anonymous
(20.06.18 22:10:37 MSK)

Ссылка

Ответ на: комментарий от kirill_rrr 20.06.18 20:37:05 MSK

А есть какие то обзоры, примеры использования?

https://www.youtube.com/watch?v=krHUzY2DylI

anonymous
(20.06.18 23:10:01 MSK)

Ответ на: комментарий от anonymous 20.06.18 23:10:01 MSK

Прикольно, но баловство, быстро надоест. Турок учил british english, судя по тому, что what произносит как «вот», а робот american.

anonymous
(21.06.18 01:09:12 MSK)

Ссылка

Ответ на: комментарий от micronekodesu 20.06.18 21:06:18 MSK

Так и я хочу увидеть реальное применение - открытие браузера с определенным запросом

так всё это давно есть - Сири называется. ещё и с чувством юмора и подьёбками. и комп для этого ненужон, отлично на телефоне работает. к сожалению, только в онлайн-режиме пока...

wisedraco ★★
(21.06.18 14:26:37 MSK)

Ответ на: комментарий от wisedraco 21.06.18 14:26:37 MSK

Мы тут обсуждаем «голосового помощника для Linux», который работает на десктопе. А то так то можно еще прислугу нанять, или ребенка завести.

micronekodesu ★★★
(21.06.18 15:02:31 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.06.18 20:17:54 MSK

чем ты занимался у мамочки в животике)?

Проектировал интерфейсы.

Deleted
(21.06.18 15:10:56 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.06.18 23:10:01 MSK

О, спасибо.

kirill_rrr ★★★★★
(21.06.18 15:26:53 MSK)

Ссылка

Ответ на: комментарий от micronekodesu 20.06.18 21:06:18 MSK

Вот аноним дал ссылку на обзор. Не так уж и бесполезно, для бэты сойдёт. Можно и на что то полезное натренировать.

kirill_rrr ★★★★★
(21.06.18 15:28:06 MSK)

Ссылка

Ответ на: комментарий от LoloArctic 20.06.18 09:56:54 MSK

зогчем? это же анальный зонд. да ещё и с пистоном. что вообще упадочно. зачем люди ставят себе весь этот шпионский софт? чем им мешает обычный интерфейс компа, который никуда не шлёт никакую личную информацию?

Iron_Bug ★★★★★
(21.06.18 15:31:38 MSK)

Пока DeepSpeech не заработает с Movidius вместо CUDA - не нужно. В embedded не засунуть.

Pythagoras ★★
(21.06.18 18:56:37 MSK)

Ссылка

Ответ на: комментарий от darkenshvein 20.06.18 09:22:51 MSK

а как же радеон!?!

Зачем нормальным людям софт для людей с ограниченными возможностями?

~~Quasar~~ ★★★★★
(21.06.18 20:29:17 MSK)

Ссылка

Ответ на: комментарий от Solace 20.06.18 11:56:42 MSK

Только в фантазиях у некомпетентных.

~~Quasar~~ ★★★★★
(21.06.18 20:31:32 MSK)

Ответ на: комментарий от ncrmnt 20.06.18 09:27:13 MSK

Эскобар.mp4

~~Quasar~~ ★★★★★
(21.06.18 20:33:01 MSK)

Ссылка

Ответ на: комментарий от wisedraco 21.06.18 14:26:37 MSK

Такие штуки задолго до Siri были. А в онлайновом режиме работает не пока, а навсегда. Идеология Apple заключается в том, что пользователи дебилы, которых надо доить.

~~Quasar~~ ★★★★★
(21.06.18 20:35:21 MSK)

Ссылка

Ответ на: комментарий от kto_tama 20.06.18 16:04:16 MSK

убунту открой ох е6@тb (в это время загружается «самая красивая болельщица в РФ») что за ерунда упала на ногу ёпрст что это убунту закрой твою

Нам нужны предсказатели. Всем. Но их нет, иначе бы они уже были здесь.

anonymous
(21.06.18 21:19:10 MSK)

Ссылка

Ответ на: комментарий от kirill_rrr 20.06.18 20:19:26 MSK

+100500. Когда уже кто-то это запилит? Разве это кому-то может быть не нужно?

anonymous
(21.06.18 21:22:38 MSK)

Ссылка

Ответ на: комментарий от kirill_rrr 20.06.18 20:19:26 MSK

обсчёт принципиально на локалхосте

По ссылке выше есть... а нет, не годится, нужна винда, причем 32-битная.

anonymous
(21.06.18 22:00:42 MSK)

Ссылка

Ответ на: комментарий от Quasar 21.06.18 20:31:32 MSK

Я в курсе о твоей любви к AMD, но отрицание действительности - это такое.

Solace ★★
(22.06.18 09:01:13 MSK)

Ссылка

Если не на Qt, то не нужно.

anonymous
(22.06.18 10:50:43 MSK)

Ссылка

Ответ на: комментарий от kirill_rrr 20.06.18 20:19:26 MSK

обсчёт принципиально на локалхосте

Voco говорят распознает русский, конечно на винде. Системные требования x64, i5, 4Gb RAM, стоимость 1700-14000руб, зависит от версии. Не сочтите за рекламу, поэтому ссылок не даю, просто случайно наткнулся на руборде. На мой взгляд google speech recognition все равно предпочтительнее и бесплатный.

anonymous
(26.06.18 05:11:30 MSK)

Ссылка

Ответ на: комментарий от anonymous 20.06.18 16:11:27 MSK

а то бы совсем сгинула прога

Да брось ты, web archive для чего придумали https://web.archive.org/web/20041215100805/http://art.bdk.com.ru:80/govor/kom...

anonymous
(26.06.18 05:43:32 MSK)

Ссылка

Горыныч ПРОФ 3.0

несколько лет назад тестил эту программу. с отзывами о её практической непригодности полностью согласен. Единственное светлое воспоминание - такой эпизод: однажды, когда она была включена, позвонили в дверь. Наша собачка, которая любила находиться около меня, как всегда соскочила и залаяла.. Ну а Горынич, пишет типа: " КТО?? ЧТО?? УХ!! АХ!!" и т.п. ну и позабавились же мы такому переводу с собачьего ))))

anonymous
(26.06.18 06:12:30 MSK)

Ссылка

Ответ на: комментарий от Iron_Bug 21.06.18 15:31:38 MSK

Я вижу две возможности использования: Первая - это нет ручек. Вторая - это если использовать систему в качестве медиацентра и, например, нет желания вставать с дивана, но хочется поставить видео на паузу.

LoloArctic
(02.07.18 18:00:21 MSK)