LINUX.ORG.RU

Распознавание речи


4

0

Всего сообщений: 6

whisper.cpp 1.7.5

whisper.cpp 1.7.5
Группа Open Source

2 апреля состоялся выпуск 1.7.5 высокопроизводительной системы автоматического распознавания речи whisper.cpp, реализующей модель Whisper от OpenAI, написанной на языках C и C++ и распространяемой по лицензии MIT.

В проекте используется авторская тензорная библиотека машинного обучения GGML, написанная на языке C и оптимизированная для использования различных бэкендов (CUDA, Vulkan, BLAS, SYCL, OpenCL и др.).

Это довольно большое обновление с различными улучшениями сборки и CI, особенно для iOS и WASM. Также есть некоторый прирост производительности, особенно для бэкенда Metal и, возможно, для устройств на базе Arm.

( читать дальше... )

>>> Подробности на GitHub

 , , , ,

dataman
()

whisper.cpp 1.7.4

whisper.cpp 1.7.4
Группа Open Source

6 января состоялся выпуск 1.7.4 высокопроизводительной системы автоматического распознавания речи whisper.cpp, реализующей модель Whisper от OpenAI, написанной на языках C и C++ и распространяемой по лицензии MIT.

( читать дальше... )

>>> Список изменений версии 1.7.4 на GitHub

 , , , ,

dataman
()

whisper.cpp 1.7.0

whisper.cpp 1.7.0
Группа Open Source

После более пяти месяцев разработки состоялся выпуск 1.7.0 высокопроизводительной системы автоматического распознавания речи whisper.cpp, реализующей модель Whisper от OpenAI на языках C и C++ и распространяемой по лицензии MIT.

( читать дальше... )

>>> Подробности

 , , , ,

dataman
()

Набор голосовых данных Mozilla Common Voice 18

Группа Mozilla

Mozilla объявила о выпуске 18-го набора данных Common Voice, который теперь доступен для скачивания. Этот набор данных является частью стратегии Mozilla по обеспечению более широкого доступа к голосовым технологиям. Он представляет собой бесплатный набор данных многоязычных голосовых фрагментов и связанных с ними текстовых данных, который распространяется под лицензией CC0 (общественное достояние). Создание набора данных — это совместная работа сообщества, включая участников, предоставляющих голос и текст, активистов в области языков, технологов, ученых и других членов сообщества Common Voice.

( читать дальше... )

>>> Подробности

 common voice, , ,

CrX
()

whisper.cpp 1.6.0

whisper.cpp 1.6.0
Группа Разработка

15 мая состоялся выпуск 1.6.0 высокопроизводительной системы автоматического распознавания речи whisper.cpp, реализующей модель Whisper от OpenAI на языках C и C++, и распространяемой по лицензии MIT.

Список изменений:

  • добавлена опция --flash-attn для ускорения обработки данных на устройствах с CUDA и Metal;
  • более высокая производительность на архитектуре ppc64;
  • исправлена ошибка обработки регулярного выражения в консольной утилите-примере main.

>>> Подробности

 , , , ,

dataman
()

Первый выпуск Dragonfire 1.0 — голосового помощника для Linux

Группа Open Source

После трёх лет разработки состоялся первый стабильный выпуск Dragonfire 1.0 — голосового ассистента для Linux, позволяющего организовать взаимодействие с рабочим столом при помощи голосовых команд. Изначально проект развивался для мотоциклетного шлема дополненной реальности Dargon Armor — полностью открытого проекта на основе плат Raspberry Pi 3, но впоследствии был расширен для применения на обычном Linux-десктопе. Код проекта написан на языке Python и распространяется по лицензии MIT. Доступны клиенты для десктопных дистрибутивов Linux, а также Android.

Для разбора голосовых команд применяется система распознавания речи Mozilla DeepSpeech, построенная на платформе машинного обучения TensorFlow. Для синтеза речи задействован пакет Festival. Интерфейс в форме вопрос/ответ базируется на библиотеке распознавания текста на естественном языке spaCy и данных из Wikipedia. Ответ формируется с применением нейронной сети seq2seq, натренированной по базе диалогов из фильмов. Для работы Dragonfire рекомендуется система с минимум 2 гигабайтами памяти и поддержкой CUDA. Кроме этого выпуск 1.0 может похвастаться следующими изменениями:

  • Исправлены послеустановочные скрипты.
  • Полностью реализован API.
  • Значительно улучшен серверный режим, в котором Dragonfire можно использовать для создания чат-ботовю
  • Базовый анализатор полностью задействует библиотеку spaCy.
  • Обеспечена возможность сохранения данных обучения, исходящих от многих пользователей Android, в базе данных MySQL.
  • В качестве альтернативы добавлена система распознавания речи Gspeech.

>>> Подробности

 dragonfire, ,

Sunderland93
()