LINUX.ORG.RU

whisper.cpp 1.8.0

 , , , ,


0

2

30 сентября, после трёх месяцев разработки, состоялся выпуск 1.8.0 высокопроизводительной системы автоматического распознавания речи whisper.cpp, реализующей модель Whisper от OpenAI на языках C и C++ и распространяемой по лицензии MIT.

В проекте используется авторская тензорная библиотека машинного обучения GGML, написанная на языке C.

Основные изменения:

  • Опция -fa, --flash-attn теперь включена по умолчанию.
  • Улучшена производительность для ряда платформ.
  • В server.cpp добавлена поддержка параметра dtw.params для модели v3-large-turbo.
  • В server.cpp добавлена опция -nlp, --no-language-probabilities для отключения вычисления вероятности языка в подробном выводе в формате JSON. Это дорогостоящая операция, которая значительно увеличивает задержку ответов.
  • Исправлена ошибка, приводящая к сбою при выборе устройства GPU в системах с несколькими графическими процессорами.
  • Предпочтение curl вместо wget в скриптах загрузки моделей.
  • Обновлена библиотека GGML.
  • Другие улучшения и исправления ошибок.

>>> Подробности на GitHub

★★★★★

Проверено: CrX ()
Последнее исправление: CrX (всего исправлений: 2)

Один из лучших даров искусственного интеллекта, жаль, что заточено по куду и метал, а АМД отсталые, даже через вулкан сложно завести.

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)
Ответ на: комментарий от One

На амд rx9070 большая турбо модель выдает около 40х. Билд специальный с поддержкой вулкана. И этот же билд не работает на встройке от райзена 2ххх Ж(

theurs ★★
()
Ответ на: комментарий от einhander

Да я уже под это дело 5060ti 16gb взял, горестно было смотреть как CPU надрывается в соло )

One ★★★★★
()

Опция -fa, --flash-attn теперь включена по умолчанию.

Нафига?! Оно без AVX2 делает только хуже. Понятно что современное железо уже давно поддерживает AVX2 и даже AVX512, но алё…

В server.cpp добавлена опция -nlp, --no-language-probabilities для отключения вычисления вероятности языка в подробном выводе в формате JSON. Это дорогостоящая операция, которая значительно увеличивает задержку ответов.

Если бы оно ещё и модель умело выбирать…

mord0d ★★★★★
()
Ответ на: комментарий от One

АМД отсталые, даже через вулкан сложно завести

llama.cpp нормально заводит модели на моей Radeon 9800XT через ROCm (правда, на оффтопике). Я к тому, что было бы желание...

DarkAmateur ★★★★
()
Последнее исправление: DarkAmateur (всего исправлений: 1)
Ответ на: комментарий от DarkAmateur

Я к тому, что было бы желание…

Есть две сложности:

  • Оно должно поддерживаться апстримом хотя бы на базовом уровне;
  • Нужно иметь желание пердолиться с частным случаем неработоспособности конкретно твоего сетапа.

Тут nvidia педалит тем, что они содействуют всей этой движухе вокруг AI (тьфу так называть, но ладно) со своей стороны.

mord0d ★★★★★
()
Ответ на: комментарий от sparkie

А оно вообще работает?
Я лично сомневаюсь.

А скриншоты не убедили?

dataman ★★★★★
() автор топика
Ответ на: комментарий от sparkie

А оно вообще работает? Кто знает?

Весьма сносно работает.

То что тут про видяхи начали - ты ж это не смотри. Оно и на cpu могёт, только впрос в производительности. Если тебе посмотреть и понять (или просто никуда не торопишься) можно и на ноуте со встройкой поковырять. :)

frunobulax ★★★
()
Ответ на: комментарий от frunobulax

Так вопрос в производительности один из главных в такой модели.

Либо на CPU с 8/16 ядрами 5 часов расшифровывает за 12 часов, либо с GPU за часик.

One ★★★★★
()
Ответ на: комментарий от One

Вопрос был «вообще работает ли?», что я понимаю как вопрос о качестве расшифровок. Для того чтобы понять подойдет ли к твоему персональному кейсу можно разок и на ночь оставить)

frunobulax ★★★
()
Ответ на: комментарий от sparkie

А оно вообще работает?

1.7.x с моделью Turbo очень хорошо работают с русским, английским, французским, немецким, украинским, китайским. (С тамильским не вышло.) Нередко правильно расставляют знаки препинания. Один раз опознало Трампа и подписало его реплики. Проблемы есть, когда несколько языков вперемешку. Или когда речь глушится музыкой.

Недостаток — низкая скорость. С Turbo моделью на 4 ядрах CPU 1.7.x с BLAS примерно втрое медленнее распознаваемой звуковой дорожки. Без BLAS — вчетверо. Для сравнения, питоновый Vosk немного быстрее звуковой дорожки, часовой фильм анализирует минут 55.

Tiny модель в тех же условиях делает намного больше ошибок, но работает в 2 с лишним раза быстрее звуковой дорожки.

Другой недостаток 1.7.х — ограниченная поддержка форматов, но наблюдается явный прогресс. 1.7.0 понимала только 16-битный WAV, 1.7.5 нормально обрабатывает звуковые файлы AAC, MP3 и Opus, но не работает с видео в MP4. Сейчас соберу и попробую 1.8.0.

question4 ★★★★★
()
Последнее исправление: question4 (всего исправлений: 3)
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.