LINUX.ORG.RU

whisper.cpp 1.8.0

 , , , ,


0

2

30 сентября, после трёх месяцев разработки, состоялся выпуск 1.8.0 высокопроизводительной системы автоматического распознавания речи whisper.cpp, реализующей модель Whisper от OpenAI на языках C и C++ и распространяемой по лицензии MIT.

В проекте используется авторская тензорная библиотека машинного обучения GGML, написанная на языке C.

Основные изменения:

  • Опция -fa, --flash-attn теперь включена по умолчанию.
  • Улучшена производительность для ряда платформ.
  • В server.cpp добавлена поддержка параметра dtw.params для модели v3-large-turbo.
  • В server.cpp добавлена опция -nlp, --no-language-probabilities для отключения вычисления вероятности языка в подробном выводе в формате JSON. Это дорогостоящая операция, которая значительно увеличивает задержку ответов.
  • Исправлена ошибка, приводящая к сбою при выборе устройства GPU в системах с несколькими графическими процессорами.
  • Предпочтение curl вместо wget в скриптах загрузки моделей.
  • Обновлена библиотека GGML.
  • Другие улучшения и исправления ошибок.

>>> Подробности на GitHub

★★★★★

Проверено: CrX ()
Последнее исправление: CrX (всего исправлений: 2)

Один из лучших даров искусственного интеллекта, жаль, что заточено по куду и метал, а АМД отсталые, даже через вулкан сложно завести.

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)
Ответ на: комментарий от One

На амд rx9070 большая турбо модель выдает около 40х. Билд специальный с поддержкой вулкана. И этот же билд не работает на встройке от райзена 2ххх Ж(

theurs ★★
()
Ответ на: комментарий от einhander

Да я уже под это дело 5060ti 16gb взял, горестно было смотреть как CPU надрывается в соло )

One ★★★★★
()

Опция -fa, --flash-attn теперь включена по умолчанию.

Нафига?! Оно без AVX2 делает только хуже. Понятно что современное железо уже давно поддерживает AVX2 и даже AVX512, но алё…

В server.cpp добавлена опция -nlp, --no-language-probabilities для отключения вычисления вероятности языка в подробном выводе в формате JSON. Это дорогостоящая операция, которая значительно увеличивает задержку ответов.

Если бы оно ещё и модель умело выбирать…

mord0d ★★★★★
()
Ответ на: комментарий от One

АМД отсталые, даже через вулкан сложно завести

llama.cpp нормально заводит модели на моей Radeon 9800XT через ROCm (правда, на оффтопике). Я к тому, что было бы желание...

DarkAmateur ★★★★
()
Последнее исправление: DarkAmateur (всего исправлений: 1)
Ответ на: комментарий от DarkAmateur

Я к тому, что было бы желание…

Есть две сложности:

  • Оно должно поддерживаться апстримом хотя бы на базовом уровне;
  • Нужно иметь желание пердолиться с частным случаем неработоспособности конкретно твоего сетапа.

Тут nvidia педалит тем, что они содействуют всей этой движухе вокруг AI (тьфу так называть, но ладно) со своей стороны.

mord0d ★★★★★
()
Ответ на: комментарий от sparkie

А оно вообще работает? Кто знает?

Весьма сносно работает.

То что тут про видяхи начали - ты ж это не смотри. Оно и на cpu могёт, только впрос в производительности. Если тебе посмотреть и понять (или просто никуда не торопишься) можно и на ноуте со встройкой поковырять. :)

frunobulax ★★★★
()
Ответ на: комментарий от frunobulax

Так вопрос в производительности один из главных в такой модели.

Либо на CPU с 8/16 ядрами 5 часов расшифровывает за 12 часов, либо с GPU за часик.

One ★★★★★
()
Ответ на: комментарий от One

Вопрос был «вообще работает ли?», что я понимаю как вопрос о качестве расшифровок. Для того чтобы понять подойдет ли к твоему персональному кейсу можно разок и на ночь оставить)

frunobulax ★★★★
()
Ответ на: комментарий от sparkie

А оно вообще работает?

1.7.x с моделью Turbo очень хорошо работают с русским, английским, французским, немецким, украинским, китайским. (С тамильским не вышло.) Нередко правильно расставляют знаки препинания. Один раз опознало Трампа и подписало его реплики. Проблемы есть, когда несколько языков вперемешку. Или когда речь глушится музыкой.

Недостаток — низкая скорость. С Turbo моделью на 4 ядрах CPU 1.7.x с BLAS примерно втрое медленнее распознаваемой звуковой дорожки. Без BLAS — вчетверо. Для сравнения, питоновый Vosk немного быстрее звуковой дорожки, часовой фильм анализирует минут 55.

Tiny модель в тех же условиях делает намного больше ошибок, но работает в 2 с лишним раза быстрее звуковой дорожки.

Другой недостаток 1.7.х — ограниченная поддержка форматов, но наблюдается явный прогресс. 1.7.0 понимала только 16-битный WAV, 1.7.5 нормально обрабатывает звуковые файлы AAC, MP3 и Opus, но не работает с видео в MP4. Сейчас соберу и попробую 1.8.0.

question4 ★★★★★
()
Последнее исправление: question4 (всего исправлений: 3)
Ответ на: комментарий от question4

Собирал командами:

cmake -B build -D WHISPER_FFMPEG=yes -DGGML_BLAS=1 
cmake --build build -j --config Release

Результаты проверки на первом попавшемся медиафайле (польский сатирический ролик на тему дроноистерии) с нейросетью ggml-large-v3-turbo-q8_0: 42-секундное видео распознавалось 1.7.5 112-117 секунд, а 1.8.0 — 160-161 секунду. CPU, задействовались все 4 ядра. На MP4 была куча ошибок [aac @ 0x565434562300] channel element 2.0 is not allocated, но вопреки обыкновению всё распозналось.

По содержанию: 1.7.5 пропустил реплику «Szahed!», а 1.8.0 транскрибировал её как «Ruski dron!» Оба варианта, на мой взгляд, неверны.

Снижение скорости меня не устраивает, пока остаюсь на 1.7.5.

question4 ★★★★★
()
Ответ на: комментарий от question4

С Turbo моделью на 4 ядрах CPU 1.7.x с BLAS пример

Хм, там же написано, что Турбо не для русского языка - The default setting (which selects the turbo model) works well for transcribing English. However, the turbo model is not trained for translation tasks. If you need to translate non-English speech into English, use one of the multilingual models (tiny, base, small, medium, large) instead of turbo.

https://github.com/openai/whisper

А так по мне Large-V2 очень хорош и шустрый

One ★★★★★
()
Ответ на: комментарий от steemandlinux

Я просто в своё время триггернулся с новости, что на 9xxx RDNA4 планируется выпускать только mid-сегмент + неопределённость на рынке. Де-факто, со своей 7800XT я пролюбил только лучи относительно 9070. Во всём остальном --- карта вполне себе. Возможность запускать хоть что-то через llama.cpp --- вообще отвал башки.

DarkAmateur ★★★★
()
Последнее исправление: DarkAmateur (всего исправлений: 1)
Ответ на: комментарий от One

However, the turbo model is not trained for translation tasks.

«Translation», а не «transcription». Перевод, а не транскрибирование.

Да, перевод на английский работает криво. Перевод на другие языки работает спорадически и не всегда к месту :) Но для одноязычных всё хорошо.

question4 ★★★★★
()
Ответ на: комментарий от frunobulax

Ясно. Просто я с прогой под оффтоп дело имел, было дело.

sparkie ★★★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.