whisper.cpp 1.8.0

c, c++, openai, whisper, распознавание речи

0

2

30 сентября, после трёх месяцев разработки, состоялся выпуск 1.8.0 высокопроизводительной системы автоматического распознавания речи whisper.cpp, реализующей модель Whisper от OpenAI на языках C и C++ и распространяемой по лицензии MIT.

В проекте используется авторская тензорная библиотека машинного обучения GGML, написанная на языке C.

Основные изменения:

Опция -fa, --flash-attn теперь включена по умолчанию.
Улучшена производительность для ряда платформ.
В server.cpp добавлена поддержка параметра dtw.params для модели v3-large-turbo.
В server.cpp добавлена опция -nlp, --no-language-probabilities для отключения вычисления вероятности языка в подробном выводе в формате JSON. Это дорогостоящая операция, которая значительно увеличивает задержку ответов.
Исправлена ошибка, приводящая к сбою при выборе устройства GPU в системах с несколькими графическими процессорами.
Предпочтение curl вместо wget в скриптах загрузки моделей.
Обновлена библиотека GGML.
Другие улучшения и исправления ошибок.

>>> Подробности на GitHub

Ссылка

←	Linux 6.17

OpenTESArena 0.17.0

→

Один из лучших даров искусственного интеллекта, жаль, что заточено по куду и метал, а АМД отсталые, даже через вулкан сложно завести.

One ★★★★★
(03.10.25 04:58:16 MSK)
Последнее исправление: One 03.10.25 04:59:00 MSK (всего исправлений: 1)

Ответ на: комментарий от One 03.10.25 04:58:16 MSK

На амд rx9070 большая турбо модель выдает около 40х. Билд специальный с поддержкой вулкана. И этот же билд не работает на встройке от райзена 2ххх Ж(

theurs ★★
(03.10.25 06:39:26 MSK)

Ссылка

Ответ на: комментарий от One 03.10.25 04:58:16 MSK

Там вроде бы как zluda релизнулась, как раз тот случай когда она должна помочь в теории.

einhander ★★★★★
(03.10.25 07:28:53 MSK)

Ответ на: комментарий от einhander 03.10.25 07:28:53 MSK

Да я уже под это дело 5060ti 16gb взял, горестно было смотреть как CPU надрывается в соло )

One ★★★★★
(03.10.25 07:56:33 MSK)

Ссылка

Опция -fa, --flash-attn теперь включена по умолчанию.

Нафига?! Оно без AVX2 делает только хуже. Понятно что современное железо уже давно поддерживает AVX2 и даже AVX512, но алё…

В server.cpp добавлена опция -nlp, --no-language-probabilities для отключения вычисления вероятности языка в подробном выводе в формате JSON. Это дорогостоящая операция, которая значительно увеличивает задержку ответов.

Если бы оно ещё и модель умело выбирать…

mord0d ★★★★★
(03.10.25 10:45:53 MSK)

Ссылка

Ответ на: комментарий от One 03.10.25 04:58:16 MSK

АМД отсталые, даже через вулкан сложно завести

llama.cpp нормально заводит модели на моей Radeon 9800XT через ROCm (правда, на оффтопике). Я к тому, что было бы желание...

DarkAmateur ★★★★
(03.10.25 10:55:23 MSK)
Последнее исправление: DarkAmateur 03.10.25 10:57:39 MSK (всего исправлений: 1)

Ответ на: комментарий от DarkAmateur 03.10.25 10:55:23 MSK

Я к тому, что было бы желание…

Есть две сложности:

Оно должно поддерживаться апстримом хотя бы на базовом уровне;
Нужно иметь желание пердолиться с частным случаем неработоспособности конкретно твоего сетапа.

Тут nvidia педалит тем, что они содействуют всей этой движухе вокруг AI (тьфу так называть, но ладно) со своей стороны.

mord0d ★★★★★
(03.10.25 11:01:32 MSK)

Ссылка

Ответ на: комментарий от DarkAmateur 03.10.25 10:55:23 MSK

Radeon 9800XT

The Radeon 9800 XT was a graphics card by ATI, launched on October 1st, 2003.

Няя?

steemandlinux ★★★★★
(03.10.25 11:34:38 MSK)

Ответ на: комментарий от steemandlinux 03.10.25 11:34:38 MSK

Ой, сорри... Radeon RX 7800XT (RDNA3).

DarkAmateur ★★★★
(03.10.25 12:11:09 MSK)

А оно вообще работает? Кто знает?

Я лично сомневаюсь. Но сам не пользовался.

sparkie ★★★★★
(03.10.25 12:27:01 MSK)

Ответ на: комментарий от sparkie 03.10.25 12:27:01 MSK

А оно вообще работает?
Я лично сомневаюсь.

А скриншоты не убедили?

dataman ★★★★★
(03.10.25 12:37:56 MSK) автор топика

Ответ на: комментарий от sparkie 03.10.25 12:27:01 MSK

А оно вообще работает? Кто знает?

Весьма сносно работает.

То что тут про видяхи начали - ты ж это не смотри. Оно и на cpu могёт, только впрос в производительности. Если тебе посмотреть и понять (или просто никуда не торопишься) можно и на ноуте со встройкой поковырять. :)

frunobulax ★★★★
(03.10.25 12:46:59 MSK)

Ответ на: комментарий от frunobulax 03.10.25 12:46:59 MSK

Так вопрос в производительности один из главных в такой модели.

Либо на CPU с 8/16 ядрами 5 часов расшифровывает за 12 часов, либо с GPU за часик.

One ★★★★★
(03.10.25 13:51:40 MSK)

Ответ на: комментарий от One 03.10.25 13:51:40 MSK

Вопрос был «вообще работает ли?», что я понимаю как вопрос о качестве расшифровок. Для того чтобы понять подойдет ли к твоему персональному кейсу можно разок и на ночь оставить)

frunobulax ★★★★
(03.10.25 13:54:52 MSK)

Ссылка

Ответ на: комментарий от sparkie 03.10.25 12:27:01 MSK

А оно вообще работает?

1.7.x с моделью Turbo очень хорошо работают с русским, английским, французским, немецким, украинским, китайским. (С тамильским не вышло.) Нередко правильно расставляют знаки препинания. Один раз опознало Трампа и подписало его реплики. Проблемы есть, когда несколько языков вперемешку. Или когда речь глушится музыкой.

Недостаток — низкая скорость. С Turbo моделью на 4 ядрах CPU 1.7.x с BLAS примерно втрое медленнее распознаваемой звуковой дорожки. Без BLAS — вчетверо. Для сравнения, питоновый Vosk немного быстрее звуковой дорожки, часовой фильм анализирует минут 55.

Tiny модель в тех же условиях делает намного больше ошибок, но работает в 2 с лишним раза быстрее звуковой дорожки.

Другой недостаток 1.7.х — ограниченная поддержка форматов, но наблюдается явный прогресс. 1.7.0 понимала только 16-битный WAV, 1.7.5 нормально обрабатывает звуковые файлы AAC, MP3 и Opus, но не работает с видео в MP4. Сейчас соберу и попробую 1.8.0.

question4 ★★★★★
(03.10.25 14:01:37 MSK)
Последнее исправление: question4 03.10.25 14:07:35 MSK (всего исправлений: 3)

Ответ на: комментарий от question4 03.10.25 14:01:37 MSK

Собирал командами:

cmake -B build -D WHISPER_FFMPEG=yes -DGGML_BLAS=1 
cmake --build build -j --config Release

Результаты проверки на первом попавшемся медиафайле (польский сатирический ролик на тему дроноистерии) с нейросетью ggml-large-v3-turbo-q8_0: 42-секундное видео распознавалось 1.7.5 112-117 секунд, а 1.8.0 — 160-161 секунду. CPU, задействовались все 4 ядра. На MP4 была куча ошибок [aac @ 0x565434562300] channel element 2.0 is not allocated, но вопреки обыкновению всё распозналось.

По содержанию: 1.7.5 пропустил реплику «Szahed!», а 1.8.0 транскрибировал её как «Ruski dron!» Оба варианта, на мой взгляд, неверны.

Снижение скорости меня не устраивает, пока остаюсь на 1.7.5.

question4 ★★★★★
(03.10.25 16:46:08 MSK)

Ссылка

Ответ на: комментарий от question4 03.10.25 14:01:37 MSK

С Turbo моделью на 4 ядрах CPU 1.7.x с BLAS пример

Хм, там же написано, что Турбо не для русского языка - The default setting (which selects the turbo model) works well for transcribing English. However, the turbo model is not trained for translation tasks. If you need to translate non-English speech into English, use one of the multilingual models (tiny, base, small, medium, large) instead of turbo.

https://github.com/openai/whisper

А так по мне Large-V2 очень хорош и шустрый

One ★★★★★
(03.10.25 17:14:47 MSK)

Ответ на: комментарий от DarkAmateur 03.10.25 12:11:09 MSK

Эх, а я обрадовался, что 9080XT всё-таки выпустили :(

steemandlinux ★★★★★
(03.10.25 17:18:00 MSK)

Ответ на: комментарий от steemandlinux 03.10.25 17:18:00 MSK

Я просто в своё время триггернулся с новости, что на 9xxx RDNA4 планируется выпускать только mid-сегмент + неопределённость на рынке. Де-факто, со своей 7800XT я пролюбил только лучи относительно 9070. Во всём остальном --- карта вполне себе. Возможность запускать хоть что-то через llama.cpp --- вообще отвал башки.

DarkAmateur ★★★★
(03.10.25 17:25:12 MSK)
Последнее исправление: DarkAmateur 03.10.25 17:25:22 MSK (всего исправлений: 1)