LINUX.ORG.RU

AMD выпустила Ryzen AI Software 1.6.1 с начальной поддержкой Linux

 , ,


3

6

Компания AMD представила обновление Ryzen AI Software до версии 1.6.1, добавив поддержку операционных систем Linux. Ранее этот программный пакет, предназначенный для оптимизации и развертывания ИИ-инференса на ПК с процессорами Ryzen AI, был доступен исключительно для Windows.

На текущий момент официально поддерживается Ubuntu 24.04 LTS. Обновление позволяет использовать NPU (нейронный процессор) Ryzen AI для работы с моделями различных типов: CNN (INT8/BF16), NLP (BF16) и больших языковых моделей (LLM).

Для комфортной работы с LLM рекомендуется наличие не менее 64 ГБ оперативной памяти, при этом минимальные требования составляют 32 ГБ.

Ryzen AI Software включает инструменты и библиотеки времени выполнения для оптимизации ИИ-приложений, разработанные с акцентом на высокую эффективность и простоту использования.

Доступ к двоичным сборкам Linux-версии программного обеспечения в настоящее время ограничен зарегистрированными клиентами AMD. Это затрудняет широкое использование и тестирование на платформе Linux в сообществе разработчиков.

>>> Подробности (opennet.ru)



Проверено: hobbit ()
Последнее исправление: cetjs2 (всего исправлений: 6)

Давно не смотрел, для windows было что-то совсем ненужное с этим NPU от amd даже на фоне OpenVINO от Intel. Да и не предназначено для современного потребительского мира, с работой только по bf16/int8

One ★★★★★
()
Ответ на: комментарий от MoldAndLimeHoney

Сделать автокомплит кода в IDE, для любимого Фортрана / Кобола.

Агенты, опять же, сейчас модно, а тут всё это локально будет работать, без доступа в инет (всё актуальнее).

*без ГМО GPU

Yustas ★★★★
()
Последнее исправление: Yustas (всего исправлений: 3)
Ответ на: комментарий от MoldAndLimeHoney

NPU на Ryzen достаточно экономично по сравнению с вычислениями на GPU или CPU, что критично для ноутов. Может быть эффективно использовано для фоновых ИИ задач. Как например распознование текста или голоса. По сути логика та же, как и на чипах для телефонов. На практике качаем LM Studio, качаем в нем подходящую LLM модель и пользуем ИИ локально, бесплатно и без инета на своем компе. Желательно 64Гб оперативы.

oren
()

А в России оно покупаемо?..

Somebody ★★★★
()
Ответ на: комментарий от oren

На практике качаем LM Studio, качаем в нем подходящую LLM модель и пользуем ИИ локально,

И когда на практике LM studio вдруг NPU от AMD начало использовать? Нет интеграции со стэком AMD, более того, для эффекта использования с XDNA на бытовом уровне модель должна быть квантизована в BF16 / INT8, а это нафига с дохлой мощностью.

Вроде с трудом Whisper можно осилить в качестве реального применения (я не осилил ибо стихи).

One ★★★★★
()
Ответ на: комментарий от One

Я дал ссылку на спец сборку LM studio для Ryzen AI. У меня нет подходящего железа, не могу протестировать. Основываюсь на информации из сети. В том числе от самой АМД

oren
()
Ответ на: комментарий от oren

LM Studio - это оболочка для llama.cpp, который базируется на GGML.

И среди backend GGML в репозитории llama.cpp на момент написания этого нет AMD Xilinx(aka NPU, aka XDNA) https://github.com/ggml-org/llama.cpp/tree/master/ggml/src

Обычно на AMD LM Studio под Windows вообще работает на Vulkan (даже не на HIP). Поддержки NPU на текущий момент в ней нет.

PS: пару месяцев назад были дискуссии насчёт поддержки XDNA в GGML - и Георгий Герганов просто попросил работающий пример из SDK - которого не оказалось. На том всё и заглохло. Если в этой сборке есть такой пример - то может лёд и тронется.

upd: благодаря хорошей архитектуре базовая поддержка в GGML может появиться в течении нескольких недель.

azazello ★★★★
()
Последнее исправление: azazello (всего исправлений: 3)
Ответ на: комментарий от oren

Не запускалась эта шляпа на 7840HS (AMD Ryzen™ 7040 Series processors). И модели все равно надо готовить https://ryzenai.docs.amd.com/en/latest/oga_model_prepare.html

Use –data_type bfloat16 for bf16 pretrained model. For fp32/fp16 pretrained model use –datatype float16

Но запускать на бытовом железе такие модели для бытовухи, нафига.

One ★★★★★
()
Ответ на: комментарий от steemandlinux

оператива 8 ггц на 256 битной шине

Я не сварщик, но вроде там латентность самая важная штука. Поэтому всякие Mac Studio смотрятся сильно круче.

Lordwind ★★★★★
()
Ответ на: комментарий от Lordwind

Так тут как раз хорошая латентность, память то процессорная.

steemandlinux ★★★★★
()
Ответ на: комментарий от steemandlinux

Видел на прохайтеке сравнение планшета с Ryzen AI 395 и какой-то яблочной штуки. Там они в обе стороны гуляли.

Но по цене яблоки точно впереди может быть даже кратно. 🤣

Radjah ★★★★★
()
Ответ на: комментарий от Lordwind

У Ryzen AI общая шина или другая магия? Я просто не очень понимаю какой смысл от LLM на оперативе.

Оперативка у них относительно быстрая (LPDDR вроде называется), распаяна рядом с процем. А вообще, новая архитектура LLM сейчас пошла в сторону VRAM+RAM. Поэтому на DDR сейчас цены взлетели. Покупаешь себе GPU, допустим 24 GB, а рядом 512 GB DDR5 и оно сможет запускать LLM-ми на уровне GPT5. Сейчас как раз китайцы выпустили LLM на 1 триллион параметров на этой архитектуре.

Так что, эта рязань за 2000 USD по сути устарела, только-только выйдя на рынок. Как и аналог от невидии за 4000 USD. Как и маки с кучей памяти.

foror ★★★★★
()
Последнее исправление: foror (всего исправлений: 1)
Ответ на: комментарий от Lordwind

Вы не сварщик. Для трансформеров главное - полоса пропускания памяти и её количество (для других типов сетей может быть виычислительная мощность).

Латентность памяти в общем случае важна для случайного доступа, а в моделях нейросетей размером в десятки гигабайт почти всегда чтение последовательное.

Латентность памяти(GDDRx) в GPU значительно выше таковой для CPU и достигает нескольких сотен наносекунд. Для HBM памяти она ещё чуть выше, чем для аналогичной GDDRx.

почитать, если интересно https://chipsandcheese.com/p/measuring-gpu-memory-latency

azazello ★★★★
()
Последнее исправление: azazello (всего исправлений: 1)
Ответ на: комментарий от foror

Покупаешь себе GPU, допустим 24 GB, а рядом 512 GB DDR5 и оно сможет запускать LLM-ми на уровне GPT5.

В общем случае не сможет. Даже если в основной RAM будет всего пара слоёв сетки - её намного меньшая скорость(раз 10) - падение будет очень сильное. А если, как вы предлагаете 24/512 - то видеокарта не нужна вообще - разница будет в переделах пары процентов.

Можете взять любую интересную себе сетку и llama.cpp - и используя ключ -ngl(--n-gpu-layers) - поиграться с тем, в какую память помести слои и получить цифры производительности

upd: GPT5 размером больше терабайта - и крутится на DSG системе с несколькими GPU класса B200(GPU Memory 1,440 GB total, 64 TB/s HBM3e bandwidth). На 24 ГБ виеокарте у вас будет bandwidth в 100+ раза меньше(пусть 512GB/s). Ну и скорость во столько же раз тоже меньше(не считая того, что не влезет).

azazello ★★★★
()
Последнее исправление: azazello (всего исправлений: 3)
Ответ на: комментарий от foror

новая архитектура LLM сейчас пошла в сторону VRAM+RAM

Так то да, модели такие есть, только они сильно проигрывают в глубине рассуждений. Поэтому я и спросил а нужно ли оно на практике. Тривиальные задачи с чоткими промтами и 32B решают на ура, а это на минуточку дешманский макбук за 2 штуки.

Lordwind ★★★★★
()
Ответ на: комментарий от oren

А на линукс нету сборки? Ябпотестил.

dnb ★★★★
()
Ответ на: комментарий от azazello

Я про kimi k2 с архитектурой MoE, которая по тестам на уровне gpt5, но работает на VRAM+RAM с 1 триллионом параметров.

foror ★★★★★
()
Последнее исправление: foror (всего исправлений: 1)
Ответ на: комментарий от foror

с архитектурой MoE

Поэтому я и написал, что «В общем случае не сможет.».

Я про kimi k2

Она уже в квантифицированном виде int4 изначально поставляется, что уже не очень хорошо. И ребята с unsloth ещё больше её пережали - так что таки влазит в 512ГБ. Но это для развлечения - для работы(т.е. повторяемости результатов) нужно где-то Q6_K, которые из этой модели получить уже нельзя.

А вот стихи писать можно ;)

azazello ★★★★
()
Ответ на: комментарий от steemandlinux

Многоканальностью намного круче. Иметь 819.3 GB/s в Маках и 272 в Рязани - другой мир. И полная поддержка FP4/FP8 в M3 и выше, когда amd засунула отсталую RDNA3.5

One ★★★★★
()
Ответ на: комментарий от One

Иметь 819.3 GB/s в Маках и 272 в Рязани - другой мир.

Что за сказки?

steemandlinux ★★★★★
()
Ответ на: комментарий от steemandlinux

Поэтому всякие Mac Studio смотрятся сильно круче.

https://www.apple.com/mac-studio/specs/

Apple M3 Ultra chip. M3 Ultra with 32‑core CPU, 80‑core GPU, and 32‑core Neural Engine (819GB/s memory bandwidth)

Открываешь например, https://github.com/ggml-org/llama.cpp/discussions/4167 и видишь что в llama 7B mostly F16 практический тест - 532Gb/s с утилизацией в 65% от теоретического максимума, что очень неплохо.

One ★★★★★
()
Последнее исправление: One (всего исправлений: 1)
Ответ на: комментарий от Lordwind

Они целяться в тот же подход, что реализовал Йепель в своей платформе, когда память, довольно эффективно, шарится между CPU и GPU.

Не думаю, что там сравнимые цифры, но через пару поколейний может быть норм. Вспомним первые версии CUDA

Yustas ★★★★
()
Последнее исправление: Yustas (всего исправлений: 1)
Ответ на: комментарий от azazello

Да-да. Конечно же, gpt не квантованы в те же самые 4 бита, что вы! И их единственная открытая модель в четвертом кванте выпущена из любви к пользователям.

Вы, во первых, разные способы квантования сравниваете (почему это плохая идея можно увидеть, посмотрев сравнение GGUF с EXL3), во вторых не учитываете, что чем больше модель, тем меньше она деградирует от квантования. 6бит на вес - это размер, при котором разница в генерации с полными весами на столько незначительна, что вы ее не заметите, 4 бита - незначительная разница с 6 битами. И это справедливо для моделей примерно от 12 миллиардов параметров, дальше там разница будет еще меньше.

Naurim
()
Ответ на: комментарий от Naurim

единственная открытая модель в четвертом кванте

GPT-OSS-120b и GPT-OSS-20b = две и обе MXFP4

One ★★★★★
()
Ответ на: комментарий от Naurim

Конечно же, gpt не квантованы в те же самые 4 бита, что вы!

Я даже не знал про 4 бита там - прогнал GPT-OSS на паре своих тестов на C/ASM коде - она провалилась - и успешно забыл про её существование ;)

4 бита - незначительная разница с 6 битами. И это справедливо для моделей примерно от 12 миллиардов параметров, дальше там разница будет еще меньше.

Наверняка, у нас разные задачи. Обычно использую Qwen 3 coder (MoE 30B/3B) - разница между Q4_K_XL и Q6_K_XL(обе от unsloth) огромна в низкоуровневом программировании. 4 битовая просто несёт ересь ;)

azazello ★★★★
()
Последнее исправление: azazello (всего исправлений: 2)
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.
Тема будет перемещена в архив .