AMD выпустила Ryzen AI Software 1.6.1 с начальной поддержкой Linux

3

6

Компания AMD представила обновление Ryzen AI Software до версии 1.6.1, добавив поддержку операционных систем Linux. Ранее этот программный пакет, предназначенный для оптимизации и развертывания ИИ-инференса на ПК с процессорами Ryzen AI, был доступен исключительно для Windows.

На текущий момент официально поддерживается Ubuntu 24.04 LTS. Обновление позволяет использовать NPU (нейронный процессор) Ryzen AI для работы с моделями различных типов: CNN (INT8/BF16), NLP (BF16) и больших языковых моделей (LLM).

Для комфортной работы с LLM рекомендуется наличие не менее 64 ГБ оперативной памяти, при этом минимальные требования составляют 32 ГБ.

Ryzen AI Software включает инструменты и библиотеки времени выполнения для оптимизации ИИ-приложений, разработанные с акцентом на высокую эффективность и простоту использования.

Доступ к двоичным сборкам Linux-версии программного обеспечения в настоящее время ограничен зарегистрированными клиентами AMD. Это затрудняет широкое использование и тестирование на платформе Linux в сообществе разработчиков.

>>> Подробности (opennet.ru)

Ссылка

←	Запуск от root и дефолтные пароли: советы от ИИ подвергают угрозам безопасность домашней сети

Apache NetBeans 28

→

Давно не смотрел, для windows было что-то совсем ненужное с этим NPU от amd даже на фоне OpenVINO от Intel. Да и не предназначено для современного потребительского мира, с работой только по bf16/int8

One ★★★★★
(11.11.25 08:41:19 MSK)

Ссылка

А что, например, с этим можно делать? Не в теории, а на практике, хотя бы в Винде, чтобы оценить нужность.

MoldAndLimeHoney ★★
(11.11.25 09:02:46 MSK)

Ответ на: комментарий от MoldAndLimeHoney 11.11.25 09:02:46 MSK

Сделать автокомплит кода в IDE, для любимого Фортрана / Кобола.

Агенты, опять же, сейчас модно, а тут всё это локально будет работать, без доступа в инет (всё актуальнее).

*без ~~ГМО~~ GPU

Yustas ★★★★
(11.11.25 10:29:37 MSK)
Последнее исправление: Yustas 11.11.25 10:34:23 MSK (всего исправлений: 3)

Ответ на: комментарий от MoldAndLimeHoney 11.11.25 09:02:46 MSK

NPU на Ryzen достаточно экономично по сравнению с вычислениями на GPU или CPU, что критично для ноутов. Может быть эффективно использовано для фоновых ИИ задач. Как например распознование текста или голоса. По сути логика та же, как и на чипах для телефонов. На практике качаем LM Studio, качаем в нем подходящую LLM модель и пользуем ИИ локально, бесплатно и без инета на своем компе. Желательно 64Гб оперативы.

oren
(11.11.25 10:35:19 MSK)

А в России оно покупаемо?..

Somebody ★★★★
(11.11.25 11:35:44 MSK)

Ссылка

Ответ на: комментарий от oren 11.11.25 10:35:19 MSK

На практике качаем LM Studio, качаем в нем подходящую LLM модель и пользуем ИИ локально,

И когда на практике LM studio вдруг NPU от AMD начало использовать? Нет интеграции со стэком AMD, более того, для эффекта использования с XDNA на бытовом уровне модель должна быть квантизована в BF16 / INT8, а это нафига с дохлой мощностью.

Вроде с трудом Whisper можно осилить в качестве реального применения (я не осилил ибо стихи).

One ★★★★★
(11.11.25 12:00:33 MSK)

Ответ на: комментарий от Yustas 11.11.25 10:29:37 MSK

без GPU

У Ryzen AI общая шина или другая магия? Я просто не очень понимаю какой смысл от LLM на оперативе.

Lordwind ★★★★★
(11.11.25 12:13:29 MSK)

Ответ на: комментарий от One 11.11.25 12:00:33 MSK

Я дал ссылку на спец сборку LM studio для Ryzen AI. У меня нет подходящего железа, не могу протестировать. Основываюсь на информации из сети. В том числе от самой АМД

oren
(11.11.25 12:41:25 MSK)

Ответ на: комментарий от oren 11.11.25 12:41:25 MSK

LM Studio - это оболочка для llama.cpp, который базируется на GGML.

И среди backend GGML в репозитории llama.cpp на момент написания этого нет AMD Xilinx(aka NPU, aka XDNA) https://github.com/ggml-org/llama.cpp/tree/master/ggml/src

Обычно на AMD LM Studio под Windows вообще работает на Vulkan (даже не на HIP). Поддержки NPU на текущий момент в ней нет.

PS: пару месяцев назад были дискуссии насчёт поддержки XDNA в GGML - и Георгий Герганов просто попросил работающий пример из SDK - которого не оказалось. На том всё и заглохло. Если в этой сборке есть такой пример - то может лёд и тронется.

upd: благодаря хорошей архитектуре базовая поддержка в GGML может появиться в течении нескольких недель.

azazello ★★★★
(11.11.25 13:20:59 MSK)
Последнее исправление: azazello 11.11.25 13:32:01 MSK (всего исправлений: 3)

Ссылка

Ответ на: комментарий от oren 11.11.25 12:41:25 MSK

Не запускалась эта шляпа на 7840HS (AMD Ryzen™ 7040 Series processors). И модели все равно надо готовить https://ryzenai.docs.amd.com/en/latest/oga_model_prepare.html

Use –data_type bfloat16 for bf16 pretrained model. For fp32/fp16 pretrained model use –datatype float16

Но запускать на бытовом железе такие модели для бытовухи, нафига.

One ★★★★★
(11.11.25 13:32:33 MSK)

Ссылка

Ответ на: комментарий от Lordwind 11.11.25 12:13:29 MSK

Там оператива 8 ггц на 256 битной шине. Узкие горла - Radeon 8600S и max TDP

steemandlinux ★★★★★
(11.11.25 13:32:45 MSK)
Последнее исправление: steemandlinux 11.11.25 13:33:23 MSK (всего исправлений: 1)

Ответ на: комментарий от steemandlinux 11.11.25 13:32:45 MSK

оператива 8 ггц на 256 битной шине

Я не сварщик, но вроде там латентность самая важная штука. Поэтому всякие Mac Studio смотрятся сильно круче.

Lordwind ★★★★★
(11.11.25 14:33:26 MSK)

Ответ на: комментарий от Lordwind 11.11.25 14:33:26 MSK

Так тут как раз хорошая латентность, память то процессорная.

steemandlinux ★★★★★
(11.11.25 14:51:20 MSK)

Ссылка

Ответ на: комментарий от Lordwind 11.11.25 14:33:26 MSK

Интересно, чем маковское железо сильно круче Ryzen AI Max+ 395?

steemandlinux ★★★★★
(11.11.25 14:57:09 MSK)

Ответ на: комментарий от steemandlinux 11.11.25 14:57:09 MSK

Видел на прохайтеке сравнение планшета с Ryzen AI 395 и какой-то яблочной штуки. Там они в обе стороны гуляли.

Но по цене яблоки точно впереди может быть даже кратно. 🤣

Radjah ★★★★★
(11.11.25 15:27:57 MSK)

Ссылка

Ответ на: комментарий от Lordwind 11.11.25 12:13:29 MSK

У Ryzen AI общая шина или другая магия? Я просто не очень понимаю какой смысл от LLM на оперативе.

Оперативка у них относительно быстрая (LPDDR вроде называется), распаяна рядом с процем. А вообще, новая архитектура LLM сейчас пошла в сторону VRAM+RAM. Поэтому на DDR сейчас цены взлетели. Покупаешь себе GPU, допустим 24 GB, а рядом 512 GB DDR5 и оно сможет запускать LLM-ми на уровне GPT5. Сейчас как раз китайцы выпустили LLM на 1 триллион параметров на этой архитектуре.

Так что, эта рязань за 2000 USD по сути устарела, только-только выйдя на рынок. Как и аналог от невидии за 4000 USD. Как и маки с кучей памяти.

foror ★★★★★
(11.11.25 15:33:27 MSK)
Последнее исправление: foror 11.11.25 15:34:39 MSK (всего исправлений: 1)

Ответ на: комментарий от Lordwind 11.11.25 14:33:26 MSK

Вы не сварщик. Для трансформеров главное - полоса пропускания памяти и её количество (для других типов сетей может быть виычислительная мощность).

Латентность памяти в общем случае важна для случайного доступа, а в моделях нейросетей размером в десятки гигабайт почти всегда чтение последовательное.

Латентность памяти(GDDRx) в GPU значительно выше таковой для CPU и достигает нескольких сотен наносекунд. Для HBM памяти она ещё чуть выше, чем для аналогичной GDDRx.

почитать, если интересно https://chipsandcheese.com/p/measuring-gpu-memory-latency

azazello ★★★★
(11.11.25 15:38:46 MSK)
Последнее исправление: azazello 11.11.25 15:39:49 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от foror 11.11.25 15:33:27 MSK

Покупаешь себе GPU, допустим 24 GB, а рядом 512 GB DDR5 и оно сможет запускать LLM-ми на уровне GPT5.

В общем случае не сможет. Даже если в основной RAM будет всего пара слоёв сетки - её намного меньшая скорость(раз 10) - падение будет очень сильное. А если, как вы предлагаете 24/512 - то видеокарта не нужна вообще - разница будет в переделах пары процентов.

Можете взять любую интересную себе сетку и llama.cpp - и используя ключ -ngl(--n-gpu-layers) - поиграться с тем, в какую память помести слои и получить цифры производительности

upd: GPT5 размером больше терабайта - и крутится на DSG системе с несколькими GPU класса B200(GPU Memory 1,440 GB total, 64 TB/s HBM3e bandwidth). На 24 ГБ виеокарте у вас будет bandwidth в 100+ раза меньше(пусть 512GB/s). Ну и скорость во столько же раз тоже меньше(не считая того, что не влезет).

azazello ★★★★
(11.11.25 15:46:47 MSK)
Последнее исправление: azazello 11.11.25 15:52:32 MSK (всего исправлений: 3)

Ответ на: комментарий от foror 11.11.25 15:33:27 MSK

новая архитектура LLM сейчас пошла в сторону VRAM+RAM

Так то да, модели такие есть, только они сильно проигрывают в глубине рассуждений. Поэтому я и спросил а нужно ли оно на практике. Тривиальные задачи с чоткими промтами и 32B решают на ура, а это на минуточку дешманский макбук за 2 штуки.

Lordwind ★★★★★
(11.11.25 15:46:47 MSK)

Ссылка

Ответ на: комментарий от oren 11.11.25 12:41:25 MSK

А на линукс нету сборки? Ябпотестил.

dnb ★★★★
(11.11.25 15:57:09 MSK)

Ссылка

Ответ на: комментарий от azazello 11.11.25 15:46:47 MSK

Я про kimi k2 с архитектурой MoE, которая по тестам на уровне gpt5, но работает на VRAM+RAM с 1 триллионом параметров.

foror ★★★★★
(11.11.25 16:05:31 MSK)
Последнее исправление: foror 11.11.25 16:06:14 MSK (всего исправлений: 1)

Ответ на: комментарий от foror 11.11.25 16:05:31 MSK

с архитектурой MoE

Поэтому я и написал, что «В общем случае не сможет.».

Я про kimi k2

Она уже в квантифицированном виде int4 изначально поставляется, что уже не очень хорошо. И ребята с unsloth ещё больше её пережали - так что таки влазит в 512ГБ. Но это для развлечения - для работы(т.е. повторяемости результатов) нужно где-то Q6_K, которые из этой модели получить уже нельзя.

А вот стихи писать можно ;)

azazello ★★★★
(11.11.25 17:14:16 MSK)

Ответ на: комментарий от steemandlinux 11.11.25 14:57:09 MSK

Многоканальностью намного круче. Иметь 819.3 GB/s в Маках и 272 в Рязани - другой мир. И полная поддержка FP4/FP8 в M3 и выше, когда amd засунула отсталую RDNA3.5

One ★★★★★
(11.11.25 18:29:14 MSK)

Уныло, Хоботов. ©

Что значит эта ваша «начальная поддержка» Линукс?

sparkie ★★★★★
(11.11.25 19:17:02 MSK)

Ответ на: комментарий от One 11.11.25 18:29:14 MSK

Иметь 819.3 GB/s в Маках и 272 в Рязани - другой мир.

Что за сказки?

steemandlinux ★★★★★
(11.11.25 20:47:44 MSK)

Ссылка

Ответ на: комментарий от One 11.11.25 18:29:14 MSK

Так откуда там 819.3 GB/s?

steemandlinux ★★★★★
(11.11.25 22:22:58 MSK)

Ответ на: комментарий от sparkie 11.11.25 19:17:02 MSK

Что значит эта ваша «начальная поддержка» Линукс?

«Начинают начинать» поддерживать, видимо... :)))

Somebody ★★★★
(11.11.25 22:37:32 MSK)

Ответ на: комментарий от steemandlinux 11.11.25 22:22:58 MSK

512 * 2 / 8 * 6400 = up to 819.2

One ★★★★★
(11.11.25 22:45:23 MSK)
Последнее исправление: One 11.11.25 22:45:37 MSK (всего исправлений: 1)

Ответ на: комментарий от One 11.11.25 22:45:23 MSK

Откуда там два?

steemandlinux ★★★★★
(11.11.25 23:03:04 MSK)

Ссылка

Ответ на: комментарий от One 11.11.25 22:45:23 MSK

https://support.apple.com/en-il/121553

https://support.apple.com/en-us/117736

steemandlinux ★★★★★
(11.11.25 23:05:52 MSK)

Ответ на: комментарий от steemandlinux 11.11.25 23:05:52 MSK

Очки дать? Ultra

One ★★★★★
(11.11.25 23:07:51 MSK)

Ответ на: комментарий от One 11.11.25 23:07:51 MSK

Ну давай.

steemandlinux ★★★★★
(11.11.25 23:13:31 MSK)

Ответ на: комментарий от steemandlinux 11.11.25 23:13:31 MSK

Поэтому всякие Mac Studio смотрятся сильно круче.

https://www.apple.com/mac-studio/specs/

Apple M3 Ultra chip. M3 Ultra with 32‑core CPU, 80‑core GPU, and 32‑core Neural Engine (819GB/s memory bandwidth)

Открываешь например, https://github.com/ggml-org/llama.cpp/discussions/4167 и видишь что в llama 7B mostly F16 практический тест - 532Gb/s с утилизацией в 65% от теоретического максимума, что очень неплохо.

One ★★★★★
(11.11.25 23:25:31 MSK)
Последнее исправление: One 11.11.25 23:52:17 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Somebody 11.11.25 22:37:32 MSK

=)))

sparkie ★★★★★
(12.11.25 00:27:38 MSK)

Ссылка

Ответ на: комментарий от Lordwind 11.11.25 12:13:29 MSK

Они целяться в тот же подход, что реализовал Йепель в своей платформе, когда память, довольно эффективно, шарится между CPU и GPU.

Не думаю, что там сравнимые цифры, но через пару поколейний может быть норм. Вспомним первые версии CUDA

Yustas ★★★★
(12.11.25 12:00:44 MSK)
Последнее исправление: Yustas 12.11.25 12:01:24 MSK (всего исправлений: 1)

Ответ на: комментарий от Yustas 12.11.25 12:00:44 MSK

Йепель

vitruss ★★★★★
(12.11.25 16:14:30 MSK)

Ответ на: комментарий от vitruss 12.11.25 16:14:30 MSK

*Apple

/fixed

Yustas ★★★★
(12.11.25 16:21:06 MSK)
Последнее исправление: Yustas 12.11.25 16:21:14 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от azazello 11.11.25 17:14:16 MSK

Да-да. Конечно же, gpt не квантованы в те же самые 4 бита, что вы! И их единственная открытая модель в четвертом кванте выпущена из любви к пользователям.

Вы, во первых, разные способы квантования сравниваете (почему это плохая идея можно увидеть, посмотрев сравнение GGUF с EXL3), во вторых не учитываете, что чем больше модель, тем меньше она деградирует от квантования. 6бит на вес - это размер, при котором разница в генерации с полными весами на столько незначительна, что вы ее не заметите, 4 бита - незначительная разница с 6 битами. И это справедливо для моделей примерно от 12 миллиардов параметров, дальше там разница будет еще меньше.

Naurim ★
(12.11.25 18:36:17 MSK)

Ответ на: комментарий от Naurim 12.11.25 18:36:17 MSK

единственная открытая модель в четвертом кванте

GPT-OSS-120b и GPT-OSS-20b = две и обе MXFP4

One ★★★★★
(12.11.25 18:43:20 MSK)

Ссылка

Ответ на: комментарий от Naurim 12.11.25 18:36:17 MSK

Конечно же, gpt не квантованы в те же самые 4 бита, что вы!

Я даже не знал про 4 бита там - прогнал GPT-OSS на паре своих тестов на C/ASM коде - она провалилась - и успешно забыл про её существование ;)

4 бита - незначительная разница с 6 битами. И это справедливо для моделей примерно от 12 миллиардов параметров, дальше там разница будет еще меньше.

Наверняка, у нас разные задачи. Обычно использую Qwen 3 coder (MoE 30B/3B) - разница между Q4_K_XL и Q6_K_XL(обе от unsloth) огромна в низкоуровневом программировании. 4 битовая просто несёт ересь ;)

azazello ★★★★
(21.11.25 20:52:04 MSK)
Последнее исправление: azazello 21.11.25 20:53:41 MSK (всего исправлений: 2)

Ссылка

Для того чтобы оставить комментарий войдите или зарегистрируйтесь.

Тема будет перемещена в архив 11.02.26 08:27:48 MSK.

←	Запуск от root и дефолтные пароли: советы от ИИ подвергают угрозам безопасность домашней сети

Hardware and Drivers

Apache NetBeans 28

→

Похожие темы