AMD GAIA 0.20.0

amd, gaia, ryzen ai

Опубликован выпуск AMD GAIA 0.20.0 — открытого фреймворка для запуска локальных AI-агентов на ПК с аппаратным ускорением AMD Ryzen AI. Проект распространяется под лицензией MIT, поддерживает Windows и Linux, а установка доступна через пакет amd-gaia. Сам тег v0.20.0 опубликован 3 июня, но в новостную ленту релиз попал 4–5 июня.

Главное изменение версии — нормальный выбор устройства выполнения для каждого агента. Раньше GAIA по умолчанию использовала GPU через backend на базе llama.cpp и не давала удобного способа переключить конкретного агента на CPU или энергоэффективный Ryzen AI NPU. В GAIA 0.20.0 агенты могут объявлять поддерживаемые устройства, а пользователь выбирает CPU, GPU или NPU через Agent UI либо CLI-флаг --device {cpu,gpu,npu}. GPU остаётся вариантом по умолчанию, а профиль gaia init --profile npu берёт на себя обнаружение NPU, установку FLM-backend и загрузку модели.

Изменения в выпуске:

Выбор CPU/GPU/NPU для отдельных агентов. Позволяет запускать тяжёлые сценарии на GPU, а менее требовательные или фоновые — на NPU или CPU. Для владельцев Ryzen AI это особенно важно: NPU можно использовать для локального вывода с меньшим энергопотреблением, не занимая видеоядро.
Agent Hub TUI. При запуске gaia без аргументов теперь открывается терминальный центр управления агентами. Через него можно просматривать, искать, запускать и администрировать агентов без графического интерфейса. Разработчики указывают размер standalone-бинарника около 21 МБ и запуск менее чем за 200 мс.
Более строгий контроль MCP-инструментов. Для MCP-коннекторов добавлен второй уровень управления — activations. Теперь выданный агенту коннектор не обязан автоматически добавлять все свои инструменты в prompt: инструменты становятся видимыми только после явного включения для пары «коннектор — агент». Это уменьшает шум в prompt и помогает небольшим моделям точнее выбирать нужные действия.
Ускоренная обработка почты. Email-агент получил семь новых batch-инструментов для массовой организации входящих. По данным разработчиков, типовой сценарий сократился примерно с 13 LLM-запросов до 2–3 шагов, время обработки — с 488 секунд до 30–60 секунд, а расход токенов — примерно с 12 тысяч до 1,2 тысячи.
RAG по PowerPoint-файлам. GAIA теперь напрямую индексирует .pptx: текст, таблицы, заметки докладчика и встроенные изображения через VLM-анализ. Раньше пользователю предлагалось сначала сохранять презентации в PDF.
Усиление безопасности и устойчивости первого запуска. В релизе закрыт обход защиты от записи через символические ссылки в Python 3.10/3.11, расширены ограничения записи ещё на четыре файловых инструмента, а также исправлена ошибка диагностики повреждённой модели, из-за которой могла запускаться повторная загрузка примерно 25 ГБ данных.

GAIA развивается как локальная альтернатива облачным AI-сервисам: данные остаются на машине пользователя, а выполнение можно переносить между CPU, GPU и NPU в зависимости от задачи. Для AMD это ещё и демонстрация практического применения Ryzen AI не только как маркетингового блока в процессоре, но и как отдельного вычислительного устройства для локальных агентов.

>>> Источник

Ссылка

← Qualcomm реализует начальную поддержку Lenovo Yoga Slim 7x Gen11 на Snapdragon X2

AMD реализовала начальную поддержку HDMI 2.1 FRL для открытого драйвера AMDGPU →

Вообще нигде и никогда не видел тесты (ни скорости ни энергосбережения) на реальных моделях сколько и чего дает AMD NPU.

Вулкан и почти есть ROCm, и для всего хватает.

~~One~~ ★★★★★
(05.06.26 10:23:41 MSK)

Вообще нет смысла локальным агентам, они в любом случае будут уступаит веб агентам. Даже если как взять с собой ИИ, это всё равно меркнет перед вебом)

REDDERa
(05.06.26 15:20:53 MSK)

ну и теги xdna xilinx, потому что все npu в soc amd - xilinx, внезапно. +200м блобов.

etwrq ★★★★★
(05.06.26 16:05:57 MSK)
Последнее исправление: etwrq 05.06.26 16:06:10 MSK (всего исправлений: 1)

Ссылка

интересно, попробую.

сейчас пользую лимонад, субъективно flm (запускается на npu) проигрывает движкам на gpu.

идеально было бы, чтобы можно было ипользовать npu+gpu одновременно: префил на npu, генерацию на gpu.

кажется, технически так можно уже делать, но пока не видел удобного инструмента для этого.

sgm
(05.06.26 17:37:44 MSK)
Последнее исправление: sgm 05.06.26 17:54:34 MSK (всего исправлений: 1)

Ссылка

А кто-нибудь помнит, что под тем же названием когда-то существовала картографическая программа, которую Google заставил убрать?..

hobbit ★★★★★
(05.06.26 19:18:11 MSK)

Ответ на: комментарий от REDDERa 05.06.26 15:20:53 MSK

Развивается софт, развивается железо, скорее всего мощностей скоро будет просто достаточно, чтобы пускать локально удовлетворительно умный ИИ, вот и АМД и идёт этой дорогой.

GAMer ★★★★★
(05.06.26 20:59:04 MSK)

Ответ на: комментарий от hobbit 05.06.26 19:18:11 MSK

Вот эта, что ли? Не помнил и не знал, но в Гугле она еть.

red_dragon ★
(06.06.26 01:41:10 MSK)

Ссылка

Ответ на: комментарий от GAMer 05.06.26 20:59:04 MSK

Развивается софт, развивается железо, скорее всего мощностей скоро будет просто достаточно, чтобы пускать локально удовлетворительно умный ИИ

Основная проблема - тренировать и хранить веса. Для локального запуска (без тренировки) производительности и так хватает, а вопрос больше в оперативке и накопителе.

anonmyous ★★★
(06.06.26 10:48:47 MSK)

Ответ на: комментарий от anonmyous 06.06.26 10:48:47 MSK

хранить веса

добром не кончится

unclestephen ★★★★★
(06.06.26 11:05:08 MSK) автор топика

Ссылка

Ответ на: комментарий от One 05.06.26 10:23:41 MSK

Говорю как владелец Ryzen AI 350.

Инференс на NPU где-то в полтора раза медленнее, чем на встройке через Vulkan.

Но! Энергопотребление при использовании NPU на порядок ниже. Процессор почти не греется, вентилятор молчит; батарея, соответственно, тоже разряжается медленно.

Это идеальный вариант для локальных «умных ассистентов», которым достаточно относительно небольшой оптимизированной модели на несколько миллиардов параметров.

ultranium
(06.06.26 11:43:39 MSK)

Ответ на: комментарий от REDDERa 05.06.26 15:20:53 MSK

Локальные агенты можно настроить так чтобы они без цензуры были. Плюс бесплатные. Плюс доступны только одному пользователю, то есть никаких очередей. Конечно придется потратится на железо и потратить время на настройку.

vbcnthfkmnth123 ★★★★★
(06.06.26 11:45:06 MSK)

Ссылка

Ответ на: комментарий от ultranium 06.06.26 11:43:39 MSK

Инференс на NPU где-то в полтора раза медленнее, чем на встройке через Vulkan.

На чистом NPU возможен такой быстрый инференс? То есть условно вместо 20 токенов в секунду на Qwen3.6-35B-A3B выдаёт 15?

Или к MoE NPU неприменим

~~One~~ ★★★★★
(06.06.26 22:45:25 MSK)
Последнее исправление: One 06.06.26 22:47:58 MSK (всего исправлений: 1)

Ответ на: комментарий от One 06.06.26 22:45:25 MSK

Тут скорее не заслуга NPU, а недоработка слабенькой встройки Radeon 860M.

Qwen 3.6 в каталоге FFLM пока нет, есть 3.5-9B.

Даю запрос «Tell me about Sun in 200 words»

FFLM справляется за 26 секунд (Prefill 12.8tps, Decoding 9.6tps), ollama - за 23 секунды (prompt eval 82.5tps, eval 13.8tps).

Такое ощущение, что в последней версии FastFlowLM даже стала пошустрее.

В общем, производительность на NPU для небольших моделей вполне удовлетворительная, плохо лишь то, что нельзя использовать модели в общедоступных форматах вроде GGUF, нужны именно сконвертированные под FFLM, которых пока мало. Ребята вроде обещали запустить конвертер, но пока приходится довольствоваться тем, что есть в официальном каталоге.

ultranium
(08.06.26 10:53:46 MSK)

Ссылка

Для того чтобы оставить комментарий войдите или зарегистрируйтесь.

← Qualcomm реализует начальную поддержку Lenovo Yoga Slim 7x Gen11 на Snapdragon X2

Искусственный Интеллект

AMD реализовала начальную поддержку HDMI 2.1 FRL для открытого драйвера AMDGPU →

Похожие темы