История изменений

Исправление ~~One~~, 18.12.25 17:43 (текущая версия) :

GLM-4.5-Air (106B) MXFP4 with 131072 token context: ~ 25 t/s

Intellect-3 (106B) Q5_K with 131072 token context: ~ 20 t/s

Minimax M2 (172B REAP version) IQ4_S with 150000 token context: ~ 25 t/s

GPT-OSS-120B (120B) MXFP4 with 131072 token context: ~47 t/s

Qwen3-Next (80B) Q6_K with 262144 token context: ~26 t/s

Вполне так хорошо, не нужно никакого внешнего GPU со скудными 16/24/32гб (если ограничиваться MoE).

Исходная версия ~~One~~, 18.12.25 17:41:

GLM-4.5-Air (106B) MXFP4 with 131072 token context: ~ 25 t/s

Intellect-3 (106B) Q5_K with 131072 token context: ~ 20 t/s

Minimax M2 (172B REAP version) IQ4_S with 150000 token context: ~ 25 t/s

GPT-OSS-120B (120B) MXFP4 with 131072 token context: ~47 t/s

Qwen3-Next (80B) Q6_K with 262144 token context: ~26 t/s

Вполне так хорошо, не нужно никакого внешнего GPU со скудными 16/24/32гб.