История изменений
Исправление One, (текущая версия) :
Практично - 16 / 24 гб памяти.
Будущее за MoE моделями, все «полноценные» модели даже с Q4_K_M в десяток раз медленнее.
Но все равно 12гб очень мало. openai/gpt-oss-20b требуется от 16 гб, qwen3 30b от 24 гб.
Входной билет с CUDA - Rtx 5060 ti 16 gb за 41-42 тыс. рэ. При этом можно даже использовать и 120b MXFP4 со скоростью около 10-15 токенов в секунду, потыкав слои правильно
Можно купить и б/у intel arc A770 с 16гб за 20-22к поиграться с годик, пока потребность не стабилизируется, но не торт.
Исходная версия One, :
Практично - 16 / 24 гб памяти.
Будущее за MoE моделями, все «полноценные» модели даже с Q4_K_M в десяток раз медленнее.
Но все равно 12гб очень мало. openai/gpt-oss-20b требуется от 16 гб, qwen3 30b от 24 гб.
Входной билет с CUDA - Rtx 5060 ti 16 gb за 41-42 тыс. рэ.
Можно купить и б/у intel arc A770 с 16гб за 20-22к поиграться с годик, пока потребность не стабилизируется, но не торт.