История изменений

Исправление One, 23.09.25 10:29 (текущая версия) :

Практично - 16 / 24 гб памяти.

Будущее за MoE моделями, все «полноценные» модели даже с Q4_K_M в десяток раз медленнее.

Но все равно 12гб очень мало. openai/gpt-oss-20b требуется от 16 гб, qwen3 30b от 24 гб.

Входной билет с CUDA - Rtx 5060 ti 16 gb за 41-42 тыс. рэ. При этом можно даже использовать и 120b MXFP4 со скоростью около 10-15 токенов в секунду, потыкав слои правильно

Можно купить и б/у intel arc A770 с 16гб за 20-22к поиграться с годик, пока потребность не стабилизируется, но не торт.

Исходная версия One, 23.09.25 10:21:

Практично - 16 / 24 гб памяти.

Будущее за MoE моделями, все «полноценные» модели даже с Q4_K_M в десяток раз медленнее.

Но все равно 12гб очень мало. openai/gpt-oss-20b требуется от 16 гб, qwen3 30b от 24 гб.

Входной билет с CUDA - Rtx 5060 ti 16 gb за 41-42 тыс. рэ.

Можно купить и б/у intel arc A770 с 16гб за 20-22к поиграться с годик, пока потребность не стабилизируется, но не торт.