История изменений
Исправление baaba, (текущая версия) :
https://huggingface.co/openai/gpt-oss-20b/tree/main
Но она в .safetensors и весит подозрительно мало, всего 4.5 гб. Мне надо что бы в .gguf и весила под 23 гб, тогда будет толк
Можно попробовать самому заквантовать в Q4_K_M, но я ни разу это не делал, думаю это сложно.
То есть мне нужна корректная сборка llama.cpp с поддержкой MoE и модель в формате .gguf с квантовкой Q4_K_M, что бы было много параметров и 7-14B - активных. Это как раз для RTX 3060 c 12 GB. Уверен что люди уже во всю играются с такими моделями.
Желательно и с проектором, что бы можно было с изображениями работать.
Исправление baaba, :
https://huggingface.co/openai/gpt-oss-20b/tree/main
Но она в .safetensors и весит подозрительно мало, всего 4.5 гб. Мне надо что бы в .gguf и весила под 23 гб, тогда будет толк
Можно попробовать самому заквантовать в Q4_K_M, но я ни разу это не делал, думаю это сложно.
То есть мне нужна корректная сборка llama.cpp с поддержкой MoE и модель в формате .gguf с квантовкой Q4_K_M, что бы было много параметров и 7-14B - активных. Это как раз для RTX 3060 c 12 GB. Уверен что люди уже во всю играются с такими моделями.
Исправление baaba, :
https://huggingface.co/openai/gpt-oss-20b/tree/main
Но она в .safetensors и весит подозрительно мало, всего 4.5 гб. Мне надо что бы в .gguf и весила под 23 гб, тогда будет толк
Можно попробовать самому заквантовать в Q4_K_M, но я ни разу это не делал, думаю это сложно.
Исходная версия baaba, :
https://huggingface.co/openai/gpt-oss-20b/tree/main
Но она в .safetensors и весит подозрительно мало, всего 4.5 гб. Мне надо что бы в .gguf и весила под 23 гб, тогда будет толк