История изменений

https://huggingface.co/openai/gpt-oss-20b/tree/main

Но она в .safetensors и весит подозрительно мало, всего 4.5 гб. Мне надо что бы в .gguf и весила под 23 гб, тогда будет толк

Можно попробовать самому заквантовать в Q4_K_M, но я ни разу это не делал, думаю это сложно.

То есть мне нужна корректная сборка llama.cpp с поддержкой MoE и модель в формате .gguf с квантовкой Q4_K_M, что бы было много параметров и 7-14B - активных. Это как раз для RTX 3060 c 12 GB. Уверен что люди уже во всю играются с такими моделями.

Желательно и с проектором, что бы можно было с изображениями работать.

https://huggingface.co/openai/gpt-oss-20b/tree/main

Но она в .safetensors и весит подозрительно мало, всего 4.5 гб. Мне надо что бы в .gguf и весила под 23 гб, тогда будет толк

Можно попробовать самому заквантовать в Q4_K_M, но я ни разу это не делал, думаю это сложно.

То есть мне нужна корректная сборка llama.cpp с поддержкой MoE и модель в формате .gguf с квантовкой Q4_K_M, что бы было много параметров и 7-14B - активных. Это как раз для RTX 3060 c 12 GB. Уверен что люди уже во всю играются с такими моделями.

https://huggingface.co/openai/gpt-oss-20b/tree/main

Но она в .safetensors и весит подозрительно мало, всего 4.5 гб. Мне надо что бы в .gguf и весила под 23 гб, тогда будет толк

Можно попробовать самому заквантовать в Q4_K_M, но я ни разу это не делал, думаю это сложно.

https://huggingface.co/openai/gpt-oss-20b/tree/main

Но она в .safetensors и весит подозрительно мало, всего 4.5 гб. Мне надо что бы в .gguf и весила под 23 гб, тогда будет толк