LLM на локальном железе

0

3

Недавно вышел ролик, как раз про тестирование LLM на локальном железе:

https://www.youtube.com/watch?v=mwNMjmICa04

Я написал развёрнутый комментарий и хочу поделиться так же с вами. Хочу узнать у кого какой ценный практический опыт и, может быть, подобрать лучшие модели для себя. Я запускал .gguf модели на RTX 3060 на офтопике, в llama.cpp

12:00 Да, могу подтвердить, llama-server.exe -m ../model/google_gemma-3-12b-it-Q4_K_M.gguf –context-shift –threads 16 -ngl 999 выдаёт на RTX 3060 12 GB 32 токена в секунду. Это воспринимается очень комфортно. Но проку от этой модели мало, только как переводчик. Если подключить проектор, mmproj, скорость упадёт до 14.. 20 токенов, что уже напрягает. llama-server.exe -m ../model/google_gemma-3-12b-it-Q5_K_M.gguf –mmproj ../model/mmproj-google_gemma-3-12b-it-f16.gguf –ctx-size 32768 –threads 16 -ngl 999 Гораздо лучше будет использовать аналогичную модель, с меньшим количеством слоёв: llama-server.exe -m ../model/google_gemma-3-4b-it-Q4_K_M.gguf –mmproj ../model/mmproj-google_gemma-3-4b-it-f16.gguf –context-shift –threads 12 –gpu-layers 999 Она будет прекрасно летать и даже на GTX 1650. Там будет неплохая скорость, порядка 20 токенов. Но распознавание будет не быстрым. Да, простой текст и даже от руки она будет хорошо распознавать. Но страницу A4 с двухколоночной вёрсткой нормально не распознает, начнёт глючить и перевирать текст.

14:20, для меня удивительно что CPU 9800X3D выдаёт «рабочие» 14 токенов в секунду с моделью 30B. С моделью 12B мой да, старый, да холодный, зеон на CPU выдаёт 3.3 токена в секунду. Если учесть DDR5, высокие частоты и современную топологию, современный CPU в тех же условиях выдал бы до 7 токенов. Но если повысить модель с 12B до 30B, я думаю производительность упала бы катастрофически даже у современного CPU, т. к. x86-64 архитектура плохо пригодна для запуска модели на llama.cpp. Ваш тест говорить что стоит присматриваться к современным CPU x86-64 и они могут что то выдать с довольно тяжёлыми моделями 32B. Я правда не знаю какая от них практическая польза и как они себя поведут с mmproj. Думаю производительность сильно упадёт и опять не будет проку от этого. Добавлю что Qwen 7B сильно проигрывает аналогичной и даже худшей gemma-3-4b-it-Q4_K_M, в задачах работы с языком, переводами. gemma-3-4b-it-Q4_K_M 0 - выдаёт хорошее качество и может даже решать школьные задачи. Может работать с распознаванием текста. Может помочь в системном администрировании. qwen2.5-coder-14b-instruct-q4_k_m.gguf, на моей RTX 3060 12 GB показала себя как достаточно адекватный помошник в кодинге. Конечно она проигрывает онлайн-решениям но выдавала адекватные результаты в приемлимые скроки. Если её подключить к IDE она будет толкова, на мой взгляд, в режиме copilot. Но у меня мало опыта в кодинге и онлайн решения дают быстрый и качественный результат, так что утверждать не моогу.

Добавлю что видел, модель 32B запускается на Mac M4 и выдаёт довольно приличные скорости, порядка 60 токенов, за счёт оптимизаций Metal, в LLM Studio.

Так же я пробовал собирать llama.cpp с Vulkan и там вижу падение производительности с Nvidia порядка 5.. 10%, к сожалению. Сборка, которую я использую - llama-b6341-bin-win-cuda-12.4-x64

codellama-7b.Q4_0.gguf, DeepSeek-R1-Distill-Llama-8B-Q5_K_L.gguf показали себя неудовлетворительно. Последний показал себя неожиданно, при запросе он какое то время думает и потом запускает стриминг. Это выглядит впечатлающе но результаты он выдавал малопригодные.

Теперь по сути. Вот тесты, которые я задавал:

Плоскость задана тремя точками: (0, 0, 2), (0, 2, 0) и (2, 0, 0). Найди z, соответствующие точкам (1, 1, z) и (0.35, 0.45, z), лежащим на данной плоскости. Ответы должны быть 0 и 1.2 для точек. google_gemma-3-4b-it-Q4_K_M.gguf уверенно проходит этот тест. Qwen2-VL-7B-Instruct-Q6_K_L.gguf и даже к сожалению qwen2.5-coder-14b-instruct-q4_k_m.gguf - не проходят.codellama-7b.Q4_0.gguf, DeepSeek-R1-Distill-Llama-8B-Q5_K_L.gguf - не проходят. Важно отметить так же вес модели на диске. google_gemma-3-4b-it-Q4_K_M.gguf - весит 4.5 гб и проходит уверенно данный тест. И я кстати не заметил особого улучшения качества ответов при повышении квантовки. Важно брать модели Q4_K_M и стараться подобрать наибольшее количество параметров, при котором, на вашем железе, модель всё ещё будет выдвать комфортные 20 токенов в секунду. Желательно что бы у этой модели был mmproj, что сильно расширяет ваш функционал, в части работы с изображениями.

Ещё раз, связка, которую могу рекомендовать к рассмотрению:

llama-server.exe -m ../model/google_gemma-3-4b-it-Q4_K_M.gguf –mmproj ../model/mmproj-google_gemma-3-4b-it-f16.gguf –context-shift –threads 12 –gpu-layers 999

Опишите, у кого какой опыт?

Мне бы хотелось подключить к модели:

поиск в интернет;
возможность работы в агентном режиме (был хороший опыт с warp, но он платный);
работу с офисными и прочими форматами (был хороший опыт с ollama WebUI, но я перешёл на llama.cpp, надо всё заново);
поиграть с LLoRa, RAG, JSON, что бы запоминать контекст и дообучать;
использовать улучшенный фронтэнд+бэкэнд, вместо llama-server.exe, с которым мало что можно сделать
может быть улучшить технологию сборки и перекатиться на сборку из github+vulkan
попытаться как то проработать ограничение с глубиной контекста, может быть разбивать данные на блоки, делать промежуточное резюме;
интегрироваться с AHK, прикладным софтом (приделать ручки);
добавить возможность работы со звуком, распознаванием речи (есть опыт с wisper, но пока костыли).
перейти на .safetensors модели, вместо .gguf, но самому делать квантовку

В общем хотелось бы эту технологию сделать практичнее для себя, для своих повседневных задач

Ссылка

←	Думаю о локальном Линуксокапце

Шпионская камера

→

← 1 2 →

У меня 8 гигов карточка и модели 12b не влезают в нее. Гоняю codellama, qwen, gemma, deepseek-coder 4b на 3070, отвечают моментально, но довериям им особо нет.

Поэтому пользуюсь ChatGPT, он бог среди всего этого кустарного бесплатного LLM’a

masa ★★★
(22.09.25 23:19:03 MSK)

Ответ на: комментарий от masa 22.09.25 23:19:03 MSK

Это да

baaba ★★★
(22.09.25 23:20:33 MSK) автор топика

Ответ на: комментарий от baaba 22.09.25 23:20:33 MSK

Ну с последнего моего захода на локлальные ЛЛМ пол года назад, новые как будто бы стали быстрее и чуть умнее. Есть даже мысли написать какого-то полезного агента на langchain. Но по существу мне мало что сказать. Пользуюсь Ollama, но на ней на самом деле дефолтные настройки какие-то не самые удачные, в сравнении с LLM Studio. Студийный qwen, например, гораздо меньше бредит, чем тот что в Ollama. Но уходить с олламы не хочу, слишком нравится простота настройки и отсуствите ГУЯ.

masa ★★★
(22.09.25 23:27:27 MSK)

Ответ на: комментарий от masa 22.09.25 23:19:03 MSK

ChatGPT испортили же, много жалоб. 4-й был на порядки лучше чем нынешний 5-й. Сейчас на первом месте Deepseek, на втором Алиса Про. Ещё, говорят, Grok неплох, но я его не видел. Qwen только с графикой хорошо работает, а тексты выдаёт слишком тупые.

saahriktu ★★★★★
(22.09.25 23:27:58 MSK)

Ответ на: комментарий от saahriktu 22.09.25 23:27:58 MSK

Переход на 5 как будто не заметил. Дипсиком пробовал пользоваться, но он после ГПТ какой-то неживой чтоли, слишком сухой.

masa ★★★
(22.09.25 23:29:14 MSK)

Ответ на: комментарий от masa 22.09.25 23:29:14 MSK

По моему опыту Deepseek, наоборот, склонен скатываться в вольную речь, вплоть до матов (замазанных звёздочками) и околоматерных слов. Алиса такого, вроде, себе не позволяет.

saahriktu ★★★★★
(22.09.25 23:31:39 MSK)

Ответ на: комментарий от saahriktu 22.09.25 23:31:39 MSK

Ну да, словоблудие тоже замечал.

Гпт по большей части я использую не для кодинга, а именно как языковую модель для изучения иностранных языков, пользы больше чем какого-нибудь гугл транслейтера.

Ну еще конфиги хорошо пишет, всякие ансиблы и системд юниты, что самому лень писать.

masa ★★★
(22.09.25 23:33:58 MSK)

Ссылка

Ответ на: комментарий от masa 22.09.25 23:27:27 MSK

masa

но уходить с олламы не хочу, слишком нравится простота настройки и отсуствите ГУЯ.

Не знаю, у меня были сложности с работой с буфером обмена. Второе - производительность и мне больше нравится скачивать модели единым .gguf. Я перешёл на llama.cpp и всё стало пободрее. Тут и GUI можно и терминал.

baaba ★★★
(22.09.25 23:37:06 MSK) автор топика

Ответ на: комментарий от baaba 22.09.25 23:37:06 MSK

Ну гуй у меня gptel в Emacs для кодинга и для общения простенькая самописная (написанная самой нейронкой) оболочка по типу Open WebUI. Но в локальных моделях я прям потенциала из коробки не вижу.

Вижу что можно создать заточенного агента, но его надо делать самому и тюнить под задачу, что мне лень, так что для решения реальных задач все равно возвращаюсь к ChatGPT, а локально, так, только поиграться.

А что а проблема буфером обмена? Он тебя прямо из буфера может брать текст? Как используешь?

masa ★★★
(22.09.25 23:44:24 MSK)

Ответ на: комментарий от masa 22.09.25 23:44:24 MSK

Даже простые локальные модели могут заменить собой Гугл в его отсутствие и решать простые задачи. Но чем задача сложнее, тем, конечно, нужна и более мощная модель чтобы ответ был адекватен.

Но на простых задачах разницы между ответами каких-нибудь 7b/8b Q6 моделей и тем же ChatGPT не видно абсолютно.

Причём, даже косяки одинаковые.

saahriktu ★★★★★
(22.09.25 23:49:47 MSK)
Последнее исправление: saahriktu 22.09.25 23:50:55 MSK (всего исправлений: 1)

Ссылка

Прелесть llama.cpp в том, что не обязательно, чтобы вся модель влезала в RAM+VRAM целиком. Таким образом можно запустить погрызанную (IQ3_XXS) DeepSeek-R1 на машине с 128Гб RAM локально, но будет 0.2 токена в секунду (AMD 9800X3D + Radeon 7800XT). Тем не менее, это сносно для «творческих задач» (закинул промт и ушёл на несколько часов).

DarkAmateur ★★★★
(23.09.25 02:16:49 MSK)

для меня удивительно что CPU 9800X3D выдаёт «рабочие» 14 токенов в секунду с моделью 30B

У zen5 есть поддержка avx512 и avx512_vnni с поддержкой int8(причем заметно прокачанная по скорости по сравнению с zen4), а у старого ксеона этого набора инструкций вовсе нет. Хотя много каналов памяти должны бы бустить пропускную способность памяти. И про частоты ты правильно заметил

cobold ★★★★★
(23.09.25 02:31:48 MSK)

Ссылка

Так а что эта штука локально умеет без даты?

bryak ★★★★
(23.09.25 02:37:01 MSK)

Ссылка

Так что, на 24 Гб VRAM уже норм будет? Или надо 32?

Shadow ★★★★★
(23.09.25 02:37:51 MSK)

Проверил множество локальных моделей на классической задаче: у Ани есть брат Петя и две сёстры. Сколько сестёр у Пети? Выжили далеко не все.

Самое плохое впечатление произвёл локальный Мистраль. Мало того что он туп как пробка, так ещё и упрям как осел.

Из моделей, которые прошли тест (Речь о моделях, которые встали в LMStudio).

gemma-3-27-it Q6_K - 22.17 Gb Лучший переводчик на русский и, что самое важное, с русского языка. Не влазит в видеопамять, поэтому очень медленный.
gemma-3-27b-it-qat Q4_0 - 16.43 Gb Умеет распознавать образы.
unsloth/qwen3-30b-a3b Q3_K5 - 13.29 Gb Любимая модель для поболтать. Быстрая. Путает римских императоров, но виду не подает.
qwen2.5-32b-instruct Q3_K5 - 14.39 Gb Неплохой быстрый кодировщик для несложных задач. Проверил для питона и js.

Локальный дипсик был настолько раздражающе болтлив, что я его со злости снес. Спрашиваю его: ты знаешь значение слова «многословный»? И он выдаёт мне определение на несколько страниц.

geometer ★
(23.09.25 06:14:55 MSK)
Последнее исправление: geometer 23.09.25 06:16:47 MSK (всего исправлений: 2)

Ответ на: комментарий от Shadow 23.09.25 02:37:51 MSK

24 вполне хватит.

geometer ★
(23.09.25 06:23:36 MSK)

Ответ на: комментарий от geometer 23.09.25 06:14:55 MSK

Логические задачи для нейросетей совсем не простые, если что. Тем более, что они могут тупо не распарсить о чём вопрос, если он слишком сложно составлен.

Популярные модели Deepseek'а сделаны так, что они отвечают как если бы в веб-интерфейсе обычного была нажата кнопка «Deepthink». Но есть и другие модели.

saahriktu ★★★★★
(23.09.25 06:27:46 MSK)

Ответ на: комментарий от saahriktu 23.09.25 06:27:46 MSK

Да, теперь я знаю про префикс /no_think

geometer ★
(23.09.25 06:42:26 MSK)

Ссылка

Ответ на: комментарий от DarkAmateur 23.09.25 02:16:49 MSK

Творческая задача, увы, предполагает постоянные корректировки идеи

One ★★★★★
(23.09.25 09:34:31 MSK)

Ссылка

Практично - 16 / 24 гб памяти.

Будущее за MoE моделями, все «полноценные» модели даже с Q4_K_M в десяток раз медленнее.

Но все равно 12гб очень мало. openai/gpt-oss-20b требуется от 16 гб, qwen3 30b от 24 гб.

Входной билет с CUDA - Rtx 5060 ti 16 gb за 41-42 тыс. рэ. При этом можно даже использовать и 120b MXFP4 со скоростью около 10-15 токенов в секунду, потыкав слои правильно

Можно купить и б/у intel arc A770 с 16гб за 20-22к поиграться с годик, пока потребность не стабилизируется, но не торт.

One ★★★★★
(23.09.25 10:21:00 MSK)
Последнее исправление: One 23.09.25 10:29:51 MSK (всего исправлений: 1)

Ответ на: комментарий от One 23.09.25 10:21:00 MSK

One

Будущее за MoE моделями, все «полноценные» модели даже с Q4_K_M в десяток раз медленнее.

Спасибо за информацию. Это что то новое. Я думаю попробовать Qwen3-MoE-A2.7B, что то такое что бы влезло на мою RTX 3060 12 GB. Новое железо покупать не хочу. Если она быстрее то и в текущей ситуации я увижу либо повышение скорости либо - подыму качетво ответов (количество параметров), сохраняя приемлимую скорость для себя.

baaba ★★★
(23.09.25 11:00:19 MSK) автор топика

Ответ на: комментарий от baaba 23.09.25 11:00:19 MSK

Не увидел сколько памяти на действующем железе Попробуй «взлететь» и на существующем.

https://habr.com/ru/companies/selectel/articles/934902/

тут полезно для себя когда-то открыл в комментариях текст, начиная с " Нужно выгрузить тензоры внимания со всех слоев в VRAM" …

Можно засунуть целые слои, чтобы заполнить те же 14гб. Для этого есть новый параметр –n-cpu-moe X, количество moe-слоев которые будут выгружена на CPU, остальное останется на GPU.

One ★★★★★
(23.09.25 11:52:49 MSK)
Последнее исправление: One 23.09.25 11:55:26 MSK (всего исправлений: 1)

Ссылка

Если оперативы 64 и больше, то попробуй gpt-oss-120b с квантизацией q6 или q4. По моему опыту это сейчас самая лучшая модель по скорости и качеству. На твоей карте с 12 гигами будет выдавать токенов 10. Если прикупишь ещё 12 гиг (или одну на 24), то будет гораздо резвее.

У меня playground на китайском зионе и двух CMP50HX по 10гиг выдаёт 12-14 токенов.

Puzan ★★★★★
(23.09.25 13:04:09 MSK)

Ответ на: комментарий от geometer 23.09.25 06:23:36 MSK

Фух, спасибо. Как раз на следующий месяц покупку старого 3090 запланировал. В основном для программирования и распознавания винных этикеток.

Shadow ★★★★★
(23.09.25 13:14:20 MSK)
Последнее исправление: Shadow 23.09.25 13:14:52 MSK (всего исправлений: 1)

Ответ на: комментарий от Puzan 23.09.25 13:04:09 MSK

64 и больше, то попробуй gpt-oss-120b с квантизацией q6 или q4.

Обычно не хватает 64 для OSS-120b с его полным контекстным окном (128k токенов) ( Сама модель на FP4 весит 62-63гб.

One ★★★★★
(23.09.25 13:15:32 MSK)
Последнее исправление: One 23.09.25 13:22:42 MSK (всего исправлений: 2)

Ответ на: комментарий от Shadow 23.09.25 13:14:20 MSK

Все таки давать такие советы - определённая ответственность. На всякий случай уточню - этой памяти хватит для перечисленных мной моделей.

geometer ★
(23.09.25 13:18:28 MSK)

Ответ на: комментарий от geometer 23.09.25 13:18:28 MSK

Ну тут вопрос - чтобы что-то вменяемое в автокомплите было. Всё, что менее 24 - точно не поместится.

Shadow ★★★★★
(23.09.25 13:24:32 MSK)

Ссылка

Я запускал .gguf модели на RTX 3060 на офтопике

llama-server.exe

Я не буду посылать на винфак, тема сама по себе кроccплатформенная. Но у меня есть сильное подозрение, что как минимум временнЫе характеристики в подобных экспериментах под виндой и линуксом могут отличаться.

hobbit ★★★★★
(23.09.25 13:38:50 MSK)

Ответ на: комментарий от One 23.09.25 13:15:32 MSK

Можно контекст поменьше сделать, да и в VRAM часть уходит.

Puzan ★★★★★
(23.09.25 14:14:28 MSK)

Ссылка

Ответ на: комментарий от saahriktu 22.09.25 23:27:58 MSK

4-й был на порядки лучше чем нынешний 5-й

на порядки

Пруфов, конечно же, не будет.

Сейчас на первом месте Deepseek, на втором Алиса Про.

У кого?

mamina_radost ★
(23.09.25 19:11:39 MSK)
Последнее исправление: mamina_radost 23.09.25 19:14:41 MSK (всего исправлений: 1)

Ответ на: комментарий от mamina_radost 23.09.25 19:11:39 MSK

У пассажиров веселого поезда, со стенами из шифера.

James_Holden ★★★★★
(23.09.25 19:17:58 MSK)

Ссылка

Ответ на: комментарий от mamina_radost 23.09.25 19:11:39 MSK

Пруфов не будет, да. Можете сравнить сами.

У кого?

У тех, кто сравнивает нейросети.

saahriktu ★★★★★
(23.09.25 23:04:44 MSK)

Ответ на: комментарий от saahriktu 23.09.25 23:04:44 MSK

Можете сравнить сами.

Про версия 5 превосходит 4, как и должна.

У тех, кто сравнивает нейросети.

Гражданин, на какие бенчмарки, тесты и людей конкртено вы ссылаетесь? На что именно проводились тесты? Вы представляете разницу в контекстном окне между DeepSeek и Gemini, или разницу в качестве ответа между claude и Алисой Про? Вы можете предоставить графики?

Я могу предоставить, но среди тех графиков не будет Алисы Про, ведь про неё никто не знает. Там будет qwen, который и брал яндекс для того чтобы слепить свою алису, но это уже совсем другая история.

mamina_radost ★
(24.09.25 00:57:04 MSK)
Последнее исправление: mamina_radost 24.09.25 00:57:30 MSK (всего исправлений: 1)

Ответ на: комментарий от mamina_radost 24.09.25 00:57:04 MSK

бенчмарки, тесты

В бенчмарках может что угодно побеждать, хоть Qwen. Это не отменяет того, что он выдаёт лютую дичь и не рассматривается серьёзными людьми как текстовый ИИ.

Подлинную картину надо не бенчмарками измерять, а самому садиться и смотреть. Тогда будет понятно, что графики графиками, а есть более удачные модели данных, а есть менее. К последним и относятся Qwen и ChatGPT 5.

saahriktu ★★★★★
(24.09.25 02:56:58 MSK)

Ответ на: комментарий от saahriktu 24.09.25 02:56:58 MSK

Гражданин, вы пойманы на лжи.

Сначала вы пишите, что

ChatGPT испортили же, много жалоб.

Потом пишите, что ссылаетесь на некую тайную ложу экспертов. Аж звучит магически.

У тех, кто сравнивает нейросети.

А позже, когда вас припёрли к стеночке и спросили пруфы, выясняется

Подлинную картину надо не бенчмарками измерять, а самому садиться и смотреть.

Так это был ваш личный опыт? Я так и представляю, как вы оформили api на claude opus, а потом открыли окошко в яндекс браузере и поняли, вот Алиса Про это сила, а позже зашли в астрал и сделали вывод, что gpt-5 не чита DeepSeek.

mamina_radost ★
(24.09.25 14:34:33 MSK)

Ответ на: комментарий от mamina_radost 24.09.25 14:34:33 MSK

Маленький промежуточный отчёт.

Нашёл такую: https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF Вроде как семь на восем слоёв из них 7 активных, круто.

Поддержка MoE вроде как есть в моей версии llama.cpp:

PS E:\llamacpp\llama-b6565-bin-win-cuda-12.4-x64> ./llama-server.exe –help|findstr moe ggml_cuda_init: GGML_CUDA_FORCE_MMQ: no ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no ggml_cuda_init: found 1 CUDA devices: Device 0: NVIDIA GeForce GTX 1650, compute capability 7.5, VMM: yes The following devices will have suboptimal performance due to a lack of tensor cores: Device 0: NVIDIA GeForce GTX 1650 Consider compiling with CMAKE_CUDA_ARCHITECTURES=61-virtual;80-virtual and DGGML_CUDA_FORCE_MMQ to force the use of the Pascal code for Turing. load_backend: loaded CUDA backend from E:\llamacpp\llama-b6565-bin-win-cuda-12.4-x64\ggml-cuda.dll load_backend: loaded RPC backend from E:\llamacpp\llama-b6565-bin-win-cuda-12.4-x64\ggml-rpc.dll load_backend: loaded CPU backend from E:\llamacpp\llama-b6565-bin-win-cuda-12.4-x64\ggml-cpu-haswell.dll –cpu-moe, -cmoe keep all Mixture of Experts (MoE) weights in the CPU –n-cpu-moe, -ncmoe N keep the Mixture of Experts (MoE) weights of the first N layers in the –cpu-moe-draft, -cmoed keep all Mixture of Experts (MoE) weights in the CPU for the draft –n-cpu-moe-draft, -ncmoed N keep the Mixture of Experts (MoE) weights of the first N layers in the gpt-oss, granite, grok-2, hunyuan-dense, hunyuan-moe, kimi-k2, llama2, gpt-oss, granite, grok-2, hunyuan-dense, hunyuan-moe, kimi-k2, llama2,

Запускаю так: ./llama-server.exe -m ../model/mixtral-8x7b-instruct-v0.1.Q4_K_M.gguf –threads 12 –gpu-layers 12 –n-cpu-moe 20

Но терплю фиаско:

print_info: PAD token = 0 ‘’ print_info: LF token = 13 ‘<0x0A>’ print_info: EOG token = 2 ‘’ print_info: max token length = 48 load_tensors: loading model tensors, this can take a while… (mmap = true) llama_model_load: error loading model: missing tensor ‘blk.0.ffn_down_exps.weight’ ←[0mllama_model_load_from_file_impl: failed to load model ←[0mcommon_init_from_params: failed to load model ‘../model/mixtral-8x7b-instruct-v0.1.Q4_K_M.gguf’, try reducing –n-gpu-layers if you’re running out of VRAM ←[0msrv load_model: failed to load model, ‘../model/mixtral-8x7b-instruct-v0.1.Q4_K_M.gguf’ ←[0msrv operator(): operator(): cleaning up before exit… main: exiting due to model loading error ←[0m

Попробую, может дома на 3060 взлетит.

А у вас как? Кому удалось запустить и вкусить плодов? Особенно на несильном, как у меня железе. Ведь деление на активные и пассивные слои должно дать нехилый профит и даже должно работать на CPU.

baaba ★★★
(24.09.25 19:46:17 MSK) автор топика
Последнее исправление: baaba 24.09.25 19:48:59 MSK (всего исправлений: 1)

Ответ на: комментарий от hobbit 23.09.25 13:38:50 MSK

Я не буду посылать на винфак

hobbit

Я вину свою осознаю и ощущаю. Но отчасти могу оправдать себя обстоятельствами своей жизни, коих я не могу предолеть в полной мере.

baaba ★★★
(24.09.25 19:47:41 MSK) автор топика

Ответ на: комментарий от baaba 24.09.25 19:47:41 MSK

Я вину свою осознаю и ощущаю.

Посмешили.

Вы лучше оформляйте более качественно свой текст. Читать почти невозможно. Блоки логов и вот ваших PS E:\llamacpp\llama-b6565-bin-win-cuda-12.4-x64> ./llama-server.exe –help|findstr moe ggml_

Должны выглядеть так:

E:\llamacpp\llama-b6565-bin-win-cuda-12.4-x64> ./llama-server.exe –help|findstr moe ggml_...

mamina_radost ★
(24.09.25 19:58:52 MSK)
Последнее исправление: mamina_radost 24.09.25 20:00:32 MSK (всего исправлений: 1)

Ответ на: комментарий от mamina_radost 24.09.25 19:58:52 MSK

Промежуточный отчёт: запуск Mixtral-8x7B-Instruct-v0.1-GGUF на слабом GPU

Нашёл модель на Hugging Face:
👉 TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF

Это Mixture of Experts (MoE) модель: 8 экспертов, из которых активны ~2 на каждый токен (в среднем 7 из 8 слоёв участвуют в вычислениях). В теории — отличный шанс запустить что-то мощное даже на слабом железе!

Поддержка MoE в llama.cpp

В моей сборке (llama-b6565-bin-win-cuda-12.4-x64) поддержка MoE есть — в --help явно указаны опции:

–cpu-moe, -cmoe keep all Mixture of Experts (MoE) weights in the CPU –n-cpu-moe, -ncmoe N keep the Mixture of Experts (MoE) weights of the first N layers in the CPU

GPU: NVIDIA GeForce GTX 1650 (4 ГБ VRAM, compute capability 7.5, без тензорных ядер).

Попытка запуска

Команда:

./llama-server.exe -m ../model/mixtral-8x7b-instruct-v0.1.Q4_K_M.gguf --threads 12 --gpu-layers 12 --n-cpu-moe 20

Но получаю ошибку:

llama_model_load: error loading model: missing tensor 'blk.0.ffn_down_exps.weight'
llama_model_load_from_file_impl: failed to load model
common_init_from_params: failed to load model '../model/mixtral-8x7b-instruct-v0.1.Q4_K_M.gguf'

baaba ★★★
(24.09.25 20:54:39 MSK) автор топика

Ответ на: комментарий от baaba 24.09.25 20:54:39 MSK

Промежуточный отчёт: запуск Mixtral-8x7B-Instruct-v0.1-GGUF на слабом GPU

Она старее чем моя борода. Года два точно уже, неудачный выбор для экспериментов. С gpt-oss-20b стоит начать экспериментировать.

One ★★★★★
(24.09.25 20:59:46 MSK)

Ответ на: комментарий от One 24.09.25 20:59:46 MSK

https://huggingface.co/openai/gpt-oss-20b/tree/main

Но она в .safetensors и весит подозрительно мало, всего 4.5 гб. Мне надо что бы в .gguf и весила под 23 гб, тогда будет толк

Можно попробовать самому заквантовать в Q4_K_M, но я ни разу это не делал, думаю это сложно.

То есть мне нужна корректная сборка llama.cpp с поддержкой MoE и модель в формате .gguf с квантовкой Q4_K_M, что бы было много параметров и 7-14B - активных. Это как раз для RTX 3060 c 12 GB. Уверен что люди уже во всю играются с такими моделями.

Желательно и с проектором, что бы можно было с изображениями работать.

baaba ★★★
(24.09.25 21:06:57 MSK) автор топика
Последнее исправление: baaba 24.09.25 21:09:56 MSK (всего исправлений: 3)

Ответ на: комментарий от baaba 24.09.25 21:06:57 MSK

Нативная же есть с MXFP4

https://lmstudio.ai/models/openai/gpt-oss-20b , размер 12.11 GB

как минимум и gguf у bartowski

https://huggingface.co/bartowski/openai_gpt-oss-20b-GGUF-MXFP4-Experimental/tree/main

https://huggingface.co/bartowski/openai_gpt-oss-20b-GGUF/tree/main

One ★★★★★
(24.09.25 21:16:52 MSK)
Последнее исправление: One 24.09.25 21:18:45 MSK (всего исправлений: 1)

Ответ на: комментарий от baaba 24.09.25 19:46:17 MSK

Ну я же вроде предупреждал насчёт Мистраля.(он же mixtral)

geometer ★
(24.09.25 21:50:27 MSK)

Ссылка

Ответ на: комментарий от One 24.09.25 21:16:52 MSK

One

./llama-server.exe -m ..\model\openai_gpt-oss-20b-MXFP4.gguf –threads 12 –gpu-layers 20 –n-cpu-moe 8

7 токенов в секунду на GTX 1650 4GB. Имхо неплохо. Премного благодарен за наводку. Пошёл пробовать. Потом на 3060 гляну.

baaba ★★★
(24.09.25 22:40:51 MSK) автор топика

Ответ на: комментарий от baaba 24.09.25 22:40:51 MSK

В общем она выдаёт 5-6 токенов. Грузит CPU на 80% все потоки и GPU на 74%. Упирается в контекст 4096 токенов. Кушает PDF (текстовый думаю только) но не изображения (что предсказуемо). При этом она выдаёт рассуждения и это сжирает драгоценные токены. Может если немного её отконфигурировать - можно будет увеличить глубину контекста. Пока ей не хватило глубины контекста что бы проанализировать анализы Инвитро. Но то что она выдала (а я знаю последующее развитие заболевания) весьма достойно и хорошо читаемо - модель дала понятную таблицу и там была отсылка к артриту, что в последствии от части подтвердилось но там было другое, похожее заболевание. Анемию она то же указала. То есть на медданных она натаскана. Задачу с плоскостью она решила, но тут ничего нового, это могут и более лёгкие модели (gemma и только gemma у меня) а задачу с колонной - не смогла к сожалению.

«Расчитай максимальную нагрузку, на деревянную стойку (колонну), с сечением 10 на 10 см, высотой 3 метра» - вот такая задачка.

Дома попробую увеличить ей контекст и подсунуть конфиги в JSON.

baaba ★★★
(24.09.25 23:11:23 MSK) автор топика
Последнее исправление: baaba 24.09.25 23:13:29 MSK (всего исправлений: 1)

Ответ на: комментарий от baaba 24.09.25 23:11:23 MSK

Кушает PDF (текстовый думаю только) но не изображения (что предсказуемо)

Для таких задач все же локальные llm не подходят. Облако - google ai studio на много лет вперёд , и доступно бесплатно и даже немало бесплатно не только через web с миллионным окном, а и через api (очень резиновая flash 2.5 по api 1000 запросов в день у меня летает)

Для автоматизации простого, активного, локальные модели вполне годятся, разложить что-то в json из небольшого текста, просклонять и т.д.

А, ну и wisper локально офигенно работает, бесплатно для себя отличный функционал

One ★★★★★
(25.09.25 01:56:09 MSK)
Последнее исправление: One 25.09.25 01:58:09 MSK (всего исправлений: 1)

Ответ на: комментарий от One 25.09.25 01:56:09 MSK

Я в России. У меня вряд-ли google ai studio будет работать.

baaba ★★★
(25.09.25 10:28:55 MSK) автор топика

Ответ на: комментарий от baaba 25.09.25 10:28:55 MSK

Я тоже из России. Через бесплатный dns от https://t.me/xbox_dns работает все почти прекрасно. Бывают редкие проблемы с маршрутизацией

One ★★★★★
(25.09.25 12:32:15 MSK)

Ответ на: комментарий от One 25.09.25 12:32:15 MSK

One

Через бесплатный dns от https://t.me/xbox_dns

Премного благодарен!

А как замена DNS поможет? Мне нужно и DNS заменить и включить VPN (смотря у кого что, у меня Outline), как я понимаю?

baaba ★★★
(26.09.25 11:35:29 MSK) автор топика
Последнее исправление: baaba 26.09.25 11:41:13 MSK (всего исправлений: 1)

Ответ на: комментарий от One 25.09.25 12:32:15 MSK

One

PS Поменял в роутере. Результат - ноль. То же самое «Available regions for Google AI Studio and Gemini API»

Может попробовать зайти с учётки Гугл, которая не привязана к России? Но в прошлый раз не помогло даже с VPN. Наверное что то не так делаю. Я уже забил. Понял что у меня это работать не будет. У меня кстати мобильный интернет (симка в роутере) это то же один из факторов. Ему нужен проводной интернет, догда может заработает через Outline+правильная учётка.

baaba ★★★
(26.09.25 12:08:18 MSK) автор топика

Ссылка

Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)

← 1 2 →

←	Думаю о локальном Линуксокапце

Talks

Шпионская камера

→

Промежуточный отчёт: запуск Mixtral-8x7B-Instruct-v0.1-GGUF на слабом GPU

Поддержка MoE в llama.cpp

Попытка запуска

Похожие темы