Ollama: Linux VS Windows. Почему Windows быстрее???

linux, ollama, speed, windows, искусственный интеллект

0

1

Использую Ollama для запуска Qwen3 на 30B параметров. Почему-то на Linux скорость генерации токенов в десятки раз ниже, чем на Windows. Почему так? Почему на Windows ответ генерируется моментально, а на Linux черепашьими темпами?

Использую Debain 13 KDE. По началу грешил на драйвера, но на Manjaro KDE, где с драйверами точно порядок, проблема сохраняется. Процессор у меня Intel Core Ultra 7 255H, оперативной памяти 32 Гб. Я даже попробовал полностью отключить swap в системе, чтобы туда ни бита не попадало и расчеты не торомозились… но нет, даже не это помогло.

Как на Debain 13 получить скорость генерации токенов не хуже, чем на Windows? В чем проблема??? Чисто логически нейронки на Linux должны летать, ведь весь софт для работы с ними изначально на Linux и разрабатывался, но почему-то ситуация ровно обратная. Выходит Windows во всем лучше Linux?

P. S. Вот здесь выложил видео тест: https://disk.yandex.ru/d/amYiz4cf22o9ow

Можете наглядно увидеть разницу в скорости генерации токенов на Windows и Linux на одном и том же ноутбуке (Honor MagicBook 14 Art 2025).

P. S. S. Проблема решена: ollama на Debain не задействует GPU, а считает только на CPU и из-за этого все медленно. Официальных драйверов для встройки Inel для Debian 13 не существует, есть только под Ubuntu.

Ссылка

←	Можно ли эмулировать sse4.2 без потери фпс в кс2?

Не смог найти edk2 (из TianoCore) в debian 13

→

← 1 2 →

Не понял. Почему если винда лучше для нейронок она лучше во всем?

masa ★★
(02.11.25 13:41:47 MSK)

30b на 32 Гб и на cpu?

может ты все же разные модели скачал? Ну или в одном случае nvme, а в другом hdd. Т.к. в память эта модель ну никак не влезет

router ★★★★★
(02.11.25 13:42:40 MSK)
Последнее исправление: router 02.11.25 13:43:52 MSK (всего исправлений: 2)

Генерит на чём, на CPU или на GPU?

PcheloBiaka
(02.11.25 14:47:36 MSK)

Ответ на: комментарий от masa 02.11.25 13:41:47 MSK

Это я троллю, в надежде на помощь.

nadim
(02.11.25 15:01:02 MSK) автор топика

Ссылка

Ответ на: комментарий от router 02.11.25 13:42:40 MSK

Так оно с квантизаций, все влезает с большим запасом.

nadim
(02.11.25 15:01:34 MSK) автор топика

Ссылка

Ответ на: комментарий от PcheloBiaka 02.11.25 14:47:36 MSK

И Windows и Linux оба используют CPU на 100% и частично, без полной загрузки, GPU. По крайней мере такие впечатления от просмотра диспетчера задач / системного монитора.

nadim
(02.11.25 15:02:52 MSK) автор топика
Последнее исправление: nadim 02.11.25 15:03:07 MSK (всего исправлений: 1)

Ты ещё скажи, что один и тот же бинарь запускаешь

ya-betmen ★★★★★
(02.11.25 15:04:44 MSK)
Последнее исправление: ya-betmen 02.11.25 15:04:51 MSK (всего исправлений: 1)

Ответ на: комментарий от ya-betmen 02.11.25 15:04:44 MSK

Да нет конечно, точнее: я без понятия как устроен Ollama под копотом.

nadim
(02.11.25 15:06:00 MSK) автор топика

Ответ на: комментарий от nadim 02.11.25 15:02:52 MSK

С таким подходом ты будешь долго мучиться и нас мучить. Начни читать мануалы. И думать.

PcheloBiaka
(02.11.25 15:06:06 MSK)

Ответ на: комментарий от PcheloBiaka 02.11.25 15:06:06 MSK

Не нужно мучиться, сюда написал лишь в надежде, что кто-нибудь уже сталкивался с проблемой и знает решение. В конец концов, языковые модели и Ollama в частности довольного народу использует.

nadim
(02.11.25 15:07:25 MSK) автор топика

Ответ на: комментарий от nadim 02.11.25 15:06:00 MSK

я без понятия как устроен Ollama под копотом. Ровно это и надо исправить. Уверен, что в винде Оллама работает в одном режиме, а на линуксе в другом. Захоычешь чтобы заработало, начнёшь читать.

PcheloBiaka
(02.11.25 15:07:44 MSK)

Ответ на: комментарий от nadim 02.11.25 15:07:25 MSK

Я использую. Через cuda. Для запуска на других видеочипах надо читьать инструкции. И поскольку даже про процессор ты не сказал ничего (может там у тебя NPU), то остаётся тебя только бить палкой.

PcheloBiaka
(02.11.25 15:09:46 MSK)

Ответ на: комментарий от PcheloBiaka 02.11.25 15:07:44 MSK

Эх( Я это еще месяц назад пробовал, скормил Opus 4.1 всю документацию, логи, описание экспериментов и техниечских характеристик и попросил помочь разобраться в чем может быть проблема… в итоге так и не получил ответа, кроме: под Windows библиотеки для работы с нейронками лучше оптимизированы и все тут.

nadim
(02.11.25 15:11:00 MSK) автор топика
Последнее исправление: nadim 02.11.25 15:11:26 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от PcheloBiaka 02.11.25 15:09:46 MSK

NPU есть, но я изучал тему по нему. Нынче софт вроде Ollama и LMStudio в принципе не умеет использовать NPU, в них нет такой поддержки. Более того, даже если бы умели, то не выгодно оказывается крупные модели на NPU запускать, NPU он только для разной мелочи в пару гигов.

nadim
(02.11.25 15:12:41 MSK) автор топика
Последнее исправление: nadim 02.11.25 15:13:02 MSK (всего исправлений: 1)

Ответ на: комментарий от PcheloBiaka 02.11.25 15:09:46 MSK

NPU вроде не годится для таких моделей.

wandrien ★★★
(02.11.25 15:15:59 MSK)

Ссылка

Почему-то на Linux скорость генерации токенов в десятки раз ниже, чем на Windows. Почему так?

Потому что на виндовс у тебя на gpu всё работает, а на linux запустилось на cpu

bryak ★★★★
(02.11.25 15:17:44 MSK)

Ссылка

Для начала). Ollama запускается на линуксе не через вайн хоть)? Может ты через appimage пускаешь или еще чего. И непонятно использует она GPU или нет

karton1 ★★★★★
(02.11.25 15:23:54 MSK)

Ссылка

Ответ на: комментарий от nadim 02.11.25 15:06:00 MSK

Ну тогда есть самый элементарный ответ, авторы делали вин онли оптимизации.

ya-betmen ★★★★★
(02.11.25 15:27:57 MSK)

Ответ на: комментарий от nadim 02.11.25 15:12:41 MSK

Дело не в этом. Я намекал на то, что ты не сообщаешь вообще никакой полезной информации. Ты делаешь всё, чтобы гарантированно не олучить тут совета. Именно поэтому я и вредничаю.

Я это еще месяц назад пробовал, скормил Opus 4.1 всю документацию, логи, описание экспериментов и технических характеристик и попросил помочь разобраться в чем может быть проблема… в итоге так и не получил ответа, кроме: под Windows библиотеки для работы с нейронками лучше оптимизированы и все тут.

Твоя проблема в том, что не ты, а нейронка изучает этот вопрос за тебя. А ты как Перестукин, ждёшь что двое из ларца за тебя дрова рубить будут.

Изучи вопрос сам. Нейронки врут как дышат.

PcheloBiaka
(02.11.25 15:37:51 MSK)

Ответ на: комментарий от ya-betmen 02.11.25 15:27:57 MSK

У олламы туева хуча всяких возможностей. А в последнее время слышал про какое-то ollamaturbo, вроде как у них на сервере всё генерит. Может он это ставил. Хрен его знает. Опять же, версии на которых он запускает, ключи с которыми собрана оллама в дебьяне и пр.

На своём компе я сравнивал и на CPU и на iGPU и на dGPU. На винде и на линуксе. Просто надо немножко дефолты подправить, всё работает как часики.

PcheloBiaka
(02.11.25 15:43:25 MSK)

Ссылка

Ответ на: комментарий от nadim 02.11.25 15:12:41 MSK

Нынче софт вроде Ollama и LMStudio в принципе не умеет использовать NPU, в них нет такой поддержки.

Это не так.
llama.cpp#supported-backends:

CANN Ascend NPU

CANN

This provides NPU acceleration using the AI cores of your Ascend NPU. And CANN is a hierarchical APIs to help you to quickly build AI applications and service based on Ascend NPU.
For more information about Ascend NPU in Ascend Community.
Make sure to have the CANN toolkit installed. You can download it from here: CANN Toolkit.

dataman ★★★★★
(02.11.25 15:48:10 MSK)

Откуда ставил – из пакетного менеджера или скачивал из официального репозитория?

Ставил в бинарном виде или собирал из сорцов?

ollama на линуксе без настройки и/или пересборки видеокарту intel использовать не будет. На винде, впрочем, тоже – поддержки directML в Ollama до сих пор не завезли.

Какая версия Ollama, кстати? Там поломанные релизы через раз:

https://github.com/ollama/ollama/issues/12873

https://github.com/ollama/ollama/issues/12882

timdorohin ★★★★
(02.11.25 15:49:40 MSK)

Ответ на: комментарий от timdorohin 02.11.25 15:49:40 MSK

Подозреваю, что речь вообще не об ollama, а о lmstudio и прочих которых он пробует

PcheloBiaka
(02.11.25 16:08:12 MSK)

Ссылка

Ответ на: комментарий от timdorohin 02.11.25 15:49:40 MSK

Ставил Ollama путем запуска официальной bash команды для установки, она на их сайте прям указана. Версия:

nadim@magicbook:~$ ollama --version
ollama version is 0.12.7

nadim
(02.11.25 16:36:13 MSK) автор топика
Последнее исправление: nadim 02.11.25 16:44:39 MSK (всего исправлений: 1)

Ответ на: комментарий от dataman 02.11.25 15:48:10 MSK

NPU точно не используется, потому что на Windows загрузка NPU в диспетчере задач была нулевая при работе нейронки и да, там в диспетчере задач NPU вполне отображается.

nadim
(02.11.25 16:37:08 MSK) автор топика

Ответ на: комментарий от PcheloBiaka 02.11.25 15:37:51 MSK

Да я бы рад дать дополнительную информацию, только какую? Что именно нужно?

P. S. Вообще думаю обратно на Windows перелезть, все таки Qwen3 при решении небольших задач по коду хорошо справляется, не хочется терять такой инструмент, но он зараза хорошо / быстро работает только на Windows, на Linux 7 потов сойдет пока ответа дождешься.

nadim
(02.11.25 16:37:54 MSK) автор топика
Последнее исправление: nadim 02.11.25 16:39:45 MSK (всего исправлений: 1)

Ответ на: комментарий от nadim 02.11.25 16:37:54 MSK

Для начала подробно рассказать на какой системе что делал. Как запускал и через что запускал? Версии. Библиотеки. Какое железо кроме процессора и памяти? (вдруг у тебя энвидия там и на винде он на энвидии всё делал, а на линуксе на проце?) Какую конкретно модель ставил? Есть же разница, вдруг не досмотрел? С обеих систем и всё сам и в открывающем посте, а не клещами из тебя тянуть, а ты комментарий за комментарием будешь дурочку валять. Всё складывается из деталей, в том числе и впечатление, стоит человеку помогать, или он пришёл, палец в нос засунул и ждёт когда я за него разберусь в его потрохах.

PcheloBiaka
(02.11.25 16:48:22 MSK)

Ответ на: комментарий от nadim 02.11.25 16:37:54 MSK

на Linux 7 потов сойдет пока ответа дождешься. Потому что думать не хочешь. Вообще.

PcheloBiaka
(02.11.25 16:49:11 MSK)

Ссылка

Ответ на: комментарий от nadim 02.11.25 16:37:08 MSK

NPU точно не используется

Процессор у меня Intel Core Ultra 7 255H

Почитал https://en.wikipedia.org/wiki/List_of_Intel_Core_processors#Arrow_Lake-H:

NPU (TOPS) 13

Значит, остаётся только ждать, когда в ggml и llama.cpp добавят поддержку NPU этих CPU.
От авторов Ollama тут ничего не зависит.

dataman ★★★★★
(02.11.25 17:11:34 MSK)

Ответ на: комментарий от PcheloBiaka 02.11.25 16:48:22 MSK

Запускал на свежей официальной Windows 11, ставил с официального сайта. Драйвера все тоже свежие и официальные установлены через Huawei PC Manager. Какие там библиотеки были под копотом не знаю, могу лишь марку процессора и модель встройки сказать:

Core Ultra 7 255H / Intel Arc Graphics 140T

Дискретки никакой нет.

На Linux тестировал на том же самом ноутбуке, т. е. установил Debai 13 KDE и тестировал, пробовал также тестировать на Manjaro KDE, результат был аналогичный, т. е. медленная генерация токенов.

Модель Ollama ставил самую последнюю, сейчас это 0.12.7.

Вот здесь выложил видео тест: https://disk.yandex.ru/d/amYiz4cf22o9ow

nadim
(02.11.25 17:11:56 MSK) автор топика
Последнее исправление: nadim 02.11.25 17:16:21 MSK (всего исправлений: 1)

Ответ на: комментарий от dataman 02.11.25 17:11:34 MSK

Да даже без NPU конкретно на Windows очень быстро работает, выше выложил видео: посмотри как быстро работает на Windows и как медленно на Linux.

nadim
(02.11.25 17:15:42 MSK) автор топика
Последнее исправление: nadim 02.11.25 17:15:57 MSK (всего исправлений: 1)

Ссылка

Так может ты в ollama на винде облачный режим запустил, а не локальный?

wandrien ★★★
(02.11.25 17:16:27 MSK)

Ответ на: комментарий от wandrien 02.11.25 17:16:27 MSK

Точно нет. Да и облачный режим требует авторизации + там консоль выглядит по другому, я пробовал облачный режим и уверен на 100%.

nadim
(02.11.25 17:17:13 MSK) автор топика
Последнее исправление: nadim 02.11.25 17:24:21 MSK (всего исправлений: 1)

Ссылка

Почему Windows быстрее?

Потому что ollama писали какие-то идиоты.

Нормальный софт полагается на менеджмент памяти ядром ОС, в ollama решили изобрести свой костыль. Зачем? Они считают себя умнее тысяч программистов с тридцатилетним опытом? Результат предсказуем.

В следующем треде я запрещаю тебе использовать вопросительные знаки, ты исчерпал их кредит. (%

mord0d ★★★★★
(02.11.25 17:43:42 MSK)

Ответ на: комментарий от mord0d 02.11.25 17:43:42 MSK

Ладно Ollama, но я также проводил тесты на LMStudio и результата аналогичен: на Linux работает хуже. Впрочем он и на Windows не особо хорош, сравнивая Ollama и LMStudio первый все же лучше работает.

nadim
(02.11.25 17:46:17 MSK) автор топика
Последнее исправление: nadim 02.11.25 17:46:28 MSK (всего исправлений: 1)

Ответ на: комментарий от nadim 02.11.25 17:46:17 MSK

dataman высказал вполне логичное предположение про NPU. Мне нечего добавить.

Попробуй чистое llama.cpp сравнить.

mord0d ★★★★★
(02.11.25 17:49:39 MSK)

Ответ на: комментарий от mord0d 02.11.25 17:49:39 MSK

NPU точно не используется, нагрузка на него в диспетчере задач нулевая.

По поводу использования llama.cpp я не факт справлюсь, скорее даже нет, впрочем можно попробовать если достаточно времени найду на эксперименты.

nadim
(02.11.25 17:52:54 MSK) автор топика

Ответ на: комментарий от nadim 02.11.25 17:52:54 MSK

llama.cpp я не факт справлюсь

llama-cli -m /path/to/model.gguf

Или запустить сервер:

llama-server -m /path/to/model.gguf

И воспользоваться веб-интерфейсом типа SillyTavern.

mord0d ★★★★★
(02.11.25 18:19:46 MSK)
Последнее исправление: mord0d 02.11.25 18:19:56 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от mord0d 02.11.25 17:49:39 MSK

NPU не способен запустить модель на 30B параметров.

Это затычка для энергоэффективной генерации эмбеддингов и всё такое.

wandrien ★★★
(02.11.25 18:21:25 MSK)

Ответ на: комментарий от nadim 02.11.25 17:11:56 MSK

По видео работает ужасно, конечно. Так быть не должно.

Модель и оллама - это разное. оллама программа, а в неё загружается модель. Я думал, что ты мог скачать разные модели, но по видео выглядит, что используешь одну.

Intel Arc Graphics 140T

А ставил откуда? С сайта олламы? Скриптом? Похоже там нет поддержки твоего интела. То же и в дебьяне, я так подозреваю. https://github.com/eleiton/ollama-intel-arc - вот что тебе нужно.

Линукс не виноват.

PcheloBiaka
(02.11.25 18:21:30 MSK)

Ответ на: комментарий от wandrien 02.11.25 18:21:25 MSK

для энергоэффективной генерации эмбеддингов

Уже что-то, и оно может заролять.

mord0d ★★★★★
(02.11.25 18:24:16 MSK)

Ссылка

Ответ на: комментарий от PcheloBiaka 02.11.25 18:21:30 MSK

И вообще, для интелов https://github.com/intel/ipex-llm/tree/main

PcheloBiaka
(02.11.25 18:30:05 MSK)

Команда ollama ps, после генерации, покажет на чём конкретно модель считалась. Сравните оба варианта.

raspopov ★
(02.11.25 18:40:03 MSK)

Ответ на: комментарий от nadim 02.11.25 16:36:13 MSK

0.12.7 и 0.12.8 поломанные, последняя версия 0.12.9

На винде у тебя могла быть 0.12.6 или старше – там конкретно этого бага не было.

По моей второй ссылке есть тикет на гитхабе олламы как раз с очень большими тормозами в 0.12.7

timdorohin ★★★★
(02.11.25 19:17:18 MSK)

Ссылка

Ответ на: комментарий от PcheloBiaka 02.11.25 18:21:30 MSK

Да, ставил скриптом с сайта Ollama. К слову ollama-intel-arc выглядит интересно, но для запуска Qwen3-VL например не подойдет, так как последний вышел недавно и пока самую последнюю версию Ollama не поставишь оно и не запуститься, а в ollama-intel-arc последний релиз в середине лета только был. Впрочем, я попробую в будущем, спасибо.

nadim
(03.11.25 05:14:06 MSK) автор топика

Ссылка

Ответ на: комментарий от raspopov 02.11.25 18:40:03 MSK

Считалось похоже только на CPU:

nadim@magicbook:~$ ollama ps
NAME               ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3-coder:30b    06c1097efce0    19 GB    100% CPU     4096       4 minutes from now

Блин неужели в этом дело? На Windows точно был GPU задействован.

nadim
(03.11.25 05:19:27 MSK) автор топика

Ссылка

Ответ на: комментарий от PcheloBiaka 02.11.25 18:30:05 MSK

Выглядит интересно и как будто бы это то, что мне нужно. Попробую. Спасибо. Отпишусь дополнительно.

P. S. Понял в чем дело, пока ковырял этот гит увидел, что у меня в Debian 13 драйверов и пакетов нужных вообще нет, например intel-level-zero-gpu существует только под ubuntu и я его скорее всего и не заведу на Debian 13. Мне похоже надо переходить или на Ubuntu или на Windows, так как с моей точки зрения дальнейшие попытки завести все на Debian 13 не стоят того.

nadim
(03.11.25 05:20:22 MSK) автор топика
Последнее исправление: nadim 03.11.25 05:42:18 MSK (всего исправлений: 2)

Официальных драйверов для встройки Inel для Debian 13 не существует, есть только по Ubuntu.

Это которые xe, или еще что-то другое?

hbars ★★★★★
(03.11.25 09:13:33 MSK)

Ответ на: комментарий от nadim 03.11.25 05:20:22 MSK

intel-level-zero-gpu

В Манджаро, как я понял, называется intel-compute-runtime. У тебя такое есть?

PcheloBiaka
(03.11.25 09:25:01 MSK)

Ответ на: комментарий от hbars 03.11.25 09:13:33 MSK

Да вроде бы и под Arc есть, вот нагуглил на скорую руку: https://dgpu-docs.intel.com/driver/client/overview.html#ubuntu-22.04

Нейронка говорить ставить так:

# Установка драйвера Intel GPU
sudo apt-get install -y gpg-agent wget
wget -qO - https://repositories.intel.com/gpu/intel-graphics.key | \
  sudo gpg --dearmor --output /usr/share/keyrings/intel-graphics.gpg

# Используйте репозиторий jammy
echo "deb [arch=amd64 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu jammy client" | \
  sudo tee /etc/apt/sources.list.d/intel-gpu-jammy.list

sudo apt update
sudo apt install -y intel-i915-dkms intel-opencl-icd intel-level-zero-gpu level-zero

Но если я это под Debian 13 поставлю, скорее всего будет кирпич. Если есть желание можете попробовать.

nadim
(03.11.25 09:25:02 MSK) автор топика

Для того чтобы оставить комментарий войдите или зарегистрируйтесь.

← 1 2 →

←	Можно ли эмулировать sse4.2 без потери фпс в кс2?

General

Не смог найти edk2 (из TianoCore) в debian 13

→

CANN

Похожие темы