LINUX.ORG.RU

Ollama: Linux VS Windows. Почему Windows быстрее???

 , , , ,


0

1

Использую Ollama для запуска Qwen3 на 30B параметров. Почему-то на Linux скорость генерации токенов в десятки раз ниже, чем на Windows. Почему так? Почему на Windows ответ генерируется моментально, а на Linux черепашьими темпами?

Использую Debain 13 KDE. По началу грешил на драйвера, но на Manjaro KDE, где с драйверами точно порядок, проблема сохраняется. Процессор у меня Intel Core Ultra 7 255H, оперативной памяти 32 Гб. Я даже попробовал полностью отключить swap в системе, чтобы туда ни бита не попадало и расчеты не торомозились… но нет, даже не это помогло.

Как на Debain 13 получить скорость генерации токенов не хуже, чем на Windows? В чем проблема??? Чисто логически нейронки на Linux должны летать, ведь весь софт для работы с ними изначально на Linux и разрабатывался, но почему-то ситуация ровно обратная. Выходит Windows во всем лучше Linux?

P. S. Вот здесь выложил видео тест: https://disk.yandex.ru/d/amYiz4cf22o9ow

Можете наглядно увидеть разницу в скорости генерации токенов на Windows и Linux на одном и том же ноутбуке (Honor MagicBook 14 Art 2025).

P. S. S. Проблема решена: ollama на Debain не задействует GPU, а считает только на CPU и из-за этого все медленно. Официальных драйверов для встройки Inel для Debian 13 не существует, есть только под Ubuntu.



Последнее исправление: nadim (всего исправлений: 11)

30b на 32 Гб и на cpu?

может ты все же разные модели скачал? Ну или в одном случае nvme, а в другом hdd. Т.к. в память эта модель ну никак не влезет

router ★★★★★
()
Последнее исправление: router (всего исправлений: 2)
Ответ на: комментарий от masa

Это я троллю, в надежде на помощь.

nadim
() автор топика
Ответ на: комментарий от router

Так оно с квантизаций, все влезает с большим запасом.

nadim
() автор топика
Ответ на: комментарий от PcheloBiaka

И Windows и Linux оба используют CPU на 100% и частично, без полной загрузки, GPU. По крайней мере такие впечатления от просмотра диспетчера задач / системного монитора.

nadim
() автор топика
Последнее исправление: nadim (всего исправлений: 1)
Ответ на: комментарий от PcheloBiaka

Не нужно мучиться, сюда написал лишь в надежде, что кто-нибудь уже сталкивался с проблемой и знает решение. В конец концов, языковые модели и Ollama в частности довольного народу использует.

nadim
() автор топика
Ответ на: комментарий от nadim

я без понятия как устроен Ollama под копотом. Ровно это и надо исправить. Уверен, что в винде Оллама работает в одном режиме, а на линуксе в другом. Захоычешь чтобы заработало, начнёшь читать.

PcheloBiaka
()
Ответ на: комментарий от nadim

Я использую. Через cuda. Для запуска на других видеочипах надо читьать инструкции. И поскольку даже про процессор ты не сказал ничего (может там у тебя NPU), то остаётся тебя только бить палкой.

PcheloBiaka
()
Ответ на: комментарий от PcheloBiaka

Эх( Я это еще месяц назад пробовал, скормил Opus 4.1 всю документацию, логи, описание экспериментов и техниечских характеристик и попросил помочь разобраться в чем может быть проблема… в итоге так и не получил ответа, кроме: под Windows библиотеки для работы с нейронками лучше оптимизированы и все тут.

nadim
() автор топика
Последнее исправление: nadim (всего исправлений: 1)
Ответ на: комментарий от PcheloBiaka

NPU есть, но я изучал тему по нему. Нынче софт вроде Ollama и LMStudio в принципе не умеет использовать NPU, в них нет такой поддержки. Более того, даже если бы умели, то не выгодно оказывается крупные модели на NPU запускать, NPU он только для разной мелочи в пару гигов.

nadim
() автор топика
Последнее исправление: nadim (всего исправлений: 1)

Почему-то на Linux скорость генерации токенов в десятки раз ниже, чем на Windows. Почему так?

Потому что на виндовс у тебя на gpu всё работает, а на linux запустилось на cpu

bryak ★★★★
()

Для начала). Ollama запускается на линуксе не через вайн хоть)? Может ты через appimage пускаешь или еще чего. И непонятно использует она GPU или нет

karton1 ★★★★★
()
Ответ на: комментарий от nadim

Дело не в этом. Я намекал на то, что ты не сообщаешь вообще никакой полезной информации. Ты делаешь всё, чтобы гарантированно не олучить тут совета. Именно поэтому я и вредничаю.

Я это еще месяц назад пробовал, скормил Opus 4.1 всю документацию, логи, описание экспериментов и технических характеристик и попросил помочь разобраться в чем может быть проблема… в итоге так и не получил ответа, кроме: под Windows библиотеки для работы с нейронками лучше оптимизированы и все тут.

Твоя проблема в том, что не ты, а нейронка изучает этот вопрос за тебя. А ты как Перестукин, ждёшь что двое из ларца за тебя дрова рубить будут.

Изучи вопрос сам. Нейронки врут как дышат.

PcheloBiaka
()
Ответ на: комментарий от ya-betmen

У олламы туева хуча всяких возможностей. А в последнее время слышал про какое-то ollamaturbo, вроде как у них на сервере всё генерит. Может он это ставил. Хрен его знает. Опять же, версии на которых он запускает, ключи с которыми собрана оллама в дебьяне и пр.

На своём компе я сравнивал и на CPU и на iGPU и на dGPU. На винде и на линуксе. Просто надо немножко дефолты подправить, всё работает как часики.

PcheloBiaka
()
Ответ на: комментарий от nadim

Нынче софт вроде Ollama и LMStudio в принципе не умеет использовать NPU, в них нет такой поддержки.

Это не так.
llama.cpp#supported-backends:

CANN Ascend NPU

CANN

This provides NPU acceleration using the AI cores of your Ascend NPU. And CANN is a hierarchical APIs to help you to quickly build AI applications and service based on Ascend NPU.
For more information about Ascend NPU in Ascend Community.
Make sure to have the CANN toolkit installed. You can download it from here: CANN Toolkit.

dataman ★★★★★
()

Откуда ставил – из пакетного менеджера или скачивал из официального репозитория?

Ставил в бинарном виде или собирал из сорцов?

ollama на линуксе без настройки и/или пересборки видеокарту intel использовать не будет. На винде, впрочем, тоже – поддержки directML в Ollama до сих пор не завезли.

Какая версия Ollama, кстати? Там поломанные релизы через раз:

https://github.com/ollama/ollama/issues/12873

https://github.com/ollama/ollama/issues/12882

timdorohin ★★★★
()
Ответ на: комментарий от timdorohin

Подозреваю, что речь вообще не об ollama, а о lmstudio и прочих которых он пробует

PcheloBiaka
()
Ответ на: комментарий от timdorohin

Ставил Ollama путем запуска официальной bash команды для установки, она на их сайте прям указана. Версия:

nadim@magicbook:~$ ollama --version
ollama version is 0.12.7

nadim
() автор топика
Последнее исправление: nadim (всего исправлений: 1)
Ответ на: комментарий от dataman

NPU точно не используется, потому что на Windows загрузка NPU в диспетчере задач была нулевая при работе нейронки и да, там в диспетчере задач NPU вполне отображается.

nadim
() автор топика
Ответ на: комментарий от PcheloBiaka

Да я бы рад дать дополнительную информацию, только какую? Что именно нужно?

P. S. Вообще думаю обратно на Windows перелезть, все таки Qwen3 при решении небольших задач по коду хорошо справляется, не хочется терять такой инструмент, но он зараза хорошо / быстро работает только на Windows, на Linux 7 потов сойдет пока ответа дождешься.

nadim
() автор топика
Последнее исправление: nadim (всего исправлений: 1)
Ответ на: комментарий от nadim

Для начала подробно рассказать на какой системе что делал. Как запускал и через что запускал? Версии. Библиотеки. Какое железо кроме процессора и памяти? (вдруг у тебя энвидия там и на винде он на энвидии всё делал, а на линуксе на проце?) Какую конкретно модель ставил? Есть же разница, вдруг не досмотрел? С обеих систем и всё сам и в открывающем посте, а не клещами из тебя тянуть, а ты комментарий за комментарием будешь дурочку валять. Всё складывается из деталей, в том числе и впечатление, стоит человеку помогать, или он пришёл, палец в нос засунул и ждёт когда я за него разберусь в его потрохах.

PcheloBiaka
()
Ответ на: комментарий от nadim

на Linux 7 потов сойдет пока ответа дождешься. Потому что думать не хочешь. Вообще.

PcheloBiaka
()
Ответ на: комментарий от nadim

NPU точно не используется

Процессор у меня Intel Core Ultra 7 255H

Почитал https://en.wikipedia.org/wiki/List_of_Intel_Core_processors#Arrow_Lake-H:

NPU (TOPS) 13

Значит, остаётся только ждать, когда в ggml и llama.cpp добавят поддержку NPU этих CPU.
От авторов Ollama тут ничего не зависит.

dataman ★★★★★
()
Ответ на: комментарий от PcheloBiaka

Запускал на свежей официальной Windows 11, ставил с официального сайта. Драйвера все тоже свежие и официальные установлены через Huawei PC Manager. Какие там библиотеки были под копотом не знаю, могу лишь марку процессора и модель встройки сказать:

Core Ultra 7 255H / Intel Arc Graphics 140T

Дискретки никакой нет.

На Linux тестировал на том же самом ноутбуке, т. е. установил Debai 13 KDE и тестировал, пробовал также тестировать на Manjaro KDE, результат был аналогичный, т. е. медленная генерация токенов.

Модель Ollama ставил самую последнюю, сейчас это 0.12.7.

Вот здесь выложил видео тест: https://disk.yandex.ru/d/amYiz4cf22o9ow

Можете наглядно увидеть разницу в скорости генерации токенов на Windows и Linux на одном и том же ноутбуке (Honor MagicBook 14 Art 2025).

nadim
() автор топика
Последнее исправление: nadim (всего исправлений: 1)
Ответ на: комментарий от dataman

Да даже без NPU конкретно на Windows очень быстро работает, выше выложил видео: посмотри как быстро работает на Windows и как медленно на Linux.

nadim
() автор топика
Последнее исправление: nadim (всего исправлений: 1)
Ответ на: комментарий от wandrien

Точно нет. Да и облачный режим требует авторизации + там консоль выглядит по другому, я пробовал облачный режим и уверен на 100%.

nadim
() автор топика
Последнее исправление: nadim (всего исправлений: 1)

Почему Windows быстрее?

Потому что ollama писали какие-то идиоты.

Нормальный софт полагается на менеджмент памяти ядром ОС, в ollama решили изобрести свой костыль. Зачем? Они считают себя умнее тысяч программистов с тридцатилетним опытом? Результат предсказуем.


В следующем треде я запрещаю тебе использовать вопросительные знаки, ты исчерпал их кредит. (%

mord0d ★★★★★
()
Ответ на: комментарий от mord0d

Ладно Ollama, но я также проводил тесты на LMStudio и результата аналогичен: на Linux работает хуже. Впрочем он и на Windows не особо хорош, сравнивая Ollama и LMStudio первый все же лучше работает.

nadim
() автор топика
Последнее исправление: nadim (всего исправлений: 1)
Ответ на: комментарий от nadim

dataman высказал вполне логичное предположение про NPU. Мне нечего добавить.

Попробуй чистое llama.cpp сравнить.

mord0d ★★★★★
()
Ответ на: комментарий от mord0d

NPU точно не используется, нагрузка на него в диспетчере задач нулевая.

По поводу использования llama.cpp я не факт справлюсь, скорее даже нет, впрочем можно попробовать если достаточно времени найду на эксперименты.

nadim
() автор топика
Ответ на: комментарий от nadim

llama.cpp я не факт справлюсь

llama-cli -m /path/to/model.gguf

Или запустить сервер:

llama-server -m /path/to/model.gguf

И воспользоваться веб-интерфейсом типа SillyTavern.

mord0d ★★★★★
()
Последнее исправление: mord0d (всего исправлений: 1)
Ответ на: комментарий от mord0d

NPU не способен запустить модель на 30B параметров.

Это затычка для энергоэффективной генерации эмбеддингов и всё такое.

wandrien ★★★
()
Ответ на: комментарий от nadim

По видео работает ужасно, конечно. Так быть не должно.

Модель и оллама - это разное. оллама программа, а в неё загружается модель. Я думал, что ты мог скачать разные модели, но по видео выглядит, что используешь одну.

Intel Arc Graphics 140T

А ставил откуда? С сайта олламы? Скриптом? Похоже там нет поддержки твоего интела. То же и в дебьяне, я так подозреваю. https://github.com/eleiton/ollama-intel-arc - вот что тебе нужно.

Линукс не виноват.

PcheloBiaka
()
Ответ на: комментарий от wandrien

для энергоэффективной генерации эмбеддингов

Уже что-то, и оно может заролять.

mord0d ★★★★★
()

Команда ollama ps, после генерации, покажет на чём конкретно модель считалась. Сравните оба варианта.

raspopov
()
Ответ на: комментарий от nadim

0.12.7 и 0.12.8 поломанные, последняя версия 0.12.9

На винде у тебя могла быть 0.12.6 или старше – там конкретно этого бага не было.

По моей второй ссылке есть тикет на гитхабе олламы как раз с очень большими тормозами в 0.12.7

timdorohin ★★★★
()
Ответ на: комментарий от PcheloBiaka

Да, ставил скриптом с сайта Ollama. К слову ollama-intel-arc выглядит интересно, но для запуска Qwen3-VL например не подойдет, так как последний вышел недавно и пока самую последнюю версию Ollama не поставишь оно и не запуститься, а в ollama-intel-arc последний релиз в середине лета только был. Впрочем, я попробую в будущем, спасибо.

nadim
() автор топика
Ответ на: комментарий от raspopov

Считалось похоже только на CPU:

nadim@magicbook:~$ ollama ps
NAME               ID              SIZE     PROCESSOR    CONTEXT    UNTIL              
qwen3-coder:30b    06c1097efce0    19 GB    100% CPU     4096       4 minutes from now 

Блин неужели в этом дело? На Windows точно был GPU задействован.

nadim
() автор топика
Ответ на: комментарий от PcheloBiaka

Выглядит интересно и как будто бы это то, что мне нужно. Попробую. Спасибо. Отпишусь дополнительно.

P. S. Понял в чем дело, пока ковырял этот гит увидел, что у меня в Debian 13 драйверов и пакетов нужных вообще нет, например intel-level-zero-gpu существует только под ubuntu и я его скорее всего и не заведу на Debian 13. Мне похоже надо переходить или на Ubuntu или на Windows, так как с моей точки зрения дальнейшие попытки завести все на Debian 13 не стоят того.

nadim
() автор топика
Последнее исправление: nadim (всего исправлений: 2)

Официальных драйверов для встройки Inel для Debian 13 не существует, есть только по Ubuntu.

Это которые xe, или еще что-то другое?

hbars ★★★★★
()
Ответ на: комментарий от hbars

Да вроде бы и под Arc есть, вот нагуглил на скорую руку: https://dgpu-docs.intel.com/driver/client/overview.html#ubuntu-22.04

Нейронка говорить ставить так:

# Установка драйвера Intel GPU
sudo apt-get install -y gpg-agent wget
wget -qO - https://repositories.intel.com/gpu/intel-graphics.key | \
  sudo gpg --dearmor --output /usr/share/keyrings/intel-graphics.gpg

# Используйте репозиторий jammy
echo "deb [arch=amd64 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu jammy client" | \
  sudo tee /etc/apt/sources.list.d/intel-gpu-jammy.list

sudo apt update
sudo apt install -y intel-i915-dkms intel-opencl-icd intel-level-zero-gpu level-zero

Но если я это под Debian 13 поставлю, скорее всего будет кирпич. Если есть желание можете попробовать.

nadim
() автор топика
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.