Прочитал данный комментарий (где к ИИ-агенту на основе локальной модели делается запрос на русском языке) и подумал — а ведь какую-то часть модели занимает «встроенный переводчик» с одного языка на другой. И этот переводчик не может не потреблять часть ограниченных вычислительных ресурсов.
Возникли вопросы:
- Существуют ли аналогичные только англоязычные модели?
- И даёт ли использование таких моделей (если они есть, конечно) заметный профит?
Обсудил эту тему с ИИ (в гугл-поиске)
«Однако важно понимать: сейчас практически невозможно найти современную модель, которая бы «не знала» русский язык совсем. Даже крошечные модели обучаются на гигантских массивах данных из интернета, где русский текст неизбежно присутствует.»
Вот лучшие варианты для слабых ПК с акцентом на английский язык:
- Microsoft Phi-3 Mini (3.8B параметров) Это «карманный» гигант. Она невероятно мала, но по качеству английского языка соперничает с моделями в два-три раза больше.
- Почему она: Занимает около 2.2 ГБ оперативной памяти (в квантованном виде 4-bit).
- Реакция на русский: Она его понимает, но отвечает на нем плохо. Это максимально близкий вариант к «англоцентричной» модели, которая не тратит ресурсы на качественную мультиязычность.
…
Как заставить их «забыть» русский?
Если ваша цель — экономить ресурсы и не давать модели переключаться на русский, используйте следующие хитрости при запуске:
System Prompt: В поле системных инструкций жестко пропишите: "You are an English-only assistant. Under no circumstances should you use or respond to any language other than English."
…
Спросил: А существуют ли способы (дистилляция?) убрать мультиязычность из существующей модели?
Суть ответа:
Для обычного пользователя это крайне трудозатратный процесс (нужны GPU для переобучения/дообучения). Гораздо проще найти уже «обрезанные» версии на Hugging Face.
Что искать:
Ищите модели с припиской «English-only» или «Monolingual».
Например, существуют версии Llama-3-8B-English, где из токенизатора вырезали всё лишнее. Такие модели работают быстрее и точнее в рамках одного языка, так как у них нет «паразитных» ассоциаций между похожими словами в разных языках.













