Yandex Research: Метод HIGGS позволяет запускать большие языковые модели (LLM) на ноутбуках без потери качества

0

2

Лаборатория исследований искусственного интеллект Yandex Research совместно с ведущими вузами — НИУ ВШЭ, MIT, ISTA и KAUST — представила новый метод эффективной квантизации больших языковых моделей (LLM), позволяющий запускать их даже на смартфонах и ноутбуках. Для этого больше не нужны дорогие серверы с мощными видеокартами.

Разработка открывает путь к более широкому применению LLM: от стартапов и образовательных учреждений до независимых исследователей и энтузиастов. Новый метод позволяет сжимать модели за считаные минуты прямо на пользовательском устройстве, без необходимости предварительной подготовки на специализированной инфраструктуре.

https://arxiv.org/pdf/2411.17525

https://github.com/HanGuo97/flute

https://arxiv.org/pdf/2411.17525

Ссылка

←	История Photoshop

Префикс десятичной системы счисления

→

Подождите, а как же траты на дорогущие супер-пупер видеокарты с самым распоследним GPU?

seiken ★★★★★
(12.04.25 20:13:05 MSK)

(LLM) на ноутбуках без потери качества

Ежели качества нету, то и терять нечего :)

quickquest ★★★★★
(12.04.25 20:35:24 MSK)

Ссылка

Ответ на: комментарий от seiken 12.04.25 20:13:05 MSK

Это для обучения.

praseodim ★★★★★
(12.04.25 20:53:52 MSK)

Ссылка

Т.е. скоро я на NPU своего райзена смогу Yandex GPT5 гонять?

vitruss ★★★★★
(12.04.25 21:10:21 MSK)

Ответ на: комментарий от vitruss 12.04.25 21:10:21 MSK

минимально Cuda, 8gb, 4060

unclestephen ★
(12.04.25 21:16:57 MSK) автор топика

Ответ на: комментарий от unclestephen 12.04.25 21:16:57 MSK

новый метод эффективной квантизации больших языковых моделей (LLM), позволяющий запускать их даже на смартфонах

Cuda, 8gb 4060

🤔

vitruss ★★★★★
(12.04.25 21:31:06 MSK)

Ответ на: комментарий от vitruss 12.04.25 21:31:06 MSK

Ну ты чего? В яндексе у каждой уборщицы смарт с Cuda, 8gb 4060.

Tigger ★★★★★
(12.04.25 23:12:55 MSK)

Ссылка

Приходит девушка устраиваться на работу секретаршей. Шеф спрашивает: «С какой скоростью вы можете печатать на машинке?» Девушка: Ну... 1000-1200 знаков в минуту. Шеф: Разве можно с такой скоростью печатать? Девушка: Печатать-то можно, но такая херня получается!

Lordwind ★★★★★
(13.04.25 00:07:43 MSK)

Ссылка

Портят малину всяким корпам :-)

Aceler ★★★★★
(13.04.25 00:23:55 MSK)

Ссылка

Вот когда публичную бету выложат, тогда и посмотрим. А то обещать – не мешки ворочать. Сколько там лет уже постоянная база на Луне не существует?

quwy
(13.04.25 01:53:53 MSK)

Ответ на: комментарий от quwy 13.04.25 01:53:53 MSK

Сколько там лет уже постоянная база на Луне не существует?

Хороший вопрос, кстати. Начали работу в 2006, обещали к 2024 обязательно все сделать. В 2020 даже выбили допбюджет на это дело.

Правда есть нюанс: https://en.wikipedia.org/wiki/NASA_lunar_outpost_concepts

А вы таки про какую страну речь вели?

~~t3n3t~~ ☆
(13.04.25 02:18:51 MSK)

Ответ на: комментарий от t3n3t 13.04.25 02:18:51 MSK

Клоунов коллекционируете, что ли? Топик про какую контору?

quwy
(13.04.25 02:46:24 MSK)

Ответ на: комментарий от quwy 13.04.25 02:46:24 MSK

Есть такая штука - сарказм. Приведи-ка ссылочку на официально обещанные Роскосмосом даты постройки базы на луне. Без них это провокация танцпола, кстати.

~~t3n3t~~ ☆
(13.04.25 02:56:52 MSK)

Ответ на: комментарий от t3n3t 13.04.25 02:56:52 MSK

Роскосмосом

И кто тут танцполист?

Я вообще ни сном, ни духом. Мне какой-то жирный обещалкин обещал из телеящика базу еще дцать лет назад, вот я и спрашиваю за базу. Остальное не интересно.

quwy
(13.04.25 03:34:14 MSK)

Ответ на: комментарий от quwy 13.04.25 03:34:14 MSK

А вы таки про какую страну речь вели? Топик про какую контору? И кто тут танцполист?

Тут комментировать - только портить :)

Мне какой-то жирный обещалкин обещал из телеящика базу еще дцать лет назад, вот я и спрашиваю за базу.

Кто там что в телевизоре обещает - это дело другое. Конкретные ссылки на конкретные утвержденные документы будут? Я привел ссылки на такие документы в более лучшей стране, но это другое, правда? Кстати, ссылки на официальные документы Роскосмоса в сети есть. Прям первая страница гугла. И там про лунную базу в 2025, внезапно, ни слова, там совсем другие сроки. И документы не вчерашние и даже не позавчерашние.

вот я и спрашиваю за базу.

Ну так у него и спрашивай. Здесь это вообще зачем? Оффтоп и танцпол.

~~t3n3t~~ ☆
(13.04.25 03:49:08 MSK)
Последнее исправление: t3n3t 13.04.25 03:51:08 MSK (всего исправлений: 1)

Ссылка

Не знаю кто пишет все эти новости. Попробовал погуглить реальные модели. Нашёл Higgs-Llama-3-70B-GGUF.

IQ1_M - 16,8 Гб, Q5_K_M - 50 Гб. Про Q8 и f16 и говорить страшно, там целые наборы таких файлов.

Ладно, скачал IQ1_M вариант. Видеокарта у меня AMD Radeon RX 6400 с 4 Гб RAM. Такое туда не влезет. Ладно, пробуем запустить на CPU. Хорошо хоть в системнике оперативки больше чем 16,8 Гб. Запускаем, запускаем,... и оно очень страшно тормозит на AMD Ryzen 9 3900X. Настолько страшно, что даже не дождаться когда оно заработает.

В общем, либо потом появятся какие-то новые модели, либо новость врёт про смартфоны и ноутбуки.

saahriktu ★★★★★
(13.04.25 04:41:20 MSK)
Последнее исправление: saahriktu 13.04.25 04:42:38 MSK (всего исправлений: 1)

сжимать модели

Дальше можно не читать. Ужимание модели сильно влияет на качество.

mord0d ★★★★★
(13.04.25 08:09:01 MSK)

Ссылка

Ответ на: комментарий от unclestephen 12.04.25 21:16:57 MSK

CUDA для LLM не нужна (сильно влияет на скорость, но не требуется), на ≤6G можно запускать, но тоже будет ощутимо медленнее, а требование конкретной видеокарты — вообще бред.

Гоняю 8B, 70B и 32B на Ivy Bridge с 256G RAM, никаких видеокарт на сервере нет в виртуалке, и всё работает. 70B, конечно, очень медленно генерит, но генерит.

mord0d ★★★★★
(13.04.25 08:15:38 MSK)