LINUX.ORG.RU
ФорумTalks

Yandex Research: Метод HIGGS позволяет запускать большие языковые модели (LLM) на ноутбуках без потери качества

 , ,


0

2

Лаборатория исследований искусственного интеллект Yandex Research совместно с ведущими вузами — НИУ ВШЭ, MIT, ISTA и KAUST — представила новый метод эффективной квантизации больших языковых моделей (LLM), позволяющий запускать их даже на смартфонах и ноутбуках. Для этого больше не нужны дорогие серверы с мощными видеокартами.

Разработка открывает путь к более широкому применению LLM: от стартапов и образовательных учреждений до независимых исследователей и энтузиастов. Новый метод позволяет сжимать модели за считаные минуты прямо на пользовательском устройстве, без необходимости предварительной подготовки на специализированной инфраструктуре.

https://arxiv.org/pdf/2411.17525

https://github.com/HanGuo97/flute

https://arxiv.org/pdf/2411.17525



Последнее исправление: unclestephen (всего исправлений: 1)

Подождите, а как же траты на дорогущие супер-пупер видеокарты с самым распоследним GPU?

seiken ★★★★★
()

(LLM) на ноутбуках без потери качества

Ежели качества нету, то и терять нечего :)

quickquest ★★★★★
()
Ответ на: комментарий от unclestephen

новый метод эффективной квантизации больших языковых моделей (LLM), позволяющий запускать их даже на смартфонах

Cuda, 8gb 4060

🤔

vitruss ★★★★★
()
Ответ на: комментарий от vitruss

Ну ты чего? В яндексе у каждой уборщицы смарт с Cuda, 8gb 4060.

Tigger ★★★★★
()

Приходит девушка устраиваться на работу секретаршей. Шеф спрашивает: «С какой скоростью вы можете печатать на машинке?» Девушка: Ну... 1000-1200 знаков в минуту. Шеф: Разве можно с такой скоростью печатать? Девушка: Печатать-то можно, но такая херня получается!

Lordwind ★★★★★
()

Портят малину всяким корпам :-)

Aceler ★★★★★
()

Вот когда публичную бету выложат, тогда и посмотрим. А то обещать – не мешки ворочать. Сколько там лет уже постоянная база на Луне не существует?

quwy
()
Ответ на: комментарий от quwy

Сколько там лет уже постоянная база на Луне не существует?

Хороший вопрос, кстати. Начали работу в 2006, обещали к 2024 обязательно все сделать. В 2020 даже выбили допбюджет на это дело.

Правда есть нюанс: https://en.wikipedia.org/wiki/NASA_lunar_outpost_concepts

А вы таки про какую страну речь вели?

t3n3t
()
Ответ на: комментарий от quwy

Есть такая штука - сарказм. Приведи-ка ссылочку на официально обещанные Роскосмосом даты постройки базы на луне. Без них это провокация танцпола, кстати.

t3n3t
()
Ответ на: комментарий от t3n3t

Роскосмосом

И кто тут танцполист?

Я вообще ни сном, ни духом. Мне какой-то жирный обещалкин обещал из телеящика базу еще дцать лет назад, вот я и спрашиваю за базу. Остальное не интересно.

quwy
()
Ответ на: комментарий от quwy

А вы таки про какую страну речь вели? Топик про какую контору? И кто тут танцполист?

Тут комментировать - только портить :)

Мне какой-то жирный обещалкин обещал из телеящика базу еще дцать лет назад, вот я и спрашиваю за базу.

Кто там что в телевизоре обещает - это дело другое. Конкретные ссылки на конкретные утвержденные документы будут? Я привел ссылки на такие документы в более лучшей стране, но это другое, правда? Кстати, ссылки на официальные документы Роскосмоса в сети есть. Прям первая страница гугла. И там про лунную базу в 2025, внезапно, ни слова, там совсем другие сроки. И документы не вчерашние и даже не позавчерашние.

вот я и спрашиваю за базу.

Ну так у него и спрашивай. Здесь это вообще зачем? Оффтоп и танцпол.

t3n3t
()
Последнее исправление: t3n3t (всего исправлений: 1)

Не знаю кто пишет все эти новости. Попробовал погуглить реальные модели. Нашёл Higgs-Llama-3-70B-GGUF.

IQ1_M - 16,8 Гб, Q5_K_M - 50 Гб. Про Q8 и f16 и говорить страшно, там целые наборы таких файлов.

Ладно, скачал IQ1_M вариант. Видеокарта у меня AMD Radeon RX 6400 с 4 Гб RAM. Такое туда не влезет. Ладно, пробуем запустить на CPU. Хорошо хоть в системнике оперативки больше чем 16,8 Гб. Запускаем, запускаем,... и оно очень страшно тормозит на AMD Ryzen 9 3900X. Настолько страшно, что даже не дождаться когда оно заработает.

В общем, либо потом появятся какие-то новые модели, либо новость врёт про смартфоны и ноутбуки.

saahriktu ★★★★★
()
Последнее исправление: saahriktu (всего исправлений: 1)

сжимать модели

Дальше можно не читать. Ужимание модели сильно влияет на качество.

mord0d ★★★★★
()
Ответ на: комментарий от unclestephen

CUDA для LLM не нужна (сильно влияет на скорость, но не требуется), на ≤6G можно запускать, но тоже будет ощутимо медленнее, а требование конкретной видеокарты — вообще бред.

Гоняю 8B, 70B и 32B на Ivy Bridge с 256G RAM, никаких видеокарт на сервере нет в виртуалке, и всё работает. 70B, конечно, очень медленно генерит, но генерит.

mord0d ★★★★★
()
Ответ на: комментарий от saahriktu

IQ

Лучше взять Q*, при прочих равных они выигрывают.

mord0d ★★★★★
()
Ответ на: комментарий от saahriktu

новость врёт про смартфоны и ноутбуки

Оно не уточняло какие именно ноутбуки. (%

Есть же ноутбуки с 3090. Купи и радуйся! (%

mord0d ★★★★★
()
Ответ на: комментарий от saahriktu

Видеокарта у меня AMD Radeon RX 6400 с 4 Гб RAM

В llama.cpp есть гибридный режим: часть слоёв едет в GPU, остальное в RAM. В особо печальных случаях, остатки лежат на диске.

DarkAmateur ★★★★
()
Последнее исправление: DarkAmateur (всего исправлений: 1)
Ответ на: комментарий от quwy

Мне какой-то жирный обещалкин обещал из телеящика базу еще дцать лет назад, вот я и спрашиваю за базу.

Как его звали? И дали ли ему необходимые деньги?

обещалкин

По этому слову хорошо детектируются поклонники Навального :)

olegd ★★★
()
Последнее исправление: olegd (всего исправлений: 1)
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)