Лаборатория исследований искусственного интеллект Yandex Research совместно с ведущими вузами — НИУ ВШЭ, MIT, ISTA и KAUST — представила новый метод эффективной квантизации больших языковых моделей (LLM), позволяющий запускать их даже на смартфонах и ноутбуках. Для этого больше не нужны дорогие серверы с мощными видеокартами.
Разработка открывает путь к более широкому применению LLM: от стартапов и образовательных учреждений до независимых исследователей и энтузиастов. Новый метод позволяет сжимать модели за считаные минуты прямо на пользовательском устройстве, без необходимости предварительной подготовки на специализированной инфраструктуре.
https://arxiv.org/pdf/2411.17525