Современные большие языковые модели (LLM) ограничены фундаментальным препятствием: они генерируют текст по одному токену за раз. CALM (Continuous Autoregressive Language Models) решает эту проблему, внедряя парадигмальный сдвиг в языковом моделировании. Вместо того, чтобы предсказывать по одному дискретному токену за раз, CALM учится предсказывать один непрерывный вектор, который представляет собой целый блок из K токенов.
Насколько я понял, каждой точке в этом пространстве вектора соответствует какой-то набор токенов, ну и близкие точки имеют близкие по смыслу наборы токенов (фразы например), ну и «непрерывный» видимо означает, что любой точке энкодер/декодер может родить какой-то свой набор токенов.