Современные большие языковые модели (LLM) ограничены фундаментальным препятствием: они генерируют текст по одному токену за раз. CALM (Continuous Autoregressive Language Models) решает эту проблему, внедряя парадигмальный сдвиг в языковом моделировании. Вместо того, чтобы предсказывать по одному дискретному токену за раз, CALM учится предсказывать один непрерывный вектор, который представляет собой целый блок из K токенов.
Насколько я понял, каждой точке в этом пространстве вектора соответствует какой-то набор токенов, ну и близкие точки имеют близкие по смыслу наборы токенов (фразы например), ну и «непрерывный» видимо означает, что любой точке энкодер/декодер может родить какой-то свой набор токенов.
Абсолютно спокойно представляешь себе бесконечное и непрерывное пространство бреда, и затем находишь в нём подпространство дискретных текстов. Не трудно заметить, что любой конечный и дискретный текст может быть частью бреда.
что представляет собой «непрерывный вектор» применительно к тексту
Написано же, «целый блок из K токенов»
Языковые модели не работают с текстом, это слишком дорого. Вместо этого используются словарь токенов, где произвольным наборам символов (обычно словам и слогам) назначается индекс. Поэтому для языковой модели текст является последовательностью чисел. И вместо вычисления следующего токена придумали вычислять сразу несколько, что дает прирост в производительности.
В целом новость ни о чём кмк, ну снизит затраты на электричество мегакорпорациям.
Языковые модели не работают с текстом, это слишком дорого. Вместо этого используются словарь токенов, где произвольным наборам символов (обычно словам и слогам) назначается индекс.
Спасибо, это я понял.
Поэтому для языковой модели текст является последовательностью чисел.
Дискретной.
И вместо вычисления следующего токена придумали вычислять сразу несколько, что дает прирост в производительности.
Ну наверное раз была дискретная последовательность токенов, набор токенов ужали до дискретной последовательности векторов. Получается что у токенов теперь нет дискретных позиций? Это какая-то не интересная семантика если честно.