LINUX.ORG.RU

Да вроде всё понятно написано:

Современные большие языковые модели (LLM) ограничены фундаментальным препятствием: они генерируют текст по одному токену за раз. CALM (Continuous Autoregressive Language Models) решает эту проблему, внедряя парадигмальный сдвиг в языковом моделировании. Вместо того, чтобы предсказывать по одному дискретному токену за раз, CALM учится предсказывать один непрерывный вектор, который представляет собой целый блок из K токенов.

dataman ★★★★★
()
Ответ на: комментарий от question4

Насколько я понял, каждой точке в этом пространстве вектора соответствует какой-то набор токенов, ну и близкие точки имеют близкие по смыслу наборы токенов (фразы например), ну и «непрерывный» видимо означает, что любой точке энкодер/декодер может родить какой-то свой набор токенов.

goingUp ★★★★★
()
Последнее исправление: goingUp (всего исправлений: 1)
Ответ на: комментарий от question4

Абсолютно спокойно представляешь себе бесконечное и непрерывное пространство бреда, и затем находишь в нём подпространство дискретных текстов. Не трудно заметить, что любой конечный и дискретный текст может быть частью бреда.

ratvier ★★
()
Ответ на: комментарий от somemong

Уже давно догадывался, что индусы и пакистанцы - не человеки.

rupert ★★★★★
()
Ответ на: комментарий от question4

что представляет собой «непрерывный вектор» применительно к тексту

Написано же, «целый блок из K токенов»

Языковые модели не работают с текстом, это слишком дорого. Вместо этого используются словарь токенов, где произвольным наборам символов (обычно словам и слогам) назначается индекс. Поэтому для языковой модели текст является последовательностью чисел. И вместо вычисления следующего токена придумали вычислять сразу несколько, что дает прирост в производительности.

В целом новость ни о чём кмк, ну снизит затраты на электричество мегакорпорациям.

Gary ★★★★★
()
Последнее исправление: Gary (всего исправлений: 1)
Ответ на: комментарий от Gary

Языковые модели не работают с текстом, это слишком дорого. Вместо этого используются словарь токенов, где произвольным наборам символов (обычно словам и слогам) назначается индекс.

Спасибо, это я понял.

Поэтому для языковой модели текст является последовательностью чисел.

Дискретной.

И вместо вычисления следующего токена придумали вычислять сразу несколько, что дает прирост в производительности.

И это называется «непрерывной»?

question4 ★★★★★
() автор топика
Ответ на: комментарий от question4

И это называется «непрерывной»?

«A discrete token contains only about 10-20 bits of information, whereas a floating-point continuous vector can store 32l bits.»

За «l» обозначена размерность над полем действительных чисел, но в реализации флоаты, или что-то типа того

ratvier ★★
()
Ответ на: комментарий от question4

И это называется «непрерывной»?

Ну наверное раз была дискретная последовательность токенов, набор токенов ужали до дискретной последовательности векторов. Получается что у токенов теперь нет дискретных позиций? Это какая-то не интересная семантика если честно.

Gary ★★★★★
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)