LINUX.ORG.RU

История изменений

Исправление anonymous_incognito, (текущая версия) :

А как ты токенизируешь изображения без предварительного распознавания?

Если в двух словах, то изображение делится на непересекающиеся фрагменты, например, 16x16, каждый из которых потом да, пропускается, через что-то делающее ряд преобразований, и на выходе получаются вектора, которые трактуются как токены.

Можно это считать чем-то вроде предварительного распознавания, но очень условно. Основная логика всё-таки в том, что LLM работает не со словами, а с токенами, полученными из слов. И как оказывается, не обязательно из слов.

Тут ещё можно вспомнить умение LLM переводить тексты с одного языка на другой. Фокус в том, что их специально (ну кроме совсем уже специальных моделей) этому не обучали

Исходная версия anonymous_incognito, :

А как ты токенизируешь изображения без предварительного распознавания?

Если в двух словах, то изображение делится на непересекающиеся фрагменты, например, 16x16, каждый из которых потом да, пропускается, через что-то делающее ряд преобразований, и на выходе получаются вектора, которые трактуются как токены.

Можно это считать чем-то вроде предварительного распознавания, но очень условно. Основная логика всё-таки в том, что LLM работает не со словами, а с токенами, полученными из слов. И как оказывается, не обязательно из слов.