История изменений
Исправление anonymous_incognito, (текущая версия) :
А как ты токенизируешь изображения без предварительного распознавания?
Если в двух словах, то изображение делится на непересекающиеся фрагменты, например, 16x16, каждый из которых потом да, пропускается, через что-то делающее ряд преобразований, и на выходе получаются вектора, которые трактуются как токены.
Можно это считать чем-то вроде предварительного распознавания, но очень условно. Основная логика всё-таки в том, что LLM работает не со словами, а с токенами, полученными из слов. И как оказывается, не обязательно из слов.
Тут ещё можно вспомнить умение LLM переводить тексты с одного языка на другой. Фокус в том, что их специально (ну кроме совсем уже специальных моделей) этому не обучали
Исходная версия anonymous_incognito, :
А как ты токенизируешь изображения без предварительного распознавания?
Если в двух словах, то изображение делится на непересекающиеся фрагменты, например, 16x16, каждый из которых потом да, пропускается, через что-то делающее ряд преобразований, и на выходе получаются вектора, которые трактуются как токены.
Можно это считать чем-то вроде предварительного распознавания, но очень условно. Основная логика всё-таки в том, что LLM работает не со словами, а с токенами, полученными из слов. И как оказывается, не обязательно из слов.