LINUX.ORG.RU

История изменений

Исправление red75prim, (текущая версия) :

Как оно работает? Вот те вот хренилиард параметров - это вся память ChatGPT?

Да - это вся память. Плюс входной буфер на 1-3 тысячи слов, чтобы держать контекст диалога.

(Дальше я пишу «он», так как GPT расшифровывается как «генерирующий предварительно натренированный трансформер»)

И оно похоже плохо понимает, сколько у него памяти и когда он уже слишком много выдумывает, когда ее не хватает?

ChatGPT знает о себе только то, что ему написали в «затравочном тексте»: ему в начало входного буфера вставляют строку с описанием того, что он такое и как надо себя вести. Что-то вроде «Я - ИИ ассистент, который точно и подробно отвечает на вопросы». После этого во входной буфер добавляется история вопросов пользователя и ответов ChatGPT.

Самоанализ у него практически отсутствует. То, что он пишет о его способах ответа на вопросы, взято из обучающих данных. То есть он описывает как подходил бы к ответу на такой вопрос человек. Соответствует-ли это описание тому, что происходит во внутренностях трансформера, - сложный вопрос. Потому что никто толком не знает что там происходит.

Собственно он мог бы просто сказать «не знаю», но я пока ни разу не слышал «не знаю».

Ему в затравочном тексте написали, что он точно и подробно отвечает на вопросы. Тот, кто отвечает «не знаю», этому описанию не соответствует.

Собственно, сейчас исследователи занимаются тем, чтобы найти способы отличать ситуации когда сеть генерирует текст на основе того, что она действительно знает (а знает она много, как показывают тесты), от «галлюцинаций», когда сеть генерирует текст не соответствующий известным ей фактам.

Исходная версия red75prim, :

Как оно работает? Вот те вот хренилиард параметров - это вся память ChatGPT?

Да - это вся память.

(Дальше я пишу «он», так как GPT расшифровывается как «генерирующий предварительно натренированный трансформер»)

И оно похоже плохо понимает, сколько у него памяти и когда он уже слишком много выдумывает, когда ее не хватает?

ChatGPT знает о себе только то, что ему написали в «затравочном тексте»: ему в начало входного буфера вставляют строку с описанием того, что он такое и как надо себя вести. Что-то вроде «Я - ИИ ассистент, который точно и подробно отвечает на вопросы». После этого во входной буфер добавляется история вопросов пользователя и ответов ChatGPT.

Самоанализ у него практически отсутствует. То, что он пишет о его способах ответа на вопросы, взято из обучающих данных. То есть он описывает как подходил бы к ответу на такой вопрос человек. Соответствует-ли это описание тому, что происходит во внутренностях трансформера, - сложный вопрос. Потому что никто толком не знает что там происходит.

Собственно он мог бы просто сказать «не знаю», но я пока ни разу не слышал «не знаю».

Ему в затравочном тексте написали, что он точно и подробно отвечает на вопросы. Тот, кто отвечает «не знаю», этому описанию не соответствует.

Собственно, сейчас исследователи занимаются тем, чтобы найти способы отличать ситуации когда сеть генерирует текст на основе того, что она действительно знает (а знает она много, как показывают тесты), от «галлюцинаций», когда сеть генерирует текст не соответствующий известным ей фактам.