LINUX.ORG.RU

История изменений

Исправление red75prim, (текущая версия) :

На тему того, что переоценивать силу chain-of-thought тоже не стоит, этот подход не позволяет совершить качественный скачок.

Да, скорее всего так. Если складывать всё в контекст и надеяться на in-context learning, то упираемся в квадратичный рост вычислительной сложности при росте размера контекста. А linear attention вызывает падение точности при росте размера контекста.

LLM’ам очень не хватает нормальной R/W эпизодической памяти, а не костылей вроде RAG и выделения части контекста под TL;DR того что было раньше в диалоге.

Интересно, что на эту тему происходит за закрытыми дверями больших компаний. В чатботы такую штуку выставлять нельзя до решения проблем с приватностью.

Исходная версия red75prim, :

На тему того, что переоценивать силу chain-of-thought тоже не стоит, этот подход не позволяет совершить качественный скачок.

Да, скорее всего так. Если складывать всё в контекст и надеяться на in-context learning, то упираемся в квадратичный рост вычислительной сложности при росте размера контекста. А linear attention вызывает падение точности при росте размера контекста.

LLM’ам очень не хватает нормальной R/W эпизодической памяти, а не костылей вроде RAG и выделения части контекста под TL;DR того что было раньше в диалоге.