LLM: от предсказателя слов к подобию рефлексии

1

2

В этой статье я хочу познакомить читателя с актуальным состоянием разработок в сфере LLM. Статья носит обзорный и концептуальный характер.

Стохастический попугай… или нет?

Концепция, что LLM является «просто предсказателем слова» и «попугаем» довольно распространена в среде неспециалистов, и особенно популярна как аргумент среди скептиков ИИ. Хотя этот взгляд на ИИ определенно отражает действительность, он вместе с тем — не полон.

Точно так же мы можем сказать, что «живая клетка» - это просто «совокупность молекул в неравновесном термодинамическом состоянии», или что «компьютер просто перекладывает байты». Что мы упускаем из виду при таком способе рассмотрения? Упускаем структуру. Между «совокупностью молекул» и «клеткой» лежит мета-системный переход (на самом деле, несколько таких переходов), наличие которого определяет свойства наблюдаемого объекта.

Так же и свойства смартфона у вас в руке не определяются только лишь тем, из чего он сделан, и сколько ватт рассеивает в атмосферу.

Аналогично мы упускаем существенную часть содержания, когда говорим о LLM в понятиях простого предсказателя слов.

По мере того, как вместе с развитием науки живая клетка перестаёт быть для нас черным ящиком, так же и работа ИИ постепенно становится более понятной на системном уровне. Технологии позволяют активно экспериментировать и исследовать архитектуру и структуру мышления.

Механистическая интерпретируемость: Реверс-инжиниринг «черного ящика»

Нейросети обычно сравнивают с «черными ящиками»: мы знаем, какие данные входят, и видим результат на выходе, но процессы внутри остаются загадкой. Традиционные методы оценки ИИ похожи на QA-тестирование: мы проверяем поведение — даем разные промпты и смотрим, не сломается ли модель.

Механистическая интерпретируемость (Mechanistic Interpretability) — это попытка перейти от тестирования поведения к отладке кода. Идея заключается в том, что нейросети в процессе обучения самостоятельно формируют «схемы» (circuits) — аналог подпрограмм в коде или логических вентилей в процессоре. Эти схемы состоят из групп нейронов и весов, которые выполняют конкретные микрозадачи (например, «найти глагол в предложении» или «определить, что контекст — это код Python»).

Несмотря на то, что направление находится в самом начале пути, ученые уже нашли и описали несколько механизмов работы трансформеров.

Примеры уже выявленных механизмов:

1. Индукционные головы (Induction Heads)
Это самый известный открытый механизм. Он объясняет, как модели способны к In-Context Learning (обучению на примерах внутри промпта).

Логика работы: Это механизм «копипаста». Схема сканирует контекст назад и ищет текущий токен. Если она находит его в прошлом, она смотрит, что шло сразу за ним, и повышает вероятность появления этого же токена сейчас. В некотором смысле, это подобие операции копирования памяти по указателю через механизмы внимания.

2. Ингибиторные головы (Anti‑induction Heads/Inhibition Heads)
Если индукционные головы создают циклы, повышая вероятность повторения токена, то ингибиторные головы выполняют обратную функцию — они подавляют вероятность определенных токенов.

Логика работы: В процессе генерации некоторые части нейросети могут предлагать несколько вариантов ответа. Задача ингибиторной головы — посмотреть на контекст и сказать: «Только не этот вариант».

3. Детекторы косвенного дополнения (Indirect Object Identification)
Исследователи из OpenAI и Anthropic разобрали, как GPT-2 (маленькая версия) решает грамматические задачи.

Задача: В предложении «Когда Мэри и Джон пошли в магазин, Джон дал бутылку молока…» модель должна предсказать «Мэри».
Механизм: Была найдена конкретная цепочка нейронов, которая выполняет операции, похожие на работу с указателями. Она находит все сущности (Мэри, Джон), определяет, кто является активным субъектом в последней части (Джон), и методом исключения переносит «внимание» на оставшееся имя (Мэри), чтобы подставить его в ответ.

4. Суперпозиция и полисемантические нейроны
Это не столько механизм, сколько фундаментальная проблема, которую удалось объяснить.

Проблема: В обычном коде одна переменная отвечает за одно значение. В нейросетях часто встречаются «полисемантические нейроны», которые активируются на совершенно разные вещи/несвязанные признаки.
Объяснение: Модель пытается выучить больше признаков (features), чем у нее есть физических нейронов. Она использует «сжатие с потерями», кодируя информацию в направлениях пространства высокой размерности, а не в отдельных нейронах. Это похоже на хэш-коллизии, которые модель учится грамотно обрабатывать, чтобы понятия не смешивались.

5. Арифметика и модульное сложение
Были проведены эксперименты с небольшими моделями, обученными только сложению чисел.

Открытие: Оказалось, что для выполнения операции (a + b) % n нейросеть в ходе обучения «изобрела» алгоритм, использующий тригонометрические функции (преобразование Фурье). Она вращает векторы чисел в многомерном пространстве, чтобы выполнить сложение через повороты, а не через прямую арифметику. Это показало, что ИИ может находить алгоритмические решения, которые человеку не интуитивны, но математически эффективны.

6. Вектор «правды и лжи» (Truthfulness Directions)
Исследования показывают, что в остаточном потоке (residual stream) нейросети присутствуют конкретные направления, которые коррелируют с понятиями «правда» и «ложь».

Эксперимент: Если во время генерации ответа искусственно добавить этот вектор к активациям нейронов в определенном слое, модель более склонна говорить правду. Если же вектор вычесть — модель начинает активнее галлюцинировать или говорить неправду, даже если ей не давали прямого распоряжения.
Суть: Модель интернализировала понятие фактологичности. Внутренние представления могут содержать сигнал о том, сообщает ли модель правдивые или ложные (в рамках её собственной модели мира) сведения. Модель может создавать галлюцинацию, потому что в конкретной ситуации векторы «дать красивый ответ/соответствовать стилю/быть полезной/быть помощником» оказались приоритетнее «правдивости».

Таким образом вероятно, что в будущем механистическая интерпретируемость позволит перейти от чистого «выращивания» моделей к работе со структурой мышления и целевому редактированию характеристик модели.

Переход от «интуитивного понимания» к «рассуждению»

В когнитивной психологии популярна концепция двух систем мышления:

Система 1 — это быстрая, интуитивная и автоматическая реакция. Она не требует усилий, работает на основе распознавания шаблонов и накопленного опыта.
Система 2 — медленная, аналитическая и последовательная система. Она включается для сложных вычислений, логических рассуждений и требует концентрации внимания.

Что это означает применительно к ИИ:

У современных LLM «Система 1» включена по умолчанию — потому что базовая задача обучения (предсказывать следующий токен) естественным образом поощряет быстрое распознавание шаблонов. Модель отлично умеет:

продолжать знакомые структуры текста (стиль, тон, жанр),
угадывать вероятные факты из статистики корпуса,
«схватывать» типовую логику диалога и социальные паттерны,
делать правдоподобные обобщения.

Но эта же «быстрота» имеет обратную сторону: если задача требует точного пошагового вывода, удержания инвариантов, строгой проверки условий или длинной цепочки зависимости, то одна лишь Система 1 начинает давать сбои. Отсюда — уверенные ошибки, «галлюцинации», хрупкость на редких кейсах.

Как у LLM появляется «Система 2»

У модели нет отдельного «модуля рассуждения», который работал бы параллельно процессу вывода токенов. В отличие от человека, она не может на существенную глубину «прикинуть действия в уме», используя кратковременную (оперативную) память. Таким образом для длинного пошагового мышления следует где-то явным образом хранить промежуточные состояния, и у LLM очевидный доступный носитель таких состояний — сгенерированные ею же токены.

Когда модель пишет промежуточные шаги, она делает две вещи:

Выгружает часть внутреннего состояния наружу (в текст).
Снова читает этот текст как контекст, то есть использует его как рабочую память для следующего шага.

Так появляется практический аналог Системы 2: медленнее, дороже по токенам, но способно удерживать структуру решения. Поэтому простые приемы вроде «решай пошагово» часто заметно повышают качество на задачах рассуждения (хотя и не гарантируют правильность).

Система 2 для LLM означает вынос внутреннего процесса обработки связей — в контекст. Это позволяет модели «дебажить саму себя» до выдачи финального ответа.

Еще одна аналогия: машина Тьюринга. Контекст для записи токенов выступает как лента машины Тьюринга, на которой происходит поэтапная обработка.

Арифметика как наглядный пример

Недавно мне попалась статья «Если ИИ не мыслит, то как он решает математические задачи?», которая является переводом статьи из англоязычного источника. Не вдаваясь в философию «мыслит ли ИИ», я хочу обратить внимание на конкретный практический пример.

Автор рассматривает промпт 36 + 59 = и показывает, что модель сразу даёт ответ: 95. Если же далее спросить модель, как она считала, она распишет по шагам процедуру сложения, что верно математически, но при этом не отражает сути вопроса: сама она считала не так, ведь она не выписывала шаги. При ответе пользователю модель сочинила post-hoc рационализацию.

В рассмотренном примере ИИ решает математические задачи при помощи тех самых «процедур» и «цепей», формирующихся внутри LLM при обучении.

Стоит упомянуть, что автор рассматривает простой пример 36 + 59 =, но если взять пример сложнее, например 20206 + 37546 =, и потестировать его на моделях в ollama, то многие LLM также сразу дают ответ без промежуточных шагов. Как верно указывает автор, чем сложнее пример, тем чаще модель ошибается.

Вплоть до этого места моя позиция совпадает с позицией автора. Но далее начинаются тонкости, которые автор не упомянул.

Если мы возьмём современную рассуждающую модель, например серии GLM, и попросим её посчитать 20206 + 37546 =, то увидим сначала в блоке рассуждений алгоритм сложения по шагам, а уже затем — финальный результат.

Это означает, что здесь модель комбинирует Систему 1 для элементарных операций («6 + 6 будет 12, 2 пишем, 1 переносим в старший разряд») и Систему 2 для следования процедуре сложения.

Такой подход хотя и не избавляет от галлюцинаций, но заметно понижает их вероятность. Также качественно обученная модель нередко способна обнаружить ошибку в сгенерированном контексте и исправиться «на лету». Если модель обучают так, чтобы она «не боялась» критически пересматривать соображения, и поощряют такое поведение, модель формирует соответствующие шаблоны самокритики и самоисправления.

Проблема имитации рассуждения

Даже в рассуждающем режиме модели зачастую не «рассуждают», а «имитируют рассуждения», копируя структуру примеров рассуждения из обучающей выборки без обращения к их сути. На практике это приводит к появлению «структурированных», но логически не целостных рассуждений, при этом логические дыры в них сама модель не замечает и себя не корректирует.

Также может быть, что цепь рассуждений говорит одно, а финально модель решает другое. Связь «рассуждение → вывод» имитирована по форме, но суть упущена.

Переход от имитации ко всё более содержательному рассуждению, способному рассматривать предмет мышления по существу, обращать внимание на собственные ошибки и корректировать их — это одно из самых актуальных направлений в сфере ИИ сейчас.

Практические ограничения

Среди открытых моделей по моему опыту весьма структурные рассуждения с возможностью критически относиться к собственным выводам демонстрирует GLM. Поэтому на её примере я опишу ограничения, наблюдаемые в реальной работе. По большей части эти же ограничения относятся и к другой известной открытой модели, DeepSeek-R1, но с GLM у меня просто больше практического опыта.

При анализе сложного материала модель выполняет пошаговый анализ на верхнем уровне, но не детализирует рассуждения «вниз», полагаясь на интуитивные выводы Системы 1. В конкретных случаях это может приводить к существенным неточностям рассуждений. Модель выбирает шаблонные связи из опыта обучения вместо реально существующих в тексте. Видно, что пока что у модели не хватает внутренних инструментов, чтобы удерживать сложный рекурсивный контекст.
Может быть и обратная ситуация. Модель подробно анализирует отдельные факты и суждения, выдвигает гипотезы, проверяет, отбрасывает неудачные. Но при этом не выходит на глобальный уровень анализа материала, в результате чего пропускает важные закономерности.
Порой модель может полностью сгаллюцинировать вызов внешнего инструмента и его ответ, таким образом заменив суть — формой, правдоподобной имитацией.
Иногда модель не понимает/не рефлексирует, на каком языке сейчас говорит. Можно провести аналогию с тем, что у человека производство речи тоже весьма «автоматично».

Стоит отметить, что у моделей сокращенного размера (например qwen3-vl:4b) может наблюдаться «неспособность прийти к конкретному выводу». Модель перебирает различные гипотезы, но сигнал на завершение рассуждения не формируется, порождая хождение по спирали до исчерпания лимита по токенам. У такой маленькой модели не хватает ёмкости, чтобы качественно удерживать внимание на соображениях, которые она сама и написала.

Способность «написать детальные соображения, а потом посмотреть на них» зависит как от приёмов тренировки, так и от ёмкости. У маленькой модели просто нет возможности сформировать качественные внутренние цепи.

Следующий шаг: Система 2 с опорой на инструменты

У людей Система 2 часто опирается на внешние средства: бумагу, калькулятор, справочники, эксперименты. Для ИИ ровно тот же путь оказался ключевым: вместо того чтобы требовать от модели «держать мир в голове», мы даем ей:

калькулятор / Python для вычислений,
поиск и цитирование источников для фактов,
тесты и линтеры для кода,
базы знаний и API.

Подходы вроде ReAct объединяют «рассуждение» и «действие» (вызов инструмента), превращая модель из говорящего предсказателя токенов в систему, которая может проверять себя об внешний мир. Также современные исследования показывают, что модель можно обучать так, чтобы она сама решала, когда звать инструмент и как встроить результат обратно в контекст.

На пути ко всё более сильному ИИ

Сейчас мы наблюдаем зарождение алгоритмического рассуждения у моделей. LLM как «рассуждающая система» появляется, когда мы добавляем структуру процесса: промежуточные записи, проверку, поиск, инструменты, критерии отбора, итерации.

Сегодня многие практические системы строятся как композиция:

базовой модели (Система 1: язык и шаблоны)
обвязки, создающей Систему 2 (планирование, внешняя память, проверка, поиск, инструменты, отбор траекторий)

Скептическая фраза про «предсказатель следующего слова» становится менее убедительной, когда мы рассматриваем не отдельный шаг предсказания, а замкнутый контур вычисления: модель → промежуточный вывод → самопроверка/инструмент → обновленный контекст → следующий шаг.

Именно в этих контурах сегодня и происходит прогресс: не просто добавить в модель больше параметров, а как заставить модель тратить вычисление на мысль, а не на правдоподобную импровизацию.

Ссылка

←	Pantum M6507 в линуксе

Wine WoW64: запускаем приложения i386 без multilib

→

← 1 2 3 →

Ответ на: комментарий от Bad_ptr 14.01.26 17:09:27 MSK

Про аналогии с детьми стоит подумать, что за разные функции отвечают разные части мозга. Вероятно они имеют оптимизированные под задачи структуры.

ya-betmen ★★★★★
(14.01.26 20:13:59 MSK)

Ответ на: комментарий от ya-betmen 14.01.26 20:13:59 MSK

стоит подумать, что за разные функции отвечают разные части мозга

А ещё стоит подумать о том что детям могут удалить одно из полушарий и ничего, вырастают нормальными.
Ну и примеры типа этого, который приносил Obezyan

Bad_ptr ★★★★★
(14.01.26 20:27:52 MSK)

Ответ на: комментарий от Bad_ptr 14.01.26 20:05:31 MSK

Те по вашему в мозгу муравья электрические сигналы не ходят?

Obezyan ☆
(14.01.26 21:01:49 MSK)

Ответ на: комментарий от Bad_ptr 14.01.26 20:27:52 MSK

А ещё стоит подумать о том что детям могут удалить одно из полушарий и ничего, вырастают нормальными.

99,999% нормальными не вырастут. Да, бывают единичные на всю планету экстремальные случаи, которые представляют собой загадку и хорошую тему для дискуссий. Но на практике куда чаще приходится иметь дело с прямо противоположными по смыслу случаями, когда, например, лакунарный ишемический инсульт, который на компьютерной томографии не всегда видно из-за малых размеров, имеет все шансы превратить человека в инвалида.

Leupold_cat ★★★★★
(14.01.26 21:34:05 MSK)
Последнее исправление: Leupold_cat 14.01.26 21:35:12 MSK (всего исправлений: 1)

Ответ на: комментарий от Leupold_cat 14.01.26 21:34:05 MSK

лакунарный ишемический инсульт Ну инсульт – это резкое событие и как правило во взрослом возрасте, когда мозг уже «настроен» и «сформирован» и тут ему резко «меняют планировку». Ну и понятно что есть части мозга которые критически важны.

Bad_ptr ★★★★★
(14.01.26 21:52:01 MSK)

Ответ на: комментарий от Leupold_cat 14.01.26 21:34:05 MSK

Кстати, ты же вроде врач и как раз на этом специализируешься. С возрастом корреляция в худшую сторону значительная или нет? По идее в теории должна быть значительная, т.е. чем старше тем меньше нейрончиков и как следствие хуже пластичность. С другой стороны конечно чем раньше инсульт, тем больше проблем со здоровьем изначально. Просто в ИИ есть довольно старое направление и куча идей из него, когда во время обучения удаляются/добавляются нейроны (ну например тот же нейронный газ). Интересно насколько нейронки коррелируют с реальными мозгами.

peregrine ★★★★★
(14.01.26 21:52:18 MSK)

Ответ на: комментарий от Obezyan 14.01.26 21:01:49 MSK

Те по вашему в мозгу муравья электрические сигналы не ходят?

электрические сигналы везде в природе ходят.. но результат разный

Bad_ptr ★★★★★
(14.01.26 21:53:37 MSK)
Последнее исправление: Bad_ptr 14.01.26 21:54:38 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от Bad_ptr 14.01.26 21:52:01 MSK

Там ещё вопрос к тому, что части мозга которые ещё работают, насколько они здоровые, инсульт то не на ровном месте случился, т.е. кровоснобжение упало до того уровня, что клекти мозга отмерли. Те которые не отмерли могут голодать и тоже работать хуже? ХЗ, надо у Кота Леопольда спрашивать.

peregrine ★★★★★
(14.01.26 21:54:21 MSK)

Ответ на: комментарий от Leupold_cat 14.01.26 21:34:05 MSK

Ладно, с мозгом реальным всё сложно конечно из-за его реальности, биологичности, химичности и физичности.. Моя мысль которую я хотел сказать была проста – что да, есть «отделы мозга» занимающиеся определёнными функциями, но не все они чётко и жёстко локализованы с начала жизни и могут и поменять свои локации.

Bad_ptr ★★★★★
(14.01.26 22:08:44 MSK)
Последнее исправление: Bad_ptr 14.01.26 22:20:28 MSK (всего исправлений: 2)

В этой статье я хочу познакомить упирающегося читателя с актуальным состоянием разработок в сфере LLM, игнорируя крики «да вы уже за**али», «верните цены на раму» и т.д.

thesis ★★★★★
(14.01.26 22:14:52 MSK)

Ответ на: комментарий от Bad_ptr 14.01.26 20:27:52 MSK

Конечно, человеки умеют чесать левое ухо правой рукой.

ya-betmen ★★★★★
(14.01.26 22:27:07 MSK)

Ответ на: комментарий от peregrine 14.01.26 21:52:18 MSK

Люди в молодом возрасте восстанавливаются после инсультов, как правило, лучше, чем пожилые. Но это далеко не самый определяющий фактор для прогноза. Например, локализация и объем поражения мозга намного важнее.

Leupold_cat ★★★★★
(14.01.26 22:29:44 MSK)
Последнее исправление: Leupold_cat 14.01.26 22:30:08 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от ya-betmen 14.01.26 22:27:07 MSK

человеки умеют чесать левое ухо правой рукой.

ну вот смотри, ты говоришь что в мозгу есть «центр» отвечающий за речь. А я говорю, а если ребёнка речи не обучили? Воооот.. значит эти «центры» имеют возможности «самоорганизации» и «самопроявления» под «обучающим воздействием».

Bad_ptr ★★★★★
(14.01.26 22:34:28 MSK)

Ответ на: комментарий от thesis 14.01.26 22:14:52 MSK

верните цены на раму

А зачем тебе рама, если не для запуска нейронок?

mamina_radost ★
(14.01.26 22:35:00 MSK)

Ссылка

Ответ на: комментарий от peregrine 14.01.26 21:54:21 MSK

Те которые не отмерли могут голодать и тоже работать хуже?

Да. Что при инсульте, что при хроническом нарушении мозгового кровообращения, клетки, имеющие недостаточное кровоснабжения для функционирования, но достаточное для поддержания их существования, могут не принимать участие в проведении и генерации импульсов.

В случае именно инсультов для этого даже придумана концепция «пенумбры».

Leupold_cat ★★★★★
(14.01.26 22:38:17 MSK)

Ссылка

Открытие: Оказалось, что для выполнения операции (a + b) % n нейросеть в ходе обучения «изобрела» алгоритм, использующий тригонометрические функции (преобразование Фурье). Она вращает векторы чисел в многомерном пространстве, чтобы выполнить сложение через повороты, а не через прямую арифметику. Это показало, что ИИ может находить алгоритмические решения, которые человеку не интуитивны, но математически эффективны.

Вопросы:

Как это решение может быть эффективным?
Оно ведь наверняка считает с погрешностью?
Как смогли понять, что модель чего-то там изобрела?

Остальные примеры так же похожи на мифы из мира ИИ, чем на что-то реальное и полезное.

Kogrom ★★
(14.01.26 22:44:28 MSK)

Ответ на: комментарий от Kogrom 14.01.26 22:44:28 MSK

https://youtu.be/3vPyJUxcKW4?si=w1bFsqeXVeskmwHw

wandrien ★★★
(14.01.26 22:48:09 MSK) автор топика

Ответ на: комментарий от Bad_ptr 14.01.26 22:08:44 MSK

Все так, со временем разные отделы мозга могут брать на себя функции которые не были им свойственны заменяя другие поврежденные отделы.

Те имеем следующее:

Сложная, плотно упакованная «не плоская структура» нейронов и их связей
Возможность изменения связей, в местах где активнее проходят сигналы наростает больше новых нейронов и связей между ними. Там где мало проходит сигналов - отмирает.
Постоянная бомбардировка входящей информацией, огромным потоком информации (зрительная, слуховая, обонятельная, тактильная) который долбит эту структуру прошивая электрическими импульсами.

п.3 запускает процесс перестройки п.2 который возможен благодаря п.1 - это и есть обучение.

Obezyan ☆
(14.01.26 22:50:46 MSK)

Ответ на: комментарий от Obezyan 14.01.26 22:50:46 MSK

для контраста, в современных сетях:

вместо сложной структуры - плоская.
изменения связей нет, только изменение весов активаций этих связей. а вместо «спайка» идет дискретный сигнал.
бомбардировка информацией только на этапе обучения.

Те текущие нейронные сети ни по одному параметру не подходят под те варианты которые мы имеем в качестве образцов интеллекта. И только в последние пару лет исследователи начали это понимать и пытаться изменить.

Obezyan ☆
(14.01.26 22:57:48 MSK)

Ответ на: комментарий от Bad_ptr 14.01.26 22:34:28 MSK

Нет, я говорю, что эти центры не формируются сами собой в процессе обучения а уже существуют и заточены под определенные задачи, и возможно это жжж неспроста.

ya-betmen ★★★★★
(15.01.26 00:49:17 MSK)

Ответ на: комментарий от Obezyan 14.01.26 22:57:48 MSK

Те текущие нейронные сети ни по одному параметру не подходят под те варианты которые мы имеем в качестве образцов интеллекта. И только в последние пару лет исследователи начали это понимать и пытаться изменить.

Что в текущем виде у нейросетей есть огромные архитектурные недостатки знают все, кто ими плотно занимается, вопрос только в каком направлении и как их исправлять, насколько нужно пытаться имитировать именно естественные?

Из удачных имитаций на ум приходят свёрточные сети (CNN), которые оказались прорывными для компьютерного зрения.

Интересно, что нейронные сети как раз и начались (статья Маккаллока и Питтса в 1943-м) с попытки моделировать устройство естественного интеллекта. Да и в дальнейшем в этом направлении двигались, даже персептрон Розенблатта, который наверное можно считать родоначальником совремённых нейросетей, по своей задумке был всё-таки моделью нейронных связей.

Можно аналогию с полётами в воздухе привести. Были и даже есть попытки в подражание птицам сделать махолёт (орнитоптеры) и некоторые даже успешные - летают, но это явно не направление для развития, скорее курьёз, в лучшем случае имеющий преимущества в каких-то весьма особенных ситуациях.

anonymous_incognito ★★★★★
(15.01.26 04:04:37 MSK)

Ответ на: комментарий от anonymous_incognito 15.01.26 04:04:37 MSK

Есть еще один момент, по моему мнению принципиально важный, который отличает «сильный» интеллект (человека) от остальных интеллектов (животных): мы не воспринимаем окружающую реальность напрямую.

Те мы не взаимодействуем с миром напрямую. У нас в голове строится сначала картина (модель) мира, в силу нашего понимания этого самого мира, а затем уже мы строим свои планы, принимаем решения и действуем применительно к созданной картине мира, которая зачастую вообще отношения к реальности не имеет.

Именно это отличает нас от животных. Например, кот не будет задумываться, лизать ли ему яйца на Красной площади, он просто лижет, потому что - может, не задумываясь о нормах морали, этики и тд. У него нет построенной картины мира в голове на которую можно было бы накладывать шаблоны подобных правил (и исследования это показали).

Информация о мире всегда неполна, поэтому мозг достраивает картину мира сам, буквально придумывая недостающие кусочки для связи уже известных частей. Именно то как мозг достраивает эти кусочки, насколько используется критическое и логическое мышление в процессе достраивания и отличает развитый интеллект от неразвитого. Те вот эта вот способность делать ошибки и учиться на них с каждым разом улучшая механизм составления картины мира и есть настоящая обучаемость.

В нейронных сетях есть механизм составления картины мира - системный промт. Но сеть не может менять (обновлять) его сама получая новую информацию о задаче. Хотя многие сети закидывают историю чата (кусочки картины мира) в каждый новый запрос в попытке построить эту картину мира «на лету» это лишь уменьшает размер контекстного окна доступного сети для ответа.

Получается, что на самом деле у современных сетей есть заучивание и аппроксимация, но нет обучаемости в том контексте который мы применяем к нашему интеллекту.

Исследования в области создания системного промта как картины мира, который меняла бы сама нейронная сеть в процессе работы еще не начались, это оч сложный этап который уберет разделение понятий обучения и инференса собрав их воедино.

Obezyan ☆
(15.01.26 16:11:44 MSK)

На примере текущего места работы выдел весь цикл увлечения LLM-ками, от первоаначальных охов, ахов и всех восторгов, и улета бороздить просторы вселенных, до аварийного приземления на ближайшей твердой планете, и начало выращивания на ней картошки для прокорма в гораздо более худших условиях, чем это можно было бы делать на Земле. И так все вокруг, кто связывается с LLM для прода. Все проходят тот самый цикл. И многие уже прошли (им эту простыню вздохов про LLM не надо паказывать, могут и морду дать) ЗЫ все что тут описано-этим бредили коллеги на первом этапе перед улетом в космоc. Начнешь юзать это в проде, как и они-авариайно упадешь на ближайшую планету картошку выращивать.

slew
(15.01.26 16:48:14 MSK)

Ответ на: комментарий от Obezyan 15.01.26 16:11:44 MSK

кот не будет задумываться, лизать ли ему яйца на Красной площади, он просто лижет

Если ему за это уже прилетало тапком — очень даже может задуматься. Животные тоже обычно не совсем необучаемые.

Nervous ★★★★★
(15.01.26 16:56:40 MSK)

Ответ на: комментарий от Nervous 15.01.26 16:56:40 MSK

Если ему за это уже прилетало тапком — очень даже может задуматься. Животные тоже обычно не совсем необучаемые.

Да, но картину мира от тапка он не построит. Просто добавится новое правило поведения под давлением внешней силы. Эдак мы и условный рефлекс собак Павлова в обучаемость запишем.

Obezyan ☆
(15.01.26 17:02:57 MSK)

Ссылка

Ответ на: комментарий от slew 15.01.26 16:48:14 MSK

Уже 12 лет использую, из них 5 лет в коммерческих продах. Полет нормальный. Может не стоит очаровываться инструментом чтобы потом не разочаровываться? И заодно не пихать его в каждую щель, а использовать строго по назначению. Но это же изучать нужно, разбираться, и пара прочитанных статей на хабре тут не помощник.

Похоже на ошибку выжившего, но у меня есть коллеги у которых также полет нормальный. Значит дело не в нас, подумайте над этим. Может не в молотке дело если все пальцы отбиты?

Obezyan ☆
(15.01.26 17:12:52 MSK)

Ответ на: комментарий от Obezyan 15.01.26 17:12:52 MSK

Вот ты скорее всего ту самую картошку и растил, не мечтая о космосах. Только ее и без LLM-ок можно растить. ЗЫ у тех коллег не ошибка выжившего, а LLM-эффект обыкновенный, о котором уже в медиа поговариавают умные люди: завышенные ожидания от LLM-ок у всяких бузинесов по причине угарелого пиара, в том числе и вполне «наукообразного» (примерчик в простыне восхищений LLM-ками от ТС-а).

slew
(15.01.26 21:30:07 MSK)
Последнее исправление: slew 15.01.26 21:33:26 MSK (всего исправлений: 1)

Ответ на: комментарий от slew 15.01.26 21:30:07 MSK

Ну ну, куда мне, обезьяне то, картошку растить? У меня лапки.

Возьмем простую задачу из недавнего опыта, перевод с любого языка на английский. Буквально нужно автоматически и быстро перевести очередные иероглифы к тому что принимает DHL и UPS в качестве валидного адреса для международных отправлений. Больше всего пишут на своем родном японцы, поляки и франкоговорящие канадцы, но и остальные тоже нет нет да и да.

Более серьезные примеры я уже приводил в соседних темах, это и парсинг документов без ОСR и много чего еще.

Повторю еще раз, вы вините молоток за то что у вас все пальцы в гематомах.

Obezyan ☆
(15.01.26 23:02:29 MSK)

Ссылка

Ответ на: комментарий от mamina_radost 14.01.26 17:05:06 MSK

Ты вернул смысл статей на него

Шутка за 300: и превратил мой ЛОР в хабр

unclestephen ★
(16.01.26 09:33:49 MSK)

Ответ на: комментарий от unclestephen 16.01.26 09:33:49 MSK

Хабр это давно рекламная площадка для говнохостеров.

mamina_radost ★
(16.01.26 15:40:41 MSK)

Ссылка

Ответ на: комментарий от unclestephen 16.01.26 09:33:49 MSK

Вот это и останавливает меня от написания отдельных статей тут. Ситуация когда для ответа в виде комментария текста с примерами кода слишком много, а для статьи - нерелейтед к линуксу и какой-то хабр получатся.

Например, в этой теме я бы хотел дальше развить тему обсуждения нейронный сетей больше похожих на наш мозг по сравнению с текущими решениями, с практической реализацией. Раздела комментариев для этого явно не хватит, но это явно нерелетед к линуксу и хз будет ли это кому-либо интересно кроме меня.

Obezyan ☆
(16.01.26 16:06:18 MSK)

Ответ на: комментарий от Obezyan 16.01.26 16:06:18 MSK

Вот это и останавливает меня от написания отдельных статей тут.

Зря. Ваши статьи востребованы, вы создаете прекрасные, чистые аналогии в Системном Дизайне, в Компьютерных Сетях. Ужимая 1000 страниц в 1 страницу на столько продуктивно, на сколько это можно.

Ваши статьи о LLM было бы интересно и полезно почитать, особенно тем кто не планирует уходить в дизайн LLM, но хочет иметь базовые представление вроде: IP - город, Протокол - улица, Порт - адрес дома, дом - программа, IP пакет - вагон, Витая Пара - рельсы. Т.е. дает некоторое обобщенное представление о функционировании, в данном случае, сетей.

Проблема кроется в «активных комментаторах» сообщества: которые считают, что «OSI не нужно», «Berkeley Socket - что-то на неандертальском» и прочее и прочее. Их мало, они гиперактивны, и создают иллюзию большинства. Если писать статьи, то их придется забанить и LOR затихнет - так как они создают «вал» коротких сообщений.

lbvf50txt ★
(16.01.26 18:50:38 MSK)
Последнее исправление: lbvf50txt 16.01.26 18:56:14 MSK (всего исправлений: 1)

Ссылка

Ответ на: комментарий от slew 15.01.26 16:48:14 MSK

На примере текущего места работы выдел весь цикл увлечения LLM-ками, от первоаначальных охов, ахов и всех восторгов…

Программирование такая сфера - где один символ кардинально меняет всё. Поставить - вместо + в коде компьютерной игры, и она становится полностью непригодна, вместо игрового поля - черный экран, все объекты «уехали».

LLM по природе своей статистическая модель, если человек этого не понимает, значит у него нет а) образования б) опыта программирования. Отсюда рождаются поляризованные мнения: LLM - очень хорошо, LLM - очень плохо. Вместо взвешенного LLM дает 0.5% ошибок, что может быть критично, требуется особая проверка кода.

К LLM требуется натасканных программист, который много работал с текстом, с индексными указателями и закладками в книгах. Писал код в текстовом редакторе. По этому в крупные конторы на собеседовании требуют писать код программы карандашом на бумаге.

Все IDE, LLM - это усилитель, а не источник сигнала. «Песню» все равно «поет» программист. Умеет «петь» - LLM поможет, не умеет - LLM сделает еще хуже, так как продуктивность выше. Программисты теперь как музыканты, раньше можно было репетировать за деньги - «формошлепить», сейчас репетиции - бесплатно. Но для тех кто любит программировать это не проблема, это беда «вайтишников» которые заехали «нарубить капусты».

lbvf50txt ★
(16.01.26 19:04:29 MSK)
Последнее исправление: lbvf50txt 16.01.26 19:14:03 MSK (всего исправлений: 2)

Ссылка

Ответ на: комментарий от Obezyan 16.01.26 16:06:18 MSK

Ну если отдавать форум на откуп челам, которые обсуждают полную ерунду в разделе Development, то так оно и будет дальше идти…

Надо преобразовывать местечко под себя, постепенно меняя информационный баланс в обсуждениях.

wandrien ★★★
(16.01.26 20:34:24 MSK) автор топика

Ответ на: комментарий от wandrien 14.01.26 22:48:09 MSK

ссылка на видео вместо ответа на вопросы

Зачем мне смотреть 35 минут видео? Вопрос то простой: как бесконечная сумма синусов (или что там) может быть эффективнее простой формулы с двумя операторами? Или хотя бы соизмерима по эффективности?

Далее. Чтобы оценить корректность работы нейронки, мы должны доказать тождество исходной формулы и изобретённого алгоритма. Для этого нужно не видео, а статья с доказательством. Статьи нет, а есть научно-фантастическое видео.

Kogrom ★★
(16.01.26 21:15:20 MSK)

Ответ на: комментарий от Kogrom 16.01.26 21:15:20 MSK

На глупые вопросы не может быть умного ответа.

wandrien ★★★
(16.01.26 21:17:36 MSK) автор топика

Ответ на: комментарий от wandrien 16.01.26 21:17:36 MSK

Тут либо сознательный троллинг, либо восторг гуманитария, который сходит с ума от волшебный слов «преобразование Фурье», «вращение вектора в многомерном пространстве», «математическая эффективность» (что это вообще такое?). Набрали красивых слов для пафоса, а формул то нет. Доказательств нет. Одно кино.

Kogrom ★★
(16.01.26 21:27:32 MSK)

Ответ на: комментарий от Kogrom 16.01.26 21:27:32 MSK

«Простая формула с двумя переменными» не может самозародиться в черной коробке, её туда кто-то записал.

В данном случае же речь идёт о процессе формирования признаков в эволюционирующей системе.

В отличие от «простой формулы», нет способа вложить в ящик «понимание мира» как алгоритм, сейчас подобие такого понимания можно только сформировать тренингом нейросети.

Поэтому вопрос об «эффективности сложения чисел нейросеткой» лишен смысла. Сложение чисел это иллюстрация механизма на простом примере. Ты бы еще про эффективность программы «Hello, world!» спросил.

Пока, к сожалению, твои комменты служат лишь иллюстрацией эффекта Даннинга-Крюгера и не дают возможности для предметного обсуждения.

Повышай уровень своих знаний.

wandrien ★★★
(16.01.26 21:34:12 MSK) автор топика
Последнее исправление: wandrien 16.01.26 21:35:48 MSK (всего исправлений: 3)

Ответ на: комментарий от wandrien 16.01.26 21:34:12 MSK

сейчас подобие такого понимания можно только сформировать тренингом нейросети.

Какое же там понимание? Если мы нагенерили множество a, b, n, и результаты формулы, скормили нейронке, то она подобрала коэффициенты в своих матрицах и теперь выдаёт результат с какой-то погрешностью для новых a, b, n. Она ничего не понимает и не изобретает. И мы не можем доказать, что она не соврёт на каких-то a, b, n, если строго математически не доказали тождество.

Kogrom ★★
(16.01.26 21:50:25 MSK)

Ссылка

Ответ на: комментарий от Kogrom 16.01.26 21:15:20 MSK

ссылка на видео вместо ответа на вопросы

Зачем мне смотреть 35 минут видео?

Извини, а я нанимался тебе ответы на вопросы писать?

Ты задал вопрос: Как смогли понять, что модель чего-то там изобрела?

Я тебе дал ссылку на видео, где максимально подробно и на пальцах всё разжевывается. (Хотя есть и неточности в описании механизма трансформера, но пониманию принципа это не мешает.)

Ссылка даёт максимально содержательный ответ на вопрос «как», какой только можно дать простым языком.

Вместо того чтобы сказать спасибо за полезную ссылку, ты решил тут повыёживаться.

wandrien ★★★
(16.01.26 21:52:14 MSK) автор топика

Ответ на: комментарий от wandrien 16.01.26 21:52:14 MSK

Ок. Посмотрел видео. Смысл его совсем в другом. Исследователи строили графики по коэффициентам слоёв и заметили, что перед окончанием обучения эти графики представляют собой синусоиды.

Что эта информация даёт инженеру? То, что можно в обучении пропустить 7000 эпох, если знать как сразу выстроить коэффициенты в слоях. В этом открытие. Нейронка по прежнему ничего не понимает и ничего не изобретает. Но мы можем значительно сократить время обучения, если повезёт.

Kogrom ★★
(17.01.26 00:12:28 MSK)

Ссылка

Ответ на: комментарий от wandrien 16.01.26 20:34:24 MSK

Возможно, вы правы. Попробую.

Obezyan ☆
(19.01.26 22:44:06 MSK)

Ссылка

В Anthropic показали, что «характер» в LLM — это отдельное направление в нейросети

wandrien ★★★
(20.01.26 15:31:34 MSK) автор топика

Ответ на: комментарий от wandrien 20.01.26 15:31:34 MSK

Не менее интересны подходы, которые потаются решить проблему контекста в сложных агентских системах.

mamina_radost ★
(20.01.26 20:09:34 MSK)

Ссылка

Ответ на: комментарий от ya-betmen 14.01.26 00:04:45 MSK

Мозгам хватает 3000ккал в сутки, что емнип около 150Вт.

Намного меньше.

sabacs
(28.01.26 11:48:11 MSK)

Ссылка

Ответ на: комментарий от Nervous 15.01.26 16:56:40 MSK

Если ему за это уже прилетало тапком — очень даже может задуматься. Животные тоже обычно не совсем необучаемые.

Они понимают, что в твоём присутствии что-то делать нельзя и очень быстро. Но стоит тебе только выйти…

sabacs
(28.01.26 12:01:36 MSK)

Ссылка

Ответ на: комментарий от wandrien 16.01.26 20:34:24 MSK

Надо преобразовывать местечко под себя, постепенно меняя информационный баланс в обсуждениях.

Это можно сделать только повышая уровень последователей. А для этого не надо сувать им видео, потому что ООН постановил, что основной способ работы с информацией - текст. Обучающая статья гораздо полезнее видео. А если ты такой умеющий в ИИ, взял бы сайт с ИИ, да распознал бы голос с видео в текст.

Saakx
(28.01.26 12:06:43 MSK)

Ссылка

Ответ на: комментарий от ya-betmen 15.01.26 00:49:17 MSK

Вполне возможно, идея достаточно известная: https://arxiv.org/abs/1803.03635

error_
(04.02.26 00:44:09 MSK)

Ссылка

Ответ на: комментарий от Obezyan 13.01.26 21:08:59 MSK

, освоили животноводство (тля),

А ещё среди муравьёв есть наркоманы, afaik.

Слушал недавно запись передачи «О животных с Иваном Затевахиным» (2005, Радио Россия).

pacify ★★★★★
(23.02.26 22:01:36 MSK)

Ссылка

Недавно мне попалась статья «Если ИИ не мыслит, то как он решает математические задачи?»,

AxiomProver крутая штука получилась.

drsm ★★
(23.02.26 22:17:38 MSK)

Ссылка

Для того чтобы оставить комментарий войдите или зарегистрируйтесь.

← 1 2 3 →

←	Pantum M6507 в линуксе

Разработка

Wine WoW64: запускаем приложения i386 без multilib

→

Стохастический попугай… или нет?

Механистическая интерпретируемость: Реверс-инжиниринг «черного ящика»

Переход от «интуитивного понимания» к «рассуждению»

Следующий шаг: Система 2 с опорой на инструменты

На пути ко всё более сильному ИИ

Похожие темы