LINUX.ORG.RU

LLM: от предсказателя слов к подобию рефлексии

 glm, , ,


1

2

В этой статье я хочу познакомить читателя с актуальным состоянием разработок в сфере LLM. Статья носит обзорный и концептуальный характер.

Стохастический попугай… или нет?

Концепция, что LLM является «просто предсказателем слова» и «попугаем» довольно распространена в среде неспециалистов, и особенно популярна как аргумент среди скептиков ИИ. Хотя этот взгляд на ИИ определенно отражает действительность, он вместе с тем — не полон.

Точно так же мы можем сказать, что «живая клетка» - это просто «совокупность молекул в неравновесном термодинамическом состоянии», или что «компьютер просто перекладывает байты». Что мы упускаем из виду при таком способе рассмотрения? Упускаем структуру. Между «совокупностью молекул» и «клеткой» лежит мета-системный переход (на самом деле, несколько таких переходов), наличие которого определяет свойства наблюдаемого объекта.

Так же и свойства смартфона у вас в руке не определяются только лишь тем, из чего он сделан, и сколько ватт рассеивает в атмосферу.

Аналогично мы упускаем существенную часть содержания, когда говорим о LLM в понятиях простого предсказателя слов.

По мере того, как вместе с развитием науки живая клетка перестаёт быть для нас черным ящиком, так же и работа ИИ постепенно становится более понятной на системном уровне. Технологии позволяют активно экспериментировать и исследовать архитектуру и структуру мышления.


Механистическая интерпретируемость: Реверс-инжиниринг «черного ящика»

Нейросети обычно сравнивают с «черными ящиками»: мы знаем, какие данные входят, и видим результат на выходе, но процессы внутри остаются загадкой. Традиционные методы оценки ИИ похожи на QA-тестирование: мы проверяем поведение — даем разные промпты и смотрим, не сломается ли модель.

Механистическая интерпретируемость (Mechanistic Interpretability) — это попытка перейти от тестирования поведения к отладке кода. Идея заключается в том, что нейросети в процессе обучения самостоятельно формируют «схемы» (circuits) — аналог подпрограмм в коде или логических вентилей в процессоре. Эти схемы состоят из групп нейронов и весов, которые выполняют конкретные микрозадачи (например, «найти глагол в предложении» или «определить, что контекст — это код Python»).

Несмотря на то, что направление находится в самом начале пути, ученые уже нашли и описали несколько механизмов работы трансформеров.

Примеры уже выявленных механизмов:

1. Индукционные головы (Induction Heads)
Это самый известный открытый механизм. Он объясняет, как модели способны к In-Context Learning (обучению на примерах внутри промпта).

  • Логика работы: Это механизм «копипаста». Схема сканирует контекст назад и ищет текущий токен. Если она находит его в прошлом, она смотрит, что шло сразу за ним, и повышает вероятность появления этого же токена сейчас. В некотором смысле, это подобие операции копирования памяти по указателю через механизмы внимания.

2. Ингибиторные головы (Anti‑induction Heads/Inhibition Heads)
Если индукционные головы создают циклы, повышая вероятность повторения токена, то ингибиторные головы выполняют обратную функцию — они подавляют вероятность определенных токенов.

  • Логика работы: В процессе генерации некоторые части нейросети могут предлагать несколько вариантов ответа. Задача ингибиторной головы — посмотреть на контекст и сказать: «Только не этот вариант».

3. Детекторы косвенного дополнения (Indirect Object Identification)
Исследователи из OpenAI и Anthropic разобрали, как GPT-2 (маленькая версия) решает грамматические задачи.

  • Задача: В предложении «Когда Мэри и Джон пошли в магазин, Джон дал бутылку молока…» модель должна предсказать «Мэри».
  • Механизм: Была найдена конкретная цепочка нейронов, которая выполняет операции, похожие на работу с указателями. Она находит все сущности (Мэри, Джон), определяет, кто является активным субъектом в последней части (Джон), и методом исключения переносит «внимание» на оставшееся имя (Мэри), чтобы подставить его в ответ.

4. Суперпозиция и полисемантические нейроны
Это не столько механизм, сколько фундаментальная проблема, которую удалось объяснить.

  • Проблема: В обычном коде одна переменная отвечает за одно значение. В нейросетях часто встречаются «полисемантические нейроны», которые активируются на совершенно разные вещи/несвязанные признаки.
  • Объяснение: Модель пытается выучить больше признаков (features), чем у нее есть физических нейронов. Она использует «сжатие с потерями», кодируя информацию в направлениях пространства высокой размерности, а не в отдельных нейронах. Это похоже на хэш-коллизии, которые модель учится грамотно обрабатывать, чтобы понятия не смешивались.

5. Арифметика и модульное сложение
Были проведены эксперименты с небольшими моделями, обученными только сложению чисел.

  • Открытие: Оказалось, что для выполнения операции (a + b) % n нейросеть в ходе обучения «изобрела» алгоритм, использующий тригонометрические функции (преобразование Фурье). Она вращает векторы чисел в многомерном пространстве, чтобы выполнить сложение через повороты, а не через прямую арифметику. Это показало, что ИИ может находить алгоритмические решения, которые человеку не интуитивны, но математически эффективны.

6. Вектор «правды и лжи» (Truthfulness Directions)
Исследования показывают, что в остаточном потоке (residual stream) нейросети присутствуют конкретные направления, которые коррелируют с понятиями «правда» и «ложь».

  • Эксперимент: Если во время генерации ответа искусственно добавить этот вектор к активациям нейронов в определенном слое, модель более склонна говорить правду. Если же вектор вычесть — модель начинает активнее галлюцинировать или говорить неправду, даже если ей не давали прямого распоряжения.
  • Суть: Модель интернализировала понятие фактологичности. Внутренние представления могут содержать сигнал о том, сообщает ли модель правдивые или ложные (в рамках её собственной модели мира) сведения. Модель может создавать галлюцинацию, потому что в конкретной ситуации векторы «дать красивый ответ/соответствовать стилю/быть полезной/быть помощником» оказались приоритетнее «правдивости».

Таким образом вероятно, что в будущем механистическая интерпретируемость позволит перейти от чистого «выращивания» моделей к работе со структурой мышления и целевому редактированию характеристик модели.


Переход от «интуитивного понимания» к «рассуждению»

В когнитивной психологии популярна концепция двух систем мышления:

  • Система 1 — это быстрая, интуитивная и автоматическая реакция. Она не требует усилий, работает на основе распознавания шаблонов и накопленного опыта.

  • Система 2 — медленная, аналитическая и последовательная система. Она включается для сложных вычислений, логических рассуждений и требует концентрации внимания.

Что это означает применительно к ИИ:

У современных LLM «Система 1» включена по умолчанию — потому что базовая задача обучения (предсказывать следующий токен) естественным образом поощряет быстрое распознавание шаблонов. Модель отлично умеет:

  • продолжать знакомые структуры текста (стиль, тон, жанр),
  • угадывать вероятные факты из статистики корпуса,
  • «схватывать» типовую логику диалога и социальные паттерны,
  • делать правдоподобные обобщения.

Но эта же «быстрота» имеет обратную сторону: если задача требует точного пошагового вывода, удержания инвариантов, строгой проверки условий или длинной цепочки зависимости, то одна лишь Система 1 начинает давать сбои. Отсюда — уверенные ошибки, «галлюцинации», хрупкость на редких кейсах.

Как у LLM появляется «Система 2»

У модели нет отдельного «модуля рассуждения», который работал бы параллельно процессу вывода токенов. В отличие от человека, она не может на существенную глубину «прикинуть действия в уме», используя кратковременную (оперативную) память. Таким образом для длинного пошагового мышления следует где-то явным образом хранить промежуточные состояния, и у LLM очевидный доступный носитель таких состояний — сгенерированные ею же токены.

Когда модель пишет промежуточные шаги, она делает две вещи:

  1. Выгружает часть внутреннего состояния наружу (в текст).
  2. Снова читает этот текст как контекст, то есть использует его как рабочую память для следующего шага.

Так появляется практический аналог Системы 2: медленнее, дороже по токенам, но способно удерживать структуру решения. Поэтому простые приемы вроде «решай пошагово» часто заметно повышают качество на задачах рассуждения (хотя и не гарантируют правильность).

Система 2 для LLM означает вынос внутреннего процесса обработки связей — в контекст. Это позволяет модели «дебажить саму себя» до выдачи финального ответа.

Еще одна аналогия: машина Тьюринга. Контекст для записи токенов выступает как лента машины Тьюринга, на которой происходит поэтапная обработка.


Арифметика как наглядный пример

Недавно мне попалась статья «Если ИИ не мыслит, то как он решает математические задачи?», которая является переводом статьи из англоязычного источника. Не вдаваясь в философию «мыслит ли ИИ», я хочу обратить внимание на конкретный практический пример.

Автор рассматривает промпт 36 + 59 = и показывает, что модель сразу даёт ответ: 95. Если же далее спросить модель, как она считала, она распишет по шагам процедуру сложения, что верно математически, но при этом не отражает сути вопроса: сама она считала не так, ведь она не выписывала шаги. При ответе пользователю модель сочинила post-hoc рационализацию.

В рассмотренном примере ИИ решает математические задачи при помощи тех самых «процедур» и «цепей», формирующихся внутри LLM при обучении.

Стоит упомянуть, что автор рассматривает простой пример 36 + 59 =, но если взять пример сложнее, например 20206 + 37546 =, и потестировать его на моделях в ollama, то многие LLM также сразу дают ответ без промежуточных шагов. Как верно указывает автор, чем сложнее пример, тем чаще модель ошибается.

Вплоть до этого места моя позиция совпадает с позицией автора. Но далее начинаются тонкости, которые автор не упомянул.

Если мы возьмём современную рассуждающую модель, например серии GLM, и попросим её посчитать 20206 + 37546 =, то увидим сначала в блоке рассуждений алгоритм сложения по шагам, а уже затем — финальный результат.

Это означает, что здесь модель комбинирует Систему 1 для элементарных операций («6 + 6 будет 12, 2 пишем, 1 переносим в старший разряд») и Систему 2 для следования процедуре сложения.

Такой подход хотя и не избавляет от галлюцинаций, но заметно понижает их вероятность. Также качественно обученная модель нередко способна обнаружить ошибку в сгенерированном контексте и исправиться «на лету». Если модель обучают так, чтобы она «не боялась» критически пересматривать соображения, и поощряют такое поведение, модель формирует соответствующие шаблоны самокритики и самоисправления.


Проблема имитации рассуждения

Даже в рассуждающем режиме модели зачастую не «рассуждают», а «имитируют рассуждения», копируя структуру примеров рассуждения из обучающей выборки без обращения к их сути. На практике это приводит к появлению «структурированных», но логически не целостных рассуждений, при этом логические дыры в них сама модель не замечает и себя не корректирует.

Также может быть, что цепь рассуждений говорит одно, а финально модель решает другое. Связь «рассуждение → вывод» имитирована по форме, но суть упущена.

Переход от имитации ко всё более содержательному рассуждению, способному рассматривать предмет мышления по существу, обращать внимание на собственные ошибки и корректировать их — это одно из самых актуальных направлений в сфере ИИ сейчас.

Практические ограничения

Среди открытых моделей по моему опыту весьма структурные рассуждения с возможностью критически относиться к собственным выводам демонстрирует GLM. Поэтому на её примере я опишу ограничения, наблюдаемые в реальной работе. По большей части эти же ограничения относятся и к другой известной открытой модели, DeepSeek-R1, но с GLM у меня просто больше практического опыта.

  • При анализе сложного материала модель выполняет пошаговый анализ на верхнем уровне, но не детализирует рассуждения «вниз», полагаясь на интуитивные выводы Системы 1. В конкретных случаях это может приводить к существенным неточностям рассуждений. Модель выбирает шаблонные связи из опыта обучения вместо реально существующих в тексте. Видно, что пока что у модели не хватает внутренних инструментов, чтобы удерживать сложный рекурсивный контекст.
  • Может быть и обратная ситуация. Модель подробно анализирует отдельные факты и суждения, выдвигает гипотезы, проверяет, отбрасывает неудачные. Но при этом не выходит на глобальный уровень анализа материала, в результате чего пропускает важные закономерности.
  • Порой модель может полностью сгаллюцинировать вызов внешнего инструмента и его ответ, таким образом заменив суть — формой, правдоподобной имитацией.
  • Иногда модель не понимает/не рефлексирует, на каком языке сейчас говорит. Можно провести аналогию с тем, что у человека производство речи тоже весьма «автоматично».

Стоит отметить, что у моделей сокращенного размера (например qwen3-vl:4b) может наблюдаться «неспособность прийти к конкретному выводу». Модель перебирает различные гипотезы, но сигнал на завершение рассуждения не формируется, порождая хождение по спирали до исчерпания лимита по токенам. У такой маленькой модели не хватает ёмкости, чтобы качественно удерживать внимание на соображениях, которые она сама и написала.

Способность «написать детальные соображения, а потом посмотреть на них» зависит как от приёмов тренировки, так и от ёмкости. У маленькой модели просто нет возможности сформировать качественные внутренние цепи.


Следующий шаг: Система 2 с опорой на инструменты

У людей Система 2 часто опирается на внешние средства: бумагу, калькулятор, справочники, эксперименты. Для ИИ ровно тот же путь оказался ключевым: вместо того чтобы требовать от модели «держать мир в голове», мы даем ей:

  • калькулятор / Python для вычислений,
  • поиск и цитирование источников для фактов,
  • тесты и линтеры для кода,
  • базы знаний и API.

Подходы вроде ReAct объединяют «рассуждение» и «действие» (вызов инструмента), превращая модель из говорящего предсказателя токенов в систему, которая может проверять себя об внешний мир. Также современные исследования показывают, что модель можно обучать так, чтобы она сама решала, когда звать инструмент и как встроить результат обратно в контекст.

На пути ко всё более сильному ИИ

Сейчас мы наблюдаем зарождение алгоритмического рассуждения у моделей. LLM как «рассуждающая система» появляется, когда мы добавляем структуру процесса: промежуточные записи, проверку, поиск, инструменты, критерии отбора, итерации.

Сегодня многие практические системы строятся как композиция:

  1. базовой модели (Система 1: язык и шаблоны)
  2. обвязки, создающей Систему 2 (планирование, внешняя память, проверка, поиск, инструменты, отбор траекторий)

Скептическая фраза про «предсказатель следующего слова» становится менее убедительной, когда мы рассматриваем не отдельный шаг предсказания, а замкнутый контур вычисления: модель → промежуточный вывод → самопроверка/инструмент → обновленный контекст → следующий шаг.

Именно в этих контурах сегодня и происходит прогресс: не просто добавить в модель больше параметров, а как заставить модель тратить вычисление на мысль, а не на правдоподобную импровизацию.

★★★

Проверено: hobbit ()
Последнее исправление: hobbit (всего исправлений: 3)

Баян.

Но всё перечисленное совсем не делает ии более желательным, скорее наоборот.

firkax ★★★★★
()

Вот еще интересный чат с GLM для углубления темы:
https://chat.z.ai/s/e6d24e97-cf17-4eda-8fe3-6ca60956c858

  • В качестве промпта подано арифметическое вычисление, сделанное моделью gemma3n:e4b (около 7B параметров всего, 4B активно на токен). Модель раскладывает на простые множители число 132788.
  • GLM ищет в вычислении ошибку. Если нажать на «Thought Process», можно увидеть развернутые пошаговые выкладки с проверками - результат того, что модель способна достаточно эффективно работать на уровне «Системы 2».
  • GLM находит ошибку. Надо сказать, что если бы я не отдал распоряжение искать ошибку, он скорее всего пропустил бы её. (Проверено отдельными запусками.) Хотя когда он с нуля вычисляет, не видя чужого решения, он считает верно. (Тоже проверено.) Пропуск чужой ошибки - тут работает эффект доверия к уже имеющейся информации, в принципе, как и у людей.
  • Далее также я попросил GLM рассказать о механизме арифметического «чутья» в LLM. В частности, он рассказывает об явлении перехода «от зубрёжки к прозрению» (grokking) и о том, что трансформер для «ощущения» чисел оперирует величинами в логарифмической шкале, а не абсолютными. Почитайте, интересно.
wandrien ★★★
() автор топика
Последнее исправление: wandrien (всего исправлений: 1)

Отличная статья, очень интересно.

James_Holden ★★★★★
()

Много букаф, а я спать хочу. Написано подробно и интересно, однако это не меняет того факта, что естественный интеллект намного лучше справляется с интеллектуальными задачами, чем исскуственный)

daniyal
()

и описали несколько механизмов работы трансформеров

Трансформер это что в данном контексте? Синоним схемы?

hobbit ★★★★★
()
Ответ на: комментарий от hobbit

Трансформер это что в данном контексте? Синоним схемы?

Трансформер - это название данного класса нейросетей.

Generative Pre-trained Transformer, сокращенно GPT.

Есть еще BERT — Bidirectional Encoder Representations from Transformers. Но в генеративных моделях он не используется.

То есть GPT — это и название нейросети как архитектуры, и название конкретного продукта конкретной фирмы.

Аналогично GLM — это и название архитектуры, и название конкретного продукта китайской фирмы.

wandrien ★★★
() автор топика

О, Хоббит наконец прочитал труд Профессора)

goingUp ★★★★★
()

Ну вот мой скор и отрос для ответа :)

По частям я безусловно согласен как с вашими утверждениями. Но с итоговым выводом - нет. Он не выводится из них (пока что).

Лютое ИМХО: Текущая топология сетей никогда не позволит получить мысль. Просто потому что эта структура "плоская" и функции активации также плоские.

Все интеллекты которые мы знаем упакованы в «объемную» топологию, имеют множество функций активации (нейромедиаторы и вещества вокруг них) которые в разных комбинациях и концентрациях могут выступать как катализаторами так и ингибиторами активации (прохождения сигнала) и более того, воздействовать не на конкретный нейрон, а на целые области!

Поэтому ограничения двумерной структуры текущих сетей не позволяют говорить о возможном сильном ИИ на их базе.

Ну и бегло, неточности по мелочам:

Механистическая интерпретируемость

Довольно локальна и не масштабируется на SOTA-модели.

Вектор «правды и лжи»

Сильно зависит от обучающих датасетов и системного промта. «Правда» как абстрактное понятие пока недоступно, но определенная корреляция есть.

как заставить модель тратить вычисление на мысль

скорее на плоскую тень на стене, отбрасываемую мыслью.

Вот полезное видео на русском (прошу прощения за машинный перевод, ближе к оригиналу не нашел) - оно отлично показывает что самые сложные веще которые мы знаем о текущих архитектурах укладываются в синусно-косинусные преобразования.

Obezyan
()
Ответ на: комментарий от router

Я понял, что отсылка на старый мультик, но не понял, что ты имел в виду.

Видимо, мозг не переключается с написания кода.

wandrien ★★★
() автор топика
Ответ на: комментарий от Obezyan

Считаю крайне вредным обсуждать технические характеристики объекта в отрыве от более важного вопроса «а нужно ли там такое направление» (ответ - категорически нет).

firkax ★★★★★
()

Не увеличивайте количество удалённых комментариев, пожалуйста.

dataman ★★★★★
()

ТЛДР

Но вот тут

Именно в этих контурах сегодня и происходит прогресс: не просто добавить в модель больше параметров, а как заставить модель тратить вычисление на мысль, а не на правдоподобную импровизацию.

Стоит во-первых сформулировать определение, что такое мысль. А во-вторых объяснить как отбирать те БЯМ, которые её используют а не те, результат работы которых нравится людям.

ya-betmen ★★★★★
()
Ответ на: комментарий от Obezyan

Поэтому ограничения двумерной структуры текущих сетей не позволяют говорить о возможном сильном ИИ на их базе.

Из отсутствия плоской структуры в природе никак не следует невозможность получить на ней сильный ии. Пока мы можем только констатировать тотальный недостаток числа нейронов, в любой из искусственных нейросетей. Вот когда наростим до хотя бы наполовину человеческого - станем разбираться влияет структура или нет.

ya-betmen ★★★★★
()
Ответ на: комментарий от ya-betmen

Из отсутствия плоской структуры в природе никак не следует невозможность получить на ней сильный ии. Пока мы можем только констатировать тотальный недостаток числа нейронов, в любой из искусственных нейросетей. Вот когда наростим до хотя бы наполовину человеческого - станем разбираться влияет структура или нет.

Пара примеров

Первый: у муравьев в среднем всего до 1B нейронов что в десятки и сотни раз меньше современных сетей. При этом они существуют дольше людей, имеют сложную социальную иерархию (кастовая система), общаются феромонами, освоили животноводство (тля), изобрели хим оружие для своих войн и тд и тп.

При этом у них мало нейронов, но есть сложная (не плоская) структура нейронных слоев. Мы не считаем что у муравьев есть интеллект как у млекопитающих, но они ближе к нему чем любая из современных сетей с сотнями миллионов нейронов.

Второй пример из млекопитающих - француз без 90% мозга.

Поэтому я считаю что структура важнее большого количества нейронов, просто на одном количестве далеко не уедешь.

Первые признаки этой ситуации уже можно наблюдать, появились исследования что увеличение количества нейронов не улучшает качества моделей, после чего часть исследователей понимая что уперлась в стену с плоской структурой начали работы по ее усложнению.

Obezyan
()
Ответ на: комментарий от Obezyan

Я только про JEPA Яна Лекуна слышал.

Выделяются функциональные блоки энкодера, декодера и модели мира и обучаются совместно.

Но про практические результаты в этом направлении пока не слышал.

Также знаю про гибридную Mamba-2, IBM на ней свой Гранит слепила: https://ollama.com/library/granite4

Модель работает ЗАМЕТНО быстрее трансформера аналогичного размера. Но пока работает весьма посредственно.

wandrien ★★★
() автор топика
Ответ на: комментарий от wandrien

Также знаю про гибридную Mamba-2

Тестировал первую версию, тупиковая ветвь, больше хайпа чем практических результатов. Да они работают быстрее но это как быстрый бег по улице ночью с выключенными фонарями. Периодически на пути встречаются фонарные столбы.

Сейчас исследования в этой области разделились на две основные ветки:

  1. Спайковые нейронные сети (SNN) - информация кодируется не непрерывными значениями активаций, а импульсами (спайками), как в мозге. На их основе пытаются сделать сети с параллельными путями обработки информации, имитирующие множественные параллельные цепи нервной системы. Некоторые считают их третьим поколением сетей.

  2. Разряженные сети (SET) - преобразует начальную плоскую архитектуру в разреженную, близкую к тому что есть в мозге. Тут получается довольно сложная топология и исследования идут со скрипом.

Кто-то там пытался объединить оба этих подхода но что-то пока тихо по публикациям. Видимо еще корпят над задачей.

Obezyan
()
Ответ на: комментарий от Obezyan

ограничения двумерной структуры

Неправда, у нейросетей как раз таки многомерная структура. Взять те же CNN, их принято объёмными визуализировать. Проблема их не в мерности, а в топологии (хоть они и многомерны, но послойны) и из-за известных нам алгоритмов обучения особо ничего с этим не сделать. Вторая проблема - реальный нейрон куда сложнее электронного.

peregrine ★★★★★
()
Последнее исправление: peregrine (всего исправлений: 2)
Ответ на: комментарий от peregrine

Неправда, у нейросетей как раз таки многомерная структура.

Плоская. Слой за слоем. Под многомерной структурой слоев я понимаю вот это где нейроны разных слоев имеют связи если они близко расположены в пространстве и не важно как далеко находятся слои друг от друга если их «развернуть». Именно это образует группы нейронов которые работают и как часть внутреннего блока (области) так и часть внешней структуры (общей связи с разными слоями).

Вообще понятие «слой нейронов» в этом случае размывается, это и есть переход от «плоской» структуры к комплексной топологии. Абсолютно все текущие сети которые сейчас есть в открытом доступе относятся к плоской структуре. То что их изображают объемно роли не играет тк связи остаются плоскими.

И да, вы правы что реальный нейрон сложнее и текущие методы обучения скорее всего будут неприменимы. Но над нейронами уже работают (см спайковые нейроные сети из предыдущего сообщения). Методы обучения также разрабатываются (HyperNEAT), также экспериментируют с эволюционными/генетическими алгоритмами где нет понятия градиента вообще в том виде в котором он используется в плоских сетях.

Obezyan
()

Такой вот бред как в этой статье легко генерирует scigen на цепях Маркова. :)

Ну и употребление термина «ИИ» однозначно свидетельствует о том, что КГ/АМ.

Stanson ★★★★★
()
Ответ на: комментарий от Obezyan

у муравьев в среднем всего до 1B нейронов что в десятки и сотни раз меньше современных сетей. При этом они существуют дольше людей, имеют сложную социальную иерархию (кастовая система), общаются феромонами, освоили животноводство (тля), изобрели хим оружие для своих войн и тд и тп.

Многое из этого способны делать даже существа совсем не имеющие нервной системы: растения, бактерии, археи, грибы.

появились исследования что увеличение количества нейронов не улучшает качества моделей

Этому есть и другие объяснения, не касающиеся структуры. Одно из самых наглядных это попытка аппроксимации рандомной кривой заданной точками многочленом за счет увеличения его степени. Т.е вопрос методики.

Поэтому я считаю что структура важнее большого количества нейронов, просто на одном количестве далеко не уедешь.

Да, можно считать, как угодно, в тч например что только биологические системы способны иметь интеллект. Это пока невозможно ни доказать ни опровергнуть. И судя по всему без новой элементной базы вопрос решить нельзя.

ya-betmen ★★★★★
()
Ответ на: комментарий от ya-betmen

Многое из этого способны делать даже существа совсем не имеющие нервной системы: растения, бактерии, археи, грибы.

Многое, но не все сразу.

Этому есть и другие объяснения, не касающиеся структуры. Одно из самых наглядных это попытка аппроксимации рандомной кривой заданной точками многочленом за счет увеличения его степени. Т.е вопрос методики.

Эти самые другие объяснения планомерно проверяли и отбрасывали последние лет 5. В частности пример который вы описали фиксился значительным увеличением количества нейронов/слоев и эпох обучения, но это не сработало. Значит дело в чем-то другом. Но у на есть только нейроны слои и их связи между собой. И все что мы можем (с оглядкой на реально работающие биологические варианты) - усложнять нейроны и структуры в которую они упакованы. У нас просто больше ничего нет (про веру не будем).

Да, можно считать, как угодно, в тч например что только биологические системы способны иметь интеллект. Это пока невозможно ни доказать ни опровергнуть. И судя по всему без новой элементной базы вопрос решить нельзя.

Да, это все имхо. Я лишь попробовал подтолкнуть беседу в сторону обсуждения этой самой новой элементной базы.

Obezyan
()
Ответ на: комментарий от Obezyan

фиксился значительным увеличением количества нейронов/слоев и эпох обучения, но это не сработало. Значит дело в чем-то другом.

Это как раз значит что не фиксился. По аналогии с многочленом то что ты точно попадаешь в двух соседних заданных точках не значит, что в точке между ними ты получишь адекватный результат.

Я лишь попробовал подтолкнуть беседу в сторону обсуждения этой самой новой элементной базы.

Та проще можно, просто представим себе БЯМ запитанную от 150Вт.

ya-betmen ★★★★★
()
Ответ на: комментарий от ya-betmen

Это как раз значит что не фиксился.

Я именно это и написал, перечитайте все предложение включая , но это не сработало в конце.

Та проще можно, просто представим себе БЯМ запитанную от 150Вт.

Раскройте свою мысль подробнее.

Obezyan
()

Какое-то невнятное говно, сгенерированное и сформатированное ИИ.

One ★★★★★
()
Ответ на: комментарий от Obezyan

Ну да, я к тому, что надо больше нейронов.

Раскройте свою мысль подробнее.

Если наращивать нейроны на текущей базе оно будет жрать слишком много. Мозгам хватает 3000ккал в сутки, что емнип около 150Вт.

ya-betmen ★★★★★
()
Последнее исправление: ya-betmen (всего исправлений: 2)
Ответ на: комментарий от ya-betmen

Если наращивать нейроны на текущей базе оно будет жрать слишком много. Мозгам хватает 3000ккал в сутки, что емнип около 150Вт.

Теперь понял, полностью согласен.

Obezyan
()
Ответ на: комментарий от ya-betmen

300-1000 килокалорий в зависимости от нагрузки и болячек. При том обычно это 350-450 килокалорий. Т.е. типичная нагрузка 407-465 ватт в сутки в типичном случае. 1 запрос к опен аи вроде как 0,34 ватт, так что можно 1367 запросов в день на типичное потребление кожаного мешка. Если за 1367 запросов чат гопота выполнит работы больше чем ты за 1 день, то тебя даже по энергетической составляющей выгоднее на ИИ заменить.

peregrine ★★★★★
()
Ответ на: комментарий от peregrine

300-1000 килокалорий в зависимости от нагрузки и болячек.

Потребление мозга от нагрузки не зависит.

Я хз что ты насчитал, но Вт это Дж/сек, значит 407-465 ватт в сутки Дж/с/(24 * 3600 сек) = Вт/сек^2 что является какой-то безумной величиной.

Давай посчитаем конкретнее.

Мозг потребляет 20% энергии, это пусть 500ккал. Значит 500*4кВт/24час/3600сек = 23Вт. За 18 лет (обучения) это 23*18*365*24=3,6 МВтч.

ОпенАИ по оценкам чуваков из МИТ (своих данных они не публикуют) жрет 50 ГВтч.

Теперь делим 50ГВтч / 3.6 МВтч = 14000 раз. Т.е гпт должен быть на уровне сразу 14000 человек чтобы быть энергоэффективным.

ya-betmen ★★★★★
()
Последнее исправление: ya-betmen (всего исправлений: 2)
Ответ на: комментарий от Loki13

Ныть я и сам могу, только от этого пользы нет.

ya-betmen ★★★★★
()

На пути ко всё более сильному ИИ

…есть одна большая проблема: он живет в своей виртуальной реальности, представление о которой строится из огромного массива тестовых, аудио и видеоданных, а не непосредственном взаимодействии со внешним миром.

Лично мне от ИИ хотелось бы:

  1. Чтобы он взял на себя унылую рутину вроде обслуживание коммунальных сетей, уборку, готовку — словом, чтобы избавил меня от быта.

  2. Взрывного прогресса в науке — кремниевые «мозги» (а точнее, память) способны оперировать огромным числом данных и могут заметить такие закономерности, которые ускользают от человека.

К сожалению у тех, кто занимается развитием этой отрасли, кардинально иные цели: срубить бабла, продавая корпорациям методологию «срезания костов».

Поэтому не важно, думают ли LLM или же «стохастически попугайничают» — у меня от этого будет только сокращаться доход и расти цены на комплектующие для ПК.

Буду рад ошибиться.

kawaii_neko ★★★★
()
Ответ на: комментарий от kawaii_neko

а не непосредственном взаимодействии со внешним миром.

А как ты себе представдяешь это? Там же мозгов не хватит на взаимодействие. Делают что могут.

ya-betmen ★★★★★
()
Последнее исправление: ya-betmen (всего исправлений: 1)
Ответ на: комментарий от ya-betmen

Вт/сек^2 что является какой-то безумной величиной.

Не Вт/с^2 а Дж/с^2 (или Вт/с). Очевидно, это единица скорости прироста энергопотребления. Или «ускорения трат энергии» (скорость трат это мощность). Или, как я где-то видел, скорость строительства электростанций.

500ккал. Значит 500*4кВт

И сам сразу же киловатты вместо килоджоулей написал.

firkax ★★★★★
()
Последнее исправление: firkax (всего исправлений: 4)
Ответ на: комментарий от firkax

Ну да Дж/сек^2

киловатты вместо килоджоулей

Ты плохая БЯМ, у тебя совсем маленький контекст. То что я Дж попутал на результат то не влияет.

ya-betmen ★★★★★
()
Последнее исправление: ya-betmen (всего исправлений: 1)
Ответ на: комментарий от ya-betmen

Результат то верный, но он и у путальщиков ватт*часов с ваттами в час часто верный, если единицы спрятать.

firkax ★★★★★
()
Ответ на: комментарий от firkax

Ну с телефона формулы вбивать такое себе. Исходно претензия к методике подсчета которая никуда не подходит. Свою я предъявил таки.

ya-betmen ★★★★★
()
Ответ на: комментарий от Obezyan

у муравьев в среднем всего до 1B нейронов что в десятки и сотни раз меньше современных сетей.

При этом они имеют сложную социальную иерархию (кастовая система), общаются феромонами, освоили животноводство (тля), изобрели хим оружие для своих войн

Ничего они не освоили и не изобрели. За них это сделала природа, естественный отбор.

Bad_ptr ★★★★★
()
Последнее исправление: Bad_ptr (всего исправлений: 1)

Таких рассуждений не хватает на ЛОРе. Ты вернул смысл статей на него. Было бы здорово, если бы ты приводил больше источников и моделей, с которыми работал.


Считаю несправедливым, что настоящей статье дают скора столько же, сколько очередной писанине о настройке плагинов для neovim, или о том, как в 26 году в wine программу запустили. Отдельно отмечаю медленную скорость модерации в публикации таких статей.

mamina_radost
()
Ответ на: комментарий от Obezyan

структура важнее большого количества нейронов, просто на одном количестве далеко не уедешь.

Но откуда эту структуру взять?
Вообще нейросеть любой «слойности» можно свести к однослойной. Однако структуры зачем-то существуют и скорее всего они существуют для оптимизации.
Текущие структуры придуманы людьми со всеми их + и -.
Вариант как получить «правильную» структуру – создать большой датацентр с большим количеством «нейронов» и бить эту нейронку палками много лет, пока в ней самой не сложатся нужные структуры в ходе «естественного» отбора.
(тут ещё можно натянуть аналогию с детьми у которых сначала нейронов много, а потом лишние отмирают)

Bad_ptr ★★★★★
()
Последнее исправление: Bad_ptr (всего исправлений: 1)
Ответ на: комментарий от Bad_ptr

Ничего они не освоили и не изобрели. За них это сделала природа, естественный отбор.

Вы тоже, получается, ничего не освоили и не изобрели. Ваш мозг сделала природа, естественный отбор.

Obezyan
()
Ответ на: комментарий от Bad_ptr

Вообще нейросеть любой «слойности» можно свести к однослойной.

Нет, нельзя. Возможно, вы имели ввиду то что любую гладкую непрерывную функцию можно выразить через один внутренний слой сети. Это так. Но это лишь частный случай.

Obezyan
()
Ответ на: комментарий от Obezyan

Вы тоже, получается, ничего не освоили и не изобрели. Ваш мозг сделала природа, естественный отбор.

В конечном счёте да, все мы часть одной вселенной. Так что это вселенная изобретает.
Просто есть как бы разные уровни локализации и скорости «эволюционных процессов».
Так получилось что у людей в голове происходит достаточно свободный и в то же время быстрый эволюционный процесс в популяции нейронов. Поэтому вновьродившийся человек может освоить определённую сумму «знаний» накопленных до него и переданных ему и изобрести хим оружие.
У муравьёв ничего подобного нет. Там именно «думает» естественный отбор. Поэтому это «думание» настолько медленное, что

они существуют дольше людей

Но практически за всё это время «изобрели» очень мало чего. Более того, похоже что муравьи – это тупиковая ветвь «размышлений» природы. А блидинг эдж – это как раз люди.
// И даже люди ещё не доросли до того чтобы «осознанно» модифицировать свой собственный организм/геном, чтобы он производил химическое оружие.

Bad_ptr ★★★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.