LINUX.ORG.RU

Классический психологический тест Струпа на внимание выявил главную слабость «ИИ»

 , ,

Классический психологический тест Струпа на внимание выявил главную слабость «ИИ»

0

1

Исследователи провели с ведущими моделями «ИИ» психологический тест Струпа на внимание и обнаружили серьезный недостаток. Хотя модели могли правильно называть цвета в коротких списках, их результаты резко ухудшались по мере того, как задача становилась длиннее и сложнее. У некоторых ведущих систем точность снизилась с более чем 90% до почти полного провала.

Системы искусственного интеллекта могут писать сочинения, отвечать на вопросы и решать сложные задачи. Однако новые исследования показывают, что им может быть сложно справиться с тем, что люди делают каждый день: сохранять концентрацию на поставленной задаче, когда появляются отвлекающие факторы.

Исследователи под руководством Сукету Пателя подвергли несколько ведущих моделей искусственного интеллекта известному психологическому эксперименту, называемому «задачей Струпа». Результаты показали существенную разницу между тем, как системы искусственного интеллекта обрабатывают информацию, и тем, как человеческий мозг управляет вниманием.

Что такое «задача Струпа»?

Задача Струпа — это классический психологический тест, который уже на протяжении десятилетий используется для изучения внимания, концентрации и самоконтроля.

В ходе теста на экране появляются слова, обозначающие цвета, такие как «красный», «синий» или «зеленый», напечатанные цветными чернилами. Иногда слово и цвет чернил совпадают. Например, слово «красный» может быть напечатано красными чернилами. В других случаях они не совпадают, например, слово «красный» напечатано синими чернилами.

Участникам предлагается назвать цвет чернил, а не читать само слово.

Это звучит просто, но создает сложность, поскольку чтение слов для большинства людей является автоматической привычкой. Мозг должен подавить желание прочитать слово и вместо этого сосредоточиться на определении цвета чернил.

Психологи часто используют эту задачу для измерения так называемого исполнительного контроля — набора умственных процессов, которые помогают людям регулировать внимание, противостоять отвлекающим факторам и оставаться сосредоточенными на целях.

Тестирование внимания «ИИ»

Исследователи хотели выяснить, справляются ли современные большие языковые модели (LLM) с этой задачей так же, как люди.

Большие языковые модели — это системы искусственного интеллекта, лежащие в основе таких инструментов, как ChatGPT, Claude и Gemini. Они обучаются на огромных массивах текста и усваивают языковые закономерности, что позволяет им генерировать ответы, которые зачастую выглядят удивительно человеческими.

При работе с короткими списками, содержащими пять слов, обозначающих цвета, системы «ИИ» в целом показывали хорошие результаты, даже когда слова и цвета не совпадали.

Однако ситуация резко изменилась, когда списки стали длиннее.

GPT-4o достиг точности 91% при работе с пятью словами. При десяти словах его точность упала до 57%. Когда список расширился до сорока слов, точность упала до всего 15%.

Claude 3.5 Sonnet демонстрировал стабильную производительность при работе со списками из двадцати слов, но затем его показатели резко ухудшились, и точность упала до 24% при работе со списками из сорока слов.

Исследователи наблюдали аналогичные тенденции в GPT-5, Claude Opus 4.1 и Gemini 2.5.

Когда «ИИ» теряет фокус

Задача стала ещё сложнее, когда в одном списке одновременно появлялись слова, соответствующие цвету чернил, и слова, не имеющие к нему отношения.

В этих условиях результаты ещё больше ухудшились. В некоторых случаях точность распознавания несоответствующих элементов упала практически до нуля.

По словам исследователей, модели «ИИ» испытывали трудности с соблюдением инструкции по распознаванию цветов чернил. Вместо этого они всё чаще по умолчанию переходили к чтению самих слов.

Другими словами, системы, по-видимому, не могли последовательно подавлять тот ответ, на котором их наиболее интенсивно обучали.

Этот вывод особенно интересен, поскольку люди сталкиваются с аналогичным конфликтом. Люди, как правило, гораздо лучше читают слова, чем называют цвета чернил. Однако, несмотря на этот уклон, большинство людей способны сохранять высокую точность и стабильную производительность даже при столкновении с длинными списками противоречивых слов и цветов.

Внимание человека и внимание машины

Исследование подчеркивает важное различие между человеческим и искусственным интеллектом.

Хотя современные системы «ИИ» способны демонстрировать впечатляющие языковые и логические способности, их внутренние механизмы отличаются от процессов внимания, характерных для биологического мозга.

Люди часто способны удерживать внимание на конкретной цели, отфильтровывая при этом постороннюю информацию. Результаты исследования показывают, что современные модели «ИИ» могут испытывать трудности с таким когнитивным контролем, когда задачи становятся всё более сложными.

Исследователи утверждают, что падение производительности, наблюдавшееся в ходе этих экспериментов, указывает на фундаментальные ограничения современных больших языковых моделей. Хотя «ИИ» иногда может имитировать поведение человека, его способность удерживать внимание, по-видимому, работает совсем иначе, чем у людей.

Полученные результаты напоминают о том, что даже самые передовые системы «ИИ» по-прежнему имеют слабые места, особенно когда задачи требуют от них сопротивления отвлекающим факторам и сохранения сосредоточенности на длинных цепочках информации.

>>> Подробнее в статье на PNAS Nexus

Источник: sciencedaily.com

★★★★★

Проверено: maxcom ()
Последнее исправление: maxcom (всего исправлений: 4)
Ответ на: комментарий от flant

Тут путается понятие «внимание» и сама реализация математического взвешивания токенов. У ИИ как правило нет центрального исполнительного элемента, который мог бы жестко заблокировать один тип ассоциаций в пользу другого на длинной дистанции, но при этом само внимание есть. Просто этим экспериментом выявили конкретную сторону недоработки. А так - ИИ лучше кожанных обрабатывает текст и его содержание.

NeTC ★★★★★
()
Последнее исправление: NeTC (всего исправлений: 1)
Ответ на: комментарий от LightDiver

Люди не могут сохранять концентрацию из-за механизма энергоэффективности мозга, у иишки же такой механизм отсутсвует, она просто тупит банально из-за того, что тупая.

daniyal
()
Ответ на: комментарий от LightDiver

Какое нахрен внимание, да что они несут?

Ну так под это небось гранты выделили, вот они их и отрабатывают.

Rodegast ★★★★★
()
Ответ на: комментарий от daniyal

Она не тупая, это механизм нарастания статистической погрешности.

Это чисто арифметическая проблема. Когда механизм суммирует 50 векторов с плавающей запятой, происходит катастрофическая потеря точности. Малые значения теряют значащие биты.

При увеличении контекста мы лавинообразно снижаем веса одного токена. Это можно сравнить с «вниманием» человека, но этот механизм линейный и другой. Это ограниченная пропускная способность.

Внимание оно теряется со временем на одних и тех же объемах информации при накоплении усталости. А пропускная способность теряется линейно при нарастании количества информации.

Вот представь, ты пытаешься воспринимать ОДНОВРЕМЕННО разное количество информации. Одну букву, пять букв, слово, два слова, пять слов. Ты сможешь одновременно, а не последовательно увидеть знакомую фразу и распознать ее. Но сможешь сделать так же со страницей? Тут дело вообще не во внимании. Чем больше информации, тем хуже ты ее сможешь обработать за момент времени.

А эти модели именно что работают в моменте времени. Внимания у них нет, усталости нет. Если скармливать им все эти контексты по одному они идеально их обработают. И будут обрабатывать с одинаковым идеальным вниманием до конца вечности или пока не кончится подаваемая энергия.

Внимание - это когда тебе скармливают слово за словом минута за минутой, час за часом и ты от усталости начинаешь допускать ошибки. В конце ты будешь ошибаться все чаще и чаще.

Тупость это количество допускаемых ошибок на первом же слове, на каждом слове. Они довольно «умны» в этом плане и хорошо обрабатывают информацию.

А вот пропускная способность в моменте у них как раз как у человека - потому что это именной нейронная модель, основанная на человеческой в какой то мере.

LightDiver ★★★★★
()
Ответ на: комментарий от BruteForce

Это что то вроде динамической маршрутизации информации. Динамическое распределение важности информации в рамках одного запроса.

Мехнизм не выбирает что то одно, а распределяет единый бюджет важности (сумма 1) между всеми элементами. Но не равномерно. Вес, который присваивается токену, показывает насколько он математически релевантен для понимания текущего слова.

В этом и есть главное ограничение. Это не сквозной процесс. Каждый раз, когда вы отправляете новое сообщение, модель заново пересчитывает это распределение с нуля для всего контекстного окна. После ответа всё «забывается».

И это происходит внутри каждого слоя.

LightDiver ★★★★★
()
Последнее исправление: LightDiver (всего исправлений: 2)
Ответ на: комментарий от seiken

Вот и от железного болвана требуй того же самого

peregrine ★★★★★
()
Ответ на: комментарий от LightDiver

Во-первых нифига не на человеческой, она просто напросто программно нарощена на основе решений хорошо ИИшка работает или надо что-то поменять. Во вторых у человека тоже ничё себе как нарастают параметры в течении жизни, но это не делает людей неожиданно тупыми.

daniyal
()
Ответ на: комментарий от LightDiver

Я - человек. Все мои механизмы запоминания нацелены на максимальную энергоэффективность. ИИшка же в этом совершенно не нуждается.

daniyal
()
Ответ на: комментарий от daniyal

При чем тут запоминание? Это обработка информации. Тот же самый механизм. Просто прочитай всю страницу одновременно. Запоминать не обязательно. Прочитай и процитируй с нее нужные слова.

Да хотя бы тот же самый тест Струпа. Посмотри одновременно на 10 слов и затем назови их цвета.

LightDiver ★★★★★
()
Последнее исправление: LightDiver (всего исправлений: 3)
Ответ на: комментарий от LightDiver

А что мешает ИИшке последовательно обрабатывать информацию? Да и тем более, что не имеет значения, когда что было подано на вход, если парралельные вычисления возможны, просто человек физически не умеет одновременно фокусировать взгляд на нескольких вещах. А вот например одновременно читать и слушать - такая возможность есть, пускай и не идеальная в связи с сугубо биологическими особенностями восприятия информации, которые также никак на ии не проецируются.

daniyal
()
Последнее исправление: daniyal (всего исправлений: 1)
Ответ на: комментарий от daniyal

Особенность модели. Отсутствие горизонатальных связей.

У частотной модели нет выбора. Для нее каждый запрос всегда новый, больше ничего во вселенной не существует. Она не может читать последоватеьно. Вот как будо ты бы просто единомоментно глянул на страницу книги.

Чтобы прочитать эти слова последовательно и обработать, нужна спайковая модель нейронов. Именно другой тип нейронов.

У частотно модели придумали эмуляцию последовательного мышления - тот самый «режим мышления», ты мог видеть его. Но это лишь добавление контекста в контекстное окно. Вместо 50 слоев у тебя будет 500 и в итоге хаос лишь нарастает.

Но благодаря высокой релевантности информации иногда это помогает. Но не является полноценным «вниманием». Это все та же обработка в моменте.

LightDiver ★★★★★
()
Для того чтобы оставить комментарий войдите или зарегистрируйтесь.