Исследователи провели с ведущими моделями «ИИ» психологический тест Струпа на внимание и обнаружили серьезный недостаток. Хотя модели могли правильно называть цвета в коротких списках, их результаты резко ухудшались по мере того, как задача становилась длиннее и сложнее. У некоторых ведущих систем точность снизилась с более чем 90% до почти полного провала.
Системы искусственного интеллекта могут писать сочинения, отвечать на вопросы и решать сложные задачи. Однако новые исследования показывают, что им может быть сложно справиться с тем, что люди делают каждый день: сохранять концентрацию на поставленной задаче, когда появляются отвлекающие факторы.
Исследователи под руководством Сукету Пателя подвергли несколько ведущих моделей искусственного интеллекта известному психологическому эксперименту, называемому «задачей Струпа». Результаты показали существенную разницу между тем, как системы искусственного интеллекта обрабатывают информацию, и тем, как человеческий мозг управляет вниманием.
Что такое «задача Струпа»?
Задача Струпа — это классический психологический тест, который уже на протяжении десятилетий используется для изучения внимания, концентрации и самоконтроля.
В ходе теста на экране появляются слова, обозначающие цвета, такие как «красный», «синий» или «зеленый», напечатанные цветными чернилами. Иногда слово и цвет чернил совпадают. Например, слово «красный» может быть напечатано красными чернилами. В других случаях они не совпадают, например, слово «красный» напечатано синими чернилами.
Участникам предлагается назвать цвет чернил, а не читать само слово.
Это звучит просто, но создает сложность, поскольку чтение слов для большинства людей является автоматической привычкой. Мозг должен подавить желание прочитать слово и вместо этого сосредоточиться на определении цвета чернил.
Психологи часто используют эту задачу для измерения так называемого исполнительного контроля — набора умственных процессов, которые помогают людям регулировать внимание, противостоять отвлекающим факторам и оставаться сосредоточенными на целях.
Тестирование внимания «ИИ»
Исследователи хотели выяснить, справляются ли современные большие языковые модели (LLM) с этой задачей так же, как люди.
Большие языковые модели — это системы искусственного интеллекта, лежащие в основе таких инструментов, как ChatGPT, Claude и Gemini. Они обучаются на огромных массивах текста и усваивают языковые закономерности, что позволяет им генерировать ответы, которые зачастую выглядят удивительно человеческими.
При работе с короткими списками, содержащими пять слов, обозначающих цвета, системы «ИИ» в целом показывали хорошие результаты, даже когда слова и цвета не совпадали.
Однако ситуация резко изменилась, когда списки стали длиннее.
GPT-4o достиг точности 91% при работе с пятью словами. При десяти словах его точность упала до 57%. Когда список расширился до сорока слов, точность упала до всего 15%.
Claude 3.5 Sonnet демонстрировал стабильную производительность при работе со списками из двадцати слов, но затем его показатели резко ухудшились, и точность упала до 24% при работе со списками из сорока слов.
Исследователи наблюдали аналогичные тенденции в GPT-5, Claude Opus 4.1 и Gemini 2.5.
Когда «ИИ» теряет фокус
Задача стала ещё сложнее, когда в одном списке одновременно появлялись слова, соответствующие цвету чернил, и слова, не имеющие к нему отношения.
В этих условиях результаты ещё больше ухудшились. В некоторых случаях точность распознавания несоответствующих элементов упала практически до нуля.
По словам исследователей, модели «ИИ» испытывали трудности с соблюдением инструкции по распознаванию цветов чернил. Вместо этого они всё чаще по умолчанию переходили к чтению самих слов.
Другими словами, системы, по-видимому, не могли последовательно подавлять тот ответ, на котором их наиболее интенсивно обучали.
Этот вывод особенно интересен, поскольку люди сталкиваются с аналогичным конфликтом. Люди, как правило, гораздо лучше читают слова, чем называют цвета чернил. Однако, несмотря на этот уклон, большинство людей способны сохранять высокую точность и стабильную производительность даже при столкновении с длинными списками противоречивых слов и цветов.
Внимание человека и внимание машины
Исследование подчеркивает важное различие между человеческим и искусственным интеллектом.
Хотя современные системы «ИИ» способны демонстрировать впечатляющие языковые и логические способности, их внутренние механизмы отличаются от процессов внимания, характерных для биологического мозга.
Люди часто способны удерживать внимание на конкретной цели, отфильтровывая при этом постороннюю информацию. Результаты исследования показывают, что современные модели «ИИ» могут испытывать трудности с таким когнитивным контролем, когда задачи становятся всё более сложными.
Исследователи утверждают, что падение производительности, наблюдавшееся в ходе этих экспериментов, указывает на фундаментальные ограничения современных больших языковых моделей. Хотя «ИИ» иногда может имитировать поведение человека, его способность удерживать внимание, по-видимому, работает совсем иначе, чем у людей.
Полученные результаты напоминают о том, что даже самые передовые системы «ИИ» по-прежнему имеют слабые места, особенно когда задачи требуют от них сопротивления отвлекающим факторам и сохранения сосредоточенности на длинных цепочках информации.
>>> Подробнее в статье на PNAS Nexus






