«Детские пособия это не мотиваторы к тому, чтобы подумать о рождении ребёнка…»
Нина Останина
Международная группа ученых обнаружила неожиданную слабость современных систем искусственного интеллекта (ИИ). Оказалось, что при выполнении длинных задач даже самые продвинутые языковые модели начинают терять концентрацию и все чаще допускают ошибки. Результаты исследования опубликованы в журнале PNAS Nexus.
Для проверки исследователи использовали тест Струпа — известный психологический метод оценки внимания. Его суть заключается в том, что участнику показывают названия цветов, напечатанные чернилами другого цвета, и просят назвать именно цвет текста, игнорируя написанное слово. Например, если слово «красный» напечатано синим цветом, правильным ответом будет «синий».
Человеческий мозг обычно справляется с такой задачей достаточно стабильно даже при большом количестве примеров. Однако языковые модели показали совсем другую картину.
Команда под руководством Сукету Пателя протестировала GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 и Gemini 2.5. На коротких последовательностях из пяти слов все системы демонстрировали высокую точность. Но по мере увеличения длины задания результаты резко ухудшались.
Так, GPT-4o правильно отвечал в 91% случаев при пяти словах, однако при десяти словах точность снижалась до 57%, а при сорока — всего до 15%. Claude 3.5 Sonnet сохранял хорошие показатели немного дольше, но после двадцати слов его результат также резко падал.
По мнению авторов исследования, причина заключается в том, что модели постепенно теряют из виду исходную инструкцию и возвращаются к наиболее привычному для них поведению — чтению слов вместо анализа цвета. Именно это, как считают ученые, отличает современные нейросети от человека, который способен длительное время удерживать произвольное внимание и следовать поставленной задаче.