ИИ-судьи провалили экзамен на внимательность: они видят то, чего нет
Тест Semantic Needles выглядит обманчиво просто: в длинный документ встраивают фрагмент текста, а LLM должна найти его среди тысяч слов и оценить семантическую близость. Считается, что современные модели справляются с этим лучше людей — они обрабатывают контексты в сотни тысяч токенов и не устают.
Реальность оказалась жестче. При тестировании GPT-4, Claude и других топовых моделей выяснилось: точность падает с 94% на коротких текстах до 23% на документах свыше 50 тысяч слов. Хуже того — модели демонстрируют «позиционный bias»: фрагменты в начале и конце документа находят в 3 раза чаще, чем в середине.
Но главная проблема не в том, что ИИ пропускает нужное. Модели генерируют ложные совпадения в 31% случаев — находят «семантически близкие» фрагменты в текстах, где исследователи намеренно не размещали целевой контент. По сути, LLM-судьи галлюцинируют похожесть.