ИИ-судьи провалили экзамен на внимательность: они видят то, чего нет

Сегодня • arXiv cs.AI
Языковые модели стали золотым стандартом для оценки качества текстов. Но исследователи из Stanford спрятали «семантические иголки» в документы и обнаружили: ИИ-судьи находят связи там, где их нет, и пропускают очевидные совпадения.

Тест Semantic Needles выглядит обманчиво просто: в длинный документ встраивают фрагмент текста, а LLM должна найти его среди тысяч слов и оценить семантическую близость. Считается, что современные модели справляются с этим лучше людей — они обрабатывают контексты в сотни тысяч токенов и не устают.

Реальность оказалась жестче. При тестировании GPT-4, Claude и других топовых моделей выяснилось: точность падает с 94% на коротких текстах до 23% на документах свыше 50 тысяч слов. Хуже того — модели демонстрируют «позиционный bias»: фрагменты в начале и конце документа находят в 3 раза чаще, чем в середине.

Но главная проблема не в том, что ИИ пропускает нужное. Модели генерируют ложные совпадения в 31% случаев — находят «семантически близкие» фрагменты в текстах, где исследователи намеренно не размещали целевой контент. По сути, LLM-судьи галлюцинируют похожесть.