Pass@1 умер: Почему главная метрика ИИ превратилась в иллюзию прогресса

Сегодня • arXiv cs.AI
Вся индустрия ИИ помешана на метрике pass@1 — проценте правильных ответов с первой попытки. Но исследователи из Stanford обнаружили: для долгосрочных задач эта цифра становится токсичной. 95% pass@1 может означать полный провал системы.

Логика кажется железной: если модель решает 95% задач с первого раза, она почти идеальна. Venture-капиталисты инвестируют миллиарды, ориентируясь на эти цифры. Компании строят продукты, веря в надёжность своих агентов.

Но вот парадокс: для задач, требующих 10+ шагов, агент с 95% точностью на каждом шаге имеет лишь 60% шанса дойти до конца. А реальные бизнес-процессы требуют сотен шагов. Новый фреймворк Beyond pass@1 показывает: современные ИИ-агенты разваливаются не из-за сложности задач, а из-за накопления микроошибок.

Исследование проанализировало 847 долгосрочных сценариев и обнаружило: системы с блестящими показателями pass@1 демонстрируют катастрофическую деградацию производительности уже через 20-30 итераций. GPT-4 с 92% pass@1 показал лишь 23% успеха в задачах длительностью более часа.