Pass@1 умер: Почему главная метрика ИИ превратилась в иллюзию прогресса
Логика кажется железной: если модель решает 95% задач с первого раза, она почти идеальна. Venture-капиталисты инвестируют миллиарды, ориентируясь на эти цифры. Компании строят продукты, веря в надёжность своих агентов.
Но вот парадокс: для задач, требующих 10+ шагов, агент с 95% точностью на каждом шаге имеет лишь 60% шанса дойти до конца. А реальные бизнес-процессы требуют сотен шагов. Новый фреймворк Beyond pass@1 показывает: современные ИИ-агенты разваливаются не из-за сложности задач, а из-за накопления микроошибок.
Исследование проанализировало 847 долгосрочных сценариев и обнаружило: системы с блестящими показателями pass@1 демонстрируют катастрофическую деградацию производительности уже через 20-30 итераций. GPT-4 с 92% pass@1 показал лишь 23% успеха в задачах длительностью более часа.