WebVoyager: Почему новый стандарт оценки AI-агентов признаёт их полную несостоятельность
Последние месяцы AI-индустрия наводнена анонсами автономных агентов: от AutoGPT до новых решений от Anthropic и OpenAI. Обещания одни — агенты будут самостоятельно бронировать билеты, управлять почтой, даже вести переговоры. Венчурные фонды вложили $4.2 млрд в стартапы агентов только за 2024 год.
WebVoyager переворачивает эту картину. Исследователи создали систему для 'последовательной и прозрачной' оценки агентов именно потому, что существующие решения работают как чёрные ящики с непредсказуемыми результатами. Бенчмарк тестирует агентов на реальных веб-сайтах, а не в симуляциях — и результаты показывают провалы в 60-80% базовых задач.
Самое показательное: необходимость в 'прозрачности' оценки. Если агент действительно автономен и надёжен, зачем нужны специальные инструменты чтобы понять, что он делает? WebVoyager по сути документирует не успехи агентов, а систематические способы их поломок в реальном мире.