WebVoyager: Почему новый стандарт оценки AI-агентов признаёт их полную несостоятельность

Сегодня • arXiv cs.AI
Команда Emergence выпустила WebVoyager — новый бенчмарк для тестирования веб-агентов в реальных условиях. Но за техническими деталями скрывается неудобная правда: если нужны специальные инструменты для 'прозрачной оценки', значит, текущие агенты работают непредсказуемо.

Последние месяцы AI-индустрия наводнена анонсами автономных агентов: от AutoGPT до новых решений от Anthropic и OpenAI. Обещания одни — агенты будут самостоятельно бронировать билеты, управлять почтой, даже вести переговоры. Венчурные фонды вложили $4.2 млрд в стартапы агентов только за 2024 год.

WebVoyager переворачивает эту картину. Исследователи создали систему для 'последовательной и прозрачной' оценки агентов именно потому, что существующие решения работают как чёрные ящики с непредсказуемыми результатами. Бенчмарк тестирует агентов на реальных веб-сайтах, а не в симуляциях — и результаты показывают провалы в 60-80% базовых задач.

Самое показательное: необходимость в 'прозрачности' оценки. Если агент действительно автономен и надёжен, зачем нужны специальные инструменты чтобы понять, что он делает? WebVoyager по сути документирует не успехи агентов, а систематические способы их поломок в реальном мире.