AI-агенты провалили тест на покупки: бенчмарк показал неудобную правду

Сегодня • arXiv cs.AI
Каждую неделю появляются новые AI-агенты, которые обещают заменить человека в онлайн-покупках. Но свежий бенчмарк от исследователей показал: 78% задач в e-commerce агенты проваливают на базовом уровне функциональности.

Индустрия AI живёт в эйфории от автономных агентов. OpenAI, Anthropic, Google — все наперебой анонсируют системы, которые якобы могут самостоятельно бронировать билеты, заказывать еду, покупать товары. Венчурные фонды уже вложили $2.3 млрд в стартапы AI-агентов только в 2024 году.

Но новый функциональный бенчмарк для веб-агентов в e-commerce домене переворачивает эту картину. Исследователи протестировали ведущие AI-системы на реальных задачах: найти товар по описанию, сравнить цены, оформить заказ. Результат — провал по всем фронтам. Даже простейшая задача 'купить белые кроссовки размера 42' оказалась непосильной для 6 из 8 протестированных агентов.

Проблема не в 'интеллекте' — агенты отлично понимают текст и инструкции. Проблема в том, что e-commerce сайты созданы для людей, а не для роботов. Капчи, динамические элементы, A/B тесты интерфейсов — всё это превращает 'простую покупку' в лабиринт, где AI теряется на первом же шаге.