AI-агенты провалили тест на покупки: бенчмарк показал неудобную правду
Индустрия AI живёт в эйфории от автономных агентов. OpenAI, Anthropic, Google — все наперебой анонсируют системы, которые якобы могут самостоятельно бронировать билеты, заказывать еду, покупать товары. Венчурные фонды уже вложили $2.3 млрд в стартапы AI-агентов только в 2024 году.
Но новый функциональный бенчмарк для веб-агентов в e-commerce домене переворачивает эту картину. Исследователи протестировали ведущие AI-системы на реальных задачах: найти товар по описанию, сравнить цены, оформить заказ. Результат — провал по всем фронтам. Даже простейшая задача 'купить белые кроссовки размера 42' оказалась непосильной для 6 из 8 протестированных агентов.
Проблема не в 'интеллекте' — агенты отлично понимают текст и инструкции. Проблема в том, что e-commerce сайты созданы для людей, а не для роботов. Капчи, динамические элементы, A/B тесты интерфейсов — всё это превращает 'простую покупку' в лабиринт, где AI теряется на первом же шаге.