PRISM от Stanford: Почему новый датасет убивает мечты о роботах-продавцах

Сегодня • arXiv cs.AI
Stanford выпустил PRISM — самый масштабный датасет розничной торговли для обучения роботов. 675 часов видео, миллионы аннотаций, восемь камер на каждую сцену. Но за впечатляющими цифрами скрывается неудобная правда о том, насколько далеки мы от роботов в магазинах.

Embodied AI переживает бум. Инвесторы вкладывают миллиарды в стартапы, обещающие роботов-консультантов и автономные торговые системы. PRISM выглядит как идеальный инструмент для этой революции — детализированные сценарии покупок, взаимодействие с товарами, диалоги с покупателями.

Но копнув глубже в техническую документацию, обнаруживаешь тревожную закономерность. Роботы, обученные на PRISM, справляются с базовыми задачами вроде 'найти молоко' в 73% случаев. Звучит неплохо, пока не узнаёшь: с задачей 'порекомендовать товар исходя из потребностей клиента' справляются лишь 12% моделей.

Проблема не в качестве данных — она в фундаментальном разрыве между восприятием и пониманием контекста. PRISM учит роботов видеть и распознавать объекты, но не понимать человеческие мотивы, эмоции и скрытые потребности, которые определяют 80% решений о покупке. По сути, мы создаём очень дорогие каталоги товаров на ножках.