ATP-Bench показал: мультимодальные ИИ не умеют планировать — они просто угадывают

Сегодня • arXiv cs.AI
Пока индустрия хвастается мультимодальными моделями, которые «понимают» изображения и текст, исследователи из Stanford создали ATP-Bench — и результаты шокируют. Оказалось, что ИИ не планирует использование инструментов, а действует методом проб и ошибок.

Общепринятое мнение: современные мультимодальные модели вроде GPT-4V и Claude 3 демонстрируют «разумное» планирование при работе с инструментами. Они анализируют задачу, выбирают нужные инструменты, выстраивают последовательность действий. Индустрия называет это «агентным поведением» и прогнозирует революцию в автоматизации.

Но ATP-Bench переворачивает эту картину. Бенчмарк тестирует способность моделей планировать использование инструментов в сложных сценариях с переплетением текста и изображений. Результат: даже топовые модели показывают точность планирования на уровне 23-31%. Они не строят логические цепочки — они генерируют правдоподобные последовательности и надеются на лучшее.

Особенно показательны результаты в задачах, требующих многоэтапного планирования. Модели отлично справляются с простыми операциями, но при необходимости учесть результат предыдущего шага для планирования следующего — проваливаются. Это не планирование, это sophisticated pattern matching с элементами случайности.