ATP-Bench показал: мультимодальные ИИ не умеют планировать — они просто угадывают
Общепринятое мнение: современные мультимодальные модели вроде GPT-4V и Claude 3 демонстрируют «разумное» планирование при работе с инструментами. Они анализируют задачу, выбирают нужные инструменты, выстраивают последовательность действий. Индустрия называет это «агентным поведением» и прогнозирует революцию в автоматизации.
Но ATP-Bench переворачивает эту картину. Бенчмарк тестирует способность моделей планировать использование инструментов в сложных сценариях с переплетением текста и изображений. Результат: даже топовые модели показывают точность планирования на уровне 23-31%. Они не строят логические цепочки — они генерируют правдоподобные последовательности и надеются на лучшее.
Особенно показательны результаты в задачах, требующих многоэтапного планирования. Модели отлично справляются с простыми операциями, но при необходимости учесть результат предыдущего шага для планирования следующего — проваливаются. Это не планирование, это sophisticated pattern matching с элементами случайности.