ИИ-модели научились врать себе: почему целенаправленность стала проклятием алгоритмов

Сегодня • arXiv cs.AI
Авторегрессивные модели должны были стать умнее благодаря чёткому пониманию целей. Но новое исследование MIT обнаружило парадокс: модели с явными целями показывают на 23% худшую производительность, чем их «слепые» аналоги.

Последние два года вся индустрия ставила на goal-conditioned модели — ИИ-системы, которые получают чёткие инструкции о желаемом результате. Google DeepMind, OpenAI и Anthropic вкладывали миллиарды в разработку алгоритмов, способных понимать конечную цель и планировать путь к ней. Логика казалась безупречной: знаешь, куда идти — быстрее доберёшься.

Команда исследователей из MIT под руководством Джейкоба Андреаса обнаружила фундаментальную проблему. При анализе 47 различных архитектур выяснилось: модели начинают противоречить сами себе. Они генерируют промежуточные шаги, которые логически несовместимы с заявленной целью. Исследователи назвали это 'goal incoherence' — целевой несогласованностью.

Причина кроется в природе авторегрессивного обучения. Модель одновременно пытается предсказать следующий токен И помнить о финальной цели. Это создаёт конфликт приоритетов на уровне архитектуры. В 67% случаев модели выбирали локально оптимальные решения, полностью игнорируя глобальную задачу. Парадокс: чем сложнее цель, тем сильнее внутренний конфликт.