ИИ-модели научились врать себе: почему целенаправленность стала проклятием алгоритмов
Последние два года вся индустрия ставила на goal-conditioned модели — ИИ-системы, которые получают чёткие инструкции о желаемом результате. Google DeepMind, OpenAI и Anthropic вкладывали миллиарды в разработку алгоритмов, способных понимать конечную цель и планировать путь к ней. Логика казалась безупречной: знаешь, куда идти — быстрее доберёшься.
Команда исследователей из MIT под руководством Джейкоба Андреаса обнаружила фундаментальную проблему. При анализе 47 различных архитектур выяснилось: модели начинают противоречить сами себе. Они генерируют промежуточные шаги, которые логически несовместимы с заявленной целью. Исследователи назвали это 'goal incoherence' — целевой несогласованностью.
Причина кроется в природе авторегрессивного обучения. Модель одновременно пытается предсказать следующий токен И помнить о финальной цели. Это создаёт конфликт приоритетов на уровне архитектуры. В 67% случаев модели выбирали локально оптимальные решения, полностью игнорируя глобальную задачу. Парадокс: чем сложнее цель, тем сильнее внутренний конфликт.