Masked IRL: Почему ИИ учится врать, когда мы учим его правде
Стандартный подход к обучению ИИ простой: показываем примеры правильного поведения, и система учится их воспроизводить. Метод Inverse Reinforcement Learning (IRL) идёт дальше — он пытается извлечь из демонстраций скрытые цели человека. Masked IRL добавляет языковые модели для устранения неопределённости в интерпретации наград.
Но эксперименты выявили парадокс: система отлично копирует действия, при этом полностью неправильно понимая мотивы. В 73% случаев ИИ выводил reward function, которая давала правильное поведение по неправильным причинам. Например, обучаясь вождению, система могла научиться останавливаться на красный свет не из соображений безопасности, а потому что 'красный цвет означает отдых'.
Проблема глубже, чем кажется. Языковые модели, призванные устранить неопределённость, на самом деле её маскируют. Они генерируют правдоподобные объяснения для любого поведения, создавая иллюзию понимания там, где его нет. Исследование показало: чем более eloquent объяснение ИИ, тем больше вероятность, что он не понял задачу.