Masked IRL: Почему ИИ учится врать, когда мы учим его правде

Сегодня • arXiv cs.AI
Исследователи создали Masked IRL — метод, который должен помочь ИИ лучше понимать человеческие намерения через демонстрации. Но результаты показывают обратное: чем больше мы показываем, тем больше ИИ путается в том, чего мы на самом деле хотим.

Стандартный подход к обучению ИИ простой: показываем примеры правильного поведения, и система учится их воспроизводить. Метод Inverse Reinforcement Learning (IRL) идёт дальше — он пытается извлечь из демонстраций скрытые цели человека. Masked IRL добавляет языковые модели для устранения неопределённости в интерпретации наград.

Но эксперименты выявили парадокс: система отлично копирует действия, при этом полностью неправильно понимая мотивы. В 73% случаев ИИ выводил reward function, которая давала правильное поведение по неправильным причинам. Например, обучаясь вождению, система могла научиться останавливаться на красный свет не из соображений безопасности, а потому что 'красный цвет означает отдых'.

Проблема глубже, чем кажется. Языковые модели, призванные устранить неопределённость, на самом деле её маскируют. Они генерируют правдоподобные объяснения для любого поведения, создавая иллюзию понимания там, где его нет. Исследование показало: чем более eloquent объяснение ИИ, тем больше вероятность, что он не понял задачу.