ARM меняет правила игры в робототехнике, но не так, как думают
Традиционно роботов учили через immediate reward — получил результат, получил награду. Логично: робот взял чашку — молодец, уронил — плохо. Вся индустрия строилась на этой парадигме мгновенной обратной связи. ARM (Advantage Reward Modeling) ломает эту схему.
Вместо оценки каждого действия ARM анализирует advantage — преимущество одной стратегии над другой на длинных горизонтах. Робот может 'ошибаться' 40 минут, но если его стратегия в итоге эффективнее, система это поймёт. В тестах на сборке мебели ARM-роботы показали успешность 89% против 34% у traditional reward systems.
Но вот парадокс: ARM работает не потому, что лучше оценивает действия робота. Он работает потому, что перестаёт их оценивать в реальном времени. Система научилась терпеливости — качеству, которое мы считали исключительно человеческим. Роботы начали планировать, а не просто реагировать.