ARM меняет правила игры в робототехнике, но не так, как думают

Сегодня • arXiv cs.AI
Исследователи представили ARM — систему обучения роботов сложным многоэтапным задачам. Все говорят о прорыве в манипуляциях. Но главное не в том, что роботы научились собирать мебель за час. Главное — в том, как ARM переворачивает саму логику машинного обучения.

Традиционно роботов учили через immediate reward — получил результат, получил награду. Логично: робот взял чашку — молодец, уронил — плохо. Вся индустрия строилась на этой парадигме мгновенной обратной связи. ARM (Advantage Reward Modeling) ломает эту схему.

Вместо оценки каждого действия ARM анализирует advantage — преимущество одной стратегии над другой на длинных горизонтах. Робот может 'ошибаться' 40 минут, но если его стратегия в итоге эффективнее, система это поймёт. В тестах на сборке мебели ARM-роботы показали успешность 89% против 34% у traditional reward systems.

Но вот парадокс: ARM работает не потому, что лучше оценивает действия робота. Он работает потому, что перестаёт их оценивать в реальном времени. Система научилась терпеливости — качеству, которое мы считали исключительно человеческим. Роботы начали планировать, а не просто реагировать.