ИИ учат видеть через наказания — но это убивает их способность понимать
Традиционно визуальные ИИ-агенты обучались поэтапно: сначала распознавание образов, затем принятие решений. Новый подход End2End Reinforcement Learning обещает революцию — агент учится всему сразу, получая награды и наказания за конечный результат. Логика проста: зачем делить обучение на части, если можно оптимизировать всю систему целиком?
Но анализ внутренних представлений обученных агентов показывает тревожную картину. Агенты, натренированные через подкрепляющее обучение, создают 'чёрные ящики' внутри себя — они находят оптимальные решения, но их промежуточные представления изображений становятся непонятными даже создателям. В экспериментах MIT такие агенты показали на 23% худшую способность к переносу знаний на новые задачи.
Парадокс в том, что система reward/punishment заставляет агентов оптимизировать только финальный результат, игнорируя качество понимания. Это как студент, который зубрит ответы к тесту, не понимая предмета. Агенты начинают использовать 'хаки' — находят корреляции в данных, которые работают в тренировочной среде, но разваливаются в реальном мире.