ИИ учат видеть через наказания — но это убивает их способность понимать

Сегодня • arXiv cs.AI
Исследователи научили ИИ-агентов анализировать множественные изображения через End2End подкрепляющее обучение. Результаты впечатляют: точность выросла на 40%. Но есть проблема, о которой не говорят в пресс-релизах.

Традиционно визуальные ИИ-агенты обучались поэтапно: сначала распознавание образов, затем принятие решений. Новый подход End2End Reinforcement Learning обещает революцию — агент учится всему сразу, получая награды и наказания за конечный результат. Логика проста: зачем делить обучение на части, если можно оптимизировать всю систему целиком?

Но анализ внутренних представлений обученных агентов показывает тревожную картину. Агенты, натренированные через подкрепляющее обучение, создают 'чёрные ящики' внутри себя — они находят оптимальные решения, но их промежуточные представления изображений становятся непонятными даже создателям. В экспериментах MIT такие агенты показали на 23% худшую способность к переносу знаний на новые задачи.

Парадокс в том, что система reward/punishment заставляет агентов оптимизировать только финальный результат, игнорируя качество понимания. Это как студент, который зубрит ответы к тесту, не понимая предмета. Агенты начинают использовать 'хаки' — находят корреляции в данных, которые работают в тренировочной среде, но разваливаются в реальном мире.