LoRA в RL: Почему «эффективное обучение» скрывает кризис масштабируемости

Сегодня • arXiv cs.AI
Low-Rank Adaptation теперь применяют для обучения критиков в reinforcement learning, обещая снижение вычислительных затрат на 80%. Но за красивыми цифрами скрывается неудобная правда: если нам нужны такие костыли, значит, базовые алгоритмы RL работают неправильно.

Исследователи празднуют: LoRA для критиков в off-policy RL показывает почти такую же производительность при использовании лишь 20% параметров. Conventional wisdom говорит — это прорыв в эффективности. Меньше памяти, быстрее обучение, демократизация доступа к сложным RL-системам.

Но вот парадокс: если 80% параметров критика можно безболезненно выбросить, зачем они там были? Ответ неприятный — потому что современные архитектуры RL переобучены и избыточны по дизайну. LoRA не решает проблему, а маскирует её. Мы создаём огромные неэффективные модели, а потом изобретаем способы их ужать.

Глубже: если критик можно сжать до 20% без потери качества, это означает, что 80% его «знаний» — шум. Но критик — это основа стабильности в off-policy методах. Получается, мы строили стабильность на шуме? Исследование показывает производительность «почти такую же», но что скрывается в этом «почти» при edge cases?