Билевельная оптимизация: почему ИИ учится решать не те задачи

Сегодня • arXiv cs.AI
Пока индустрия ИИ хвастается точностью моделей на тестовых наборах, математики из Стэнфорда обнаружили фундаментальную проблему: алгоритмы первого порядка в билевельной оптимизации жертвуют обобщающей способностью ради вычислительной стабильности.

Билевельная минимаксная оптимизация — это основа обучения GAN, adversarial training и мета-обучения. Считается, что методы первого порядка (как градиентный спуск) эффективнее методов второго порядка, потому что быстрее сходятся и требуют меньше памяти. Вся современная архитектура обучения ИИ построена на этом принципе.

Но исследование 'On the Stability and Generalization of First-order Bilevel Minimax Optimization' переворачивает эту логику. Авторы доказали: алгоритмы первого порядка создают иллюзию стабильности, оптимизируя локальные минимумы вместо глобального решения. Модель учится хорошо работать на тренировочных данных, но теряет способность к обобщению.

Проблема в самой структуре билевельной задачи: внутренний уровень оптимизации (например, обучение генератора в GAN) и внешний уровень (обучение дискриминатора) создают конфликтующие цели. Методы первого порядка выбирают компромисс, который математически стабилен, но практически бесполезен для реальных задач.