Beta-Scheduling: Почему «критическое затухание» обнажило главную проблему современного ИИ
Десятилетие Deep Learning строилось на простой вере: больше данных, больше параметров, больше вычислений — лучше результат. Гиперпараметры настраивались методом проб и ошибок, а «momentum» в оптимизаторах подбирался интуитивно. Индустрия потратила миллиарды на scaling laws, игнорируя базовую математику процесса обучения.
Beta-Scheduling переворачивает эту логику. Авторы взяли принцип критического затухания из физики — точку, где колебательная система возвращается к равновесию максимально быстро без перебега — и применили его к momentum в градиентном спуске. Результат: автоматическая диагностика и коррекция параметров обучения в реальном времени. Тестирование на ResNet, Transformer и других архитектурах показало ускорение сходимости на 40-60%.
Но настоящий шок — в диагностических данных. Анализ популярных моделей выявил, что большинство тренируется в режиме «недозатухания» или «перезатухания», теряя эффективность. GPT-подобные модели особенно страдают от неоптимального momentum на поздних стадиях обучения. Миллиарды долларов compute тратились впустую из-за неправильной настройки одного параметра.