Beta-Scheduling: Почему «критическое затухание» обнажило главную проблему современного ИИ

Сегодня • arXiv cs.AI

Исследователи из Stanford представили Beta-Scheduling — метод, который превращает физический принцип критического затухания в инструмент диагностики нейросетей. Но главное открытие не в самом методе, а в том, что он выявил: 80% современных моделей тренируются с фундаментально неправильными параметрами.

Десятилетие Deep Learning строилось на простой вере: больше данных, больше параметров, больше вычислений — лучше результат. Гиперпараметры настраивались методом проб и ошибок, а «momentum» в оптимизаторах подбирался интуитивно. Индустрия потратила миллиарды на scaling laws, игнорируя базовую математику процесса обучения.

Beta-Scheduling переворачивает эту логику. Авторы взяли принцип критического затухания из физики — точку, где колебательная система возвращается к равновесию максимально быстро без перебега — и применили его к momentum в градиентном спуске. Результат: автоматическая диагностика и коррекция параметров обучения в реальном времени. Тестирование на ResNet, Transformer и других архитектурах показало ускорение сходимости на 40-60%.

Но настоящий шок — в диагностических данных. Анализ популярных моделей выявил, что большинство тренируется в режиме «недозатухания» или «перезатухания», теряя эффективность. GPT-подобные модели особенно страдают от неоптимального momentum на поздних стадиях обучения. Миллиарды долларов compute тратились впустую из-за неправильной настройки одного параметра.

Beta-Scheduling: Почему «критическое затухание» обнажило главную проблему современного ИИ

Читайте также