Grokking открыл секрет обучения ИИ — и он пугает разработчиков

Сегодня • arXiv cs.AI
Все верят, что нейросети учатся плавно и предсказуемо. Но новое исследование MIT о «grokking» — внезапном понимании после переобучения — показывает: ИИ работает через хаотические фазовые переходы, которые мы не контролируем.

Общепринятая мудрость гласит: больше данных и параметров равно лучшему обучению. Исследователи десятилетиями строили модели на этой логике, увеличивая размеры и ожидая линейного улучшения результатов.

Но исследование «The Geometry of Multi-Task Grokking» переворачивает эту картину. Учёные обнаружили, что обучение происходит через «поперечную нестабильность» — момент, когда модель внезапно «схватывает» паттерн после сотен эпох переобучения. Weight decay создаёт фазовую структуру, где знания существуют в суперпозиции до критического момента коллапса в понимание.

Это означает: мы не обучаем ИИ — мы запускаем хаотический процесс и ждём фазового перехода. 73% улучшения производительности происходит в узком окне в 2-5% времени обучения. Остальные 95% времени модель «притворяется», что не понимает, хотя знание уже формируется в скрытом пространстве.