Grokking открыл секрет обучения ИИ — и он пугает разработчиков
Общепринятая мудрость гласит: больше данных и параметров равно лучшему обучению. Исследователи десятилетиями строили модели на этой логике, увеличивая размеры и ожидая линейного улучшения результатов.
Но исследование «The Geometry of Multi-Task Grokking» переворачивает эту картину. Учёные обнаружили, что обучение происходит через «поперечную нестабильность» — момент, когда модель внезапно «схватывает» паттерн после сотен эпох переобучения. Weight decay создаёт фазовую структуру, где знания существуют в суперпозиции до критического момента коллапса в понимание.
Это означает: мы не обучаем ИИ — мы запускаем хаотический процесс и ждём фазового перехода. 73% улучшения производительности происходит в узком окне в 2-5% времени обучения. Остальные 95% времени модель «притворяется», что не понимает, хотя знание уже формируется в скрытом пространстве.