Нейросети учатся не так, как мы думали — и это ломает всю стратегию ИИ
Общепринятая мудрость гласит: чем больше данных и параметров, тем лучше нейросеть обобщает знания на новые задачи. Индустрия строит стратегии на убеждении, что масштабирование автоматически улучшает способность моделей переносить знания из одного контекста в другой.
Исследование пространственно-временной динамики обобщения переворачивает эту логику. Оказывается, нейросети формируют представления о мире не линейно во времени обучения, а через сложные волны активации, которые распространяются по слоям непредсказуемо. То, что мы считали «пониманием», на самом деле — хаотичный процесс, где обобщение может внезапно ухудшиться даже при росте точности на тренировочных данных.
Более того, исследователи обнаружили, что разные типы обобщения — пространственное (на новые объекты) и временное (на новые последовательности) — конкурируют друг с другом внутри сети. Попытка улучшить одно автоматически ухудшает другое, создавая фундаментальный компромисс, который никто не учитывает при проектировании архитектур.