Нейросети учатся не так, как мы думали — и это ломает всю стратегию ИИ

Сегодня • arXiv cs.AI
Мы тратим миллиарды на создание больших моделей, веря, что они «понимают» закономерности как люди. Но свежее исследование пространственно-временной динамики обобщения показывает: нейросети обучаются фундаментально иначе, и наша стратегия может быть в корне неверной.

Общепринятая мудрость гласит: чем больше данных и параметров, тем лучше нейросеть обобщает знания на новые задачи. Индустрия строит стратегии на убеждении, что масштабирование автоматически улучшает способность моделей переносить знания из одного контекста в другой.

Исследование пространственно-временной динамики обобщения переворачивает эту логику. Оказывается, нейросети формируют представления о мире не линейно во времени обучения, а через сложные волны активации, которые распространяются по слоям непредсказуемо. То, что мы считали «пониманием», на самом деле — хаотичный процесс, где обобщение может внезапно ухудшиться даже при росте точности на тренировочных данных.

Более того, исследователи обнаружили, что разные типы обобщения — пространственное (на новые объекты) и временное (на новые последовательности) — конкурируют друг с другом внутри сети. Попытка улучшить одно автоматически ухудшает другое, создавая фундаментальный компромисс, который никто не учитывает при проектировании архитектур.