Почему большие языковые модели думают не так, как мы думали
Общепринятая мудрость гласит: масштабирование — это количественный процесс. Добавляешь параметры, получаешь линейное улучшение производительности. GPT-3 имел 175 миллиардов параметров, GPT-4 — предположительно триллион. Больше нейронов, больше связей, лучше результаты.
Но исследование 'The Geometry of Thought' переворачивает эту логику. Анализируя внутренние представления моделей разного размера, учёные обнаружили фазовые переходы в структуре рассуждений. При превышении определённых порогов — примерно 70 миллиардов параметров — геометрия внутренних представлений кардинально меняется. Модель начинает формировать качественно новые паттерны мышления.
Это объясняет загадочные 'эмерджентные способности' больших моделей — внезапное появление навыков, которых не было у меньших версий. Речь не о постепенном улучшении, а о скачкообразном переходе к новому типу когнитивной архитектуры. Математически это напоминает фазовые переходы в физике — когда вода превращается в пар.