LLM Regression: Почему новый подход к памяти ИИ обнажает фундаментальную ложь
Индустрия ИИ последние два года твердит одно: больше параметров = лучше результат. GPT-4 с 1.7 триллиона параметров, Claude с терабайтами обучающих данных. Все гонятся за масштабом, считая память моделей решённой проблемой — ведь transformer может обрабатывать тысячи токенов контекста.
Но исследователи из MIT и Stanford тихо работали над LLM Regression — архитектурой, которая добавляет «латентную итеративную голову состояния». Звучит сложно, но суть простая: они научили модель создавать внутренние «заметки» между итерациями рассуждения. Результат? 34% улучшение на задачах долгосрочного планирования при том же количестве параметров.
Цифры вскрывают неудобную истину: современные LLM не помнят процесс мышления между шагами. Они каждый раз начинают с нуля, имитируя понимание через статистические паттерны. LLM Regression показывает, что настоящий прорыв — не в масштабе, а в архитектуре памяти, которую мы игнорировали ради гонки за параметрами.