HiPO от исследователей: почему иерархия предпочтений обнажает главную ложь про ИИ-рассуждения
Индустрия убеждена, что языковые модели учатся рассуждать через chain-of-thought и reinforcement learning. Каждый новый метод позиционируется как шаг к 'настоящему мышлению'. HiPO обещает адаптивные рассуждения через иерархические предпочтения — звучит как прорыв в логике машин.
Но данные HiPO показывают обратное. Модель улучшает результаты не потому, что 'думает лучше', а потому, что точнее воспроизводит иерархическую структуру человеческих предпочтений в рассуждениях. Исследование фиксирует 23% рост точности на математических задачах, но анализ промежуточных шагов показывает: модель просто научилась лучше имитировать последовательность 'сначала простое, потом сложное'.
Ключевая цифра спрятана в технических деталях: 89% улучшений приходится на задачи, где есть чёткая иерархия сложности. На задачах с нелинейной логикой результат почти не изменился. HiPO не создаёт мышление — он оптимизирует копирование паттернов.