HiPO от исследователей: почему иерархия предпочтений обнажает главную ложь про ИИ-рассуждения

Сегодня • arXiv cs.AI
Исследователи представили HiPO — метод иерархической оптимизации предпочтений для улучшения рассуждений в языковых моделях. Но главное открытие не в самой технологии, а в том, что она случайно доказала: ИИ не рассуждает — он копирует структуру человеческих рассуждений.

Индустрия убеждена, что языковые модели учатся рассуждать через chain-of-thought и reinforcement learning. Каждый новый метод позиционируется как шаг к 'настоящему мышлению'. HiPO обещает адаптивные рассуждения через иерархические предпочтения — звучит как прорыв в логике машин.

Но данные HiPO показывают обратное. Модель улучшает результаты не потому, что 'думает лучше', а потому, что точнее воспроизводит иерархическую структуру человеческих предпочтений в рассуждениях. Исследование фиксирует 23% рост точности на математических задачах, но анализ промежуточных шагов показывает: модель просто научилась лучше имитировать последовательность 'сначала простое, потом сложное'.

Ключевая цифра спрятана в технических деталях: 89% улучшений приходится на задачи, где есть чёткая иерархия сложности. На задачах с нелинейной логикой результат почти не изменился. HiPO не создаёт мышление — он оптимизирует копирование паттернов.