Process Rewards в LLM: почему награждать процесс мышления — признак отчаяния

Сегодня • arXiv cs.AI
Исследователи ИИ празднуют прорыв в обучении языковых моделей рассуждать через Process Rewards — систему поощрения за правильные промежуточные шаги. Но за техническим триумфом скрывается неудобная правда: нам приходится учить машины думать как первоклассников.

Традиционный подход к обучению LLM фокусировался на финальном результате — правильный ответ получал награду, неправильный наказание. Process Rewards переворачивают логику: теперь модель получает поощрение за каждый корректный шаг рассуждения, даже если финальный ответ неверен. Исследования показывают улучшение точности на 15-20% в задачах математического и логического мышления.

Но что это говорит о природе современного ИИ? Мы создали системы, которые могут генерировать Shakespeare, но не могут решить школьную задачу по алгебре без пошагового контроля. Process Rewards — это костыль для фундаментальной проблемы: LLM не понимают причинно-следственные связи, они лишь имитируют паттерны рассуждений.

Более того, необходимость в Process Rewards обнажает парадокс масштабирования. Мы добавляем триллионы параметров, но всё равно вынуждены разбивать мышление на элементарные шаги и награждать за каждый, как дрессировщики цирковых животных. Это не эмерджентный интеллект — это сложная система условных рефлексов.