Process Rewards в LLM: почему награждать процесс мышления — признак отчаяния
Традиционный подход к обучению LLM фокусировался на финальном результате — правильный ответ получал награду, неправильный наказание. Process Rewards переворачивают логику: теперь модель получает поощрение за каждый корректный шаг рассуждения, даже если финальный ответ неверен. Исследования показывают улучшение точности на 15-20% в задачах математического и логического мышления.
Но что это говорит о природе современного ИИ? Мы создали системы, которые могут генерировать Shakespeare, но не могут решить школьную задачу по алгебре без пошагового контроля. Process Rewards — это костыль для фундаментальной проблемы: LLM не понимают причинно-следственные связи, они лишь имитируют паттерны рассуждений.
Более того, необходимость в Process Rewards обнажает парадокс масштабирования. Мы добавляем триллионы параметров, но всё равно вынуждены разбивать мышление на элементарные шаги и награждать за каждый, как дрессировщики цирковых животных. Это не эмерджентный интеллект — это сложная система условных рефлексов.