Klear-Reasoner обещает прорыв в рассуждениях ИИ, но скрывает фундаментальную проблему

Сегодня • arXiv cs.AI

Исследователи представили Klear-Reasoner — систему, которая якобы решает проблему деградации градиентов при обучении рассуждениям. Но за техническими достижениями скрывается неудобная правда: мы до сих пор не понимаем, как работает мышление.

Gradient-Preserving Clipping Policy Optimization — так называется новая техника, которая должна научить ИИ лучше рассуждать. Традиционно считается, что проблема в том, что градиенты 'исчезают' во время обучения, мешая модели осваивать сложные логические цепочки. Klear-Reasoner решает это через умную обрезку градиентов, сохраняя их информативность.

Но вот парадокс: система показывает улучшение на 23% в бенчмарках рассуждений, при этом авторы честно признают — они не знают, почему это работает. Техника основана на эмпирических наблюдениях, а не на понимании природы рассуждений. По сути, мы оптимизируем процесс, механизм которого остается чёрным ящиком.

Более того, улучшения касаются только узких задач формальной логики. На задачах здравого смысла и творческого мышления Klear-Reasoner показывает результаты не лучше базовых моделей. Это намекает на фундаментальный вопрос: а оптимизируем ли мы вообще то, что нужно?

Klear-Reasoner обещает прорыв в рассуждениях ИИ, но скрывает фундаментальную проблему

Читайте также