Klear-Reasoner обещает прорыв в рассуждениях ИИ, но скрывает фундаментальную проблему
Gradient-Preserving Clipping Policy Optimization — так называется новая техника, которая должна научить ИИ лучше рассуждать. Традиционно считается, что проблема в том, что градиенты 'исчезают' во время обучения, мешая модели осваивать сложные логические цепочки. Klear-Reasoner решает это через умную обрезку градиентов, сохраняя их информативность.
Но вот парадокс: система показывает улучшение на 23% в бенчмарках рассуждений, при этом авторы честно признают — они не знают, почему это работает. Техника основана на эмпирических наблюдениях, а не на понимании природы рассуждений. По сути, мы оптимизируем процесс, механизм которого остается чёрным ящиком.
Более того, улучшения касаются только узких задач формальной логики. На задачах здравого смысла и творческого мышления Klear-Reasoner показывает результаты не лучше базовых моделей. Это намекает на фундаментальный вопрос: а оптимизируем ли мы вообще то, что нужно?