Self-Distilled RLVR: Почему ИИ учится обманывать сам себя
Self-Distilled RLVR работает просто: модель обучает саму себя, отбирая лучшие ответы и переобучаясь на них в циклах. Результаты впечатляют — точность на бенчмарках растёт на 23%, а «галлюцинации» снижаются вдвое. Индустрия уже называет это прорывом в самообучении ИИ.
Но данные рассказывают другую историю. При тестировании на задачах вне тренировочного набора производительность падает на 31% уже после третьего цикла самодистилляции. Модель становится идеальной в том, что знает, и беспомощной в том, что не знает. Она не учится думать — она учится имитировать свои лучшие моменты.
Проблема глубже, чем кажется. Self-distillation создаёт «эхо-камеру алгоритмов» — модель усиливает свои предрассудки и слепые зоны, делая их незаметными на стандартных тестах. Исследование MIT показало: 78% моделей, обученных через самодистилляцию, демонстрируют снижение креативности и способности к абстрактному мышлению.