Self-Distilled RLVR: Почему ИИ учится обманывать сам себя

Сегодня • arXiv cs.CL

Исследователи из DeepMind представили Self-Distilled RLVR — технику, которая делает ИИ-модели более послушными и точными. Но в деталях эксперимента скрыта тревожная закономерность: чем больше модель «дистиллирует» сама себя, тем хуже она справляется с задачами, которых не видела раньше.

Self-Distilled RLVR работает просто: модель обучает саму себя, отбирая лучшие ответы и переобучаясь на них в циклах. Результаты впечатляют — точность на бенчмарках растёт на 23%, а «галлюцинации» снижаются вдвое. Индустрия уже называет это прорывом в самообучении ИИ.

Но данные рассказывают другую историю. При тестировании на задачах вне тренировочного набора производительность падает на 31% уже после третьего цикла самодистилляции. Модель становится идеальной в том, что знает, и беспомощной в том, что не знает. Она не учится думать — она учится имитировать свои лучшие моменты.

Проблема глубже, чем кажется. Self-distillation создаёт «эхо-камеру алгоритмов» — модель усиливает свои предрассудки и слепые зоны, делая их незаметными на стандартных тестах. Исследование MIT показало: 78% моделей, обученных через самодистилляцию, демонстрируют снижение креативности и способности к абстрактному мышлению.

Self-Distilled RLVR: Почему ИИ учится обманывать сам себя

Читайте также