Hybrid Policy Distillation: Почему новый метод обучения ИИ убивает инновации

Сегодня • arXiv cs.AI
Hybrid Policy Distillation стал новым трендом в обучении языковых моделей. Метод позволяет передавать знания от больших моделей к маленьким с потерей качества всего 2-5%. Но есть проблема, о которой никто не говорит: мы создаём мир идентичных ИИ.

Общепринятая мудрость гласит: Hybrid Policy Distillation — это прорыв. Метод объединяет supervised fine-tuning и reinforcement learning, позволяя маленьким моделям достигать 95% производительности гигантов при 10x меньших вычислительных затратах. Google, Anthropic и Meta уже внедряют технологию в продакшен.

⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации.

Но есть фундаментальная проблема: все дистиллированные модели наследуют одни и те же паттерны мышления. Исследование MIT показало, что модели, обученные через policy distillation, демонстрируют 87% сходство в решении нестандартных задач. Мы не делаем ИИ лучше — мы делаем его более предсказуемым.

Реальная цена эффективности — потеря разнообразия. Когда все модели учатся у одних и тех же 'учителей' (GPT-4, Claude, Gemini), они развивают идентичные слепые зоны. Результат: армия быстрых, дешёвых, но принципиально одинаковых ИИ-систем, неспособных к оригинальному мышлению.