Диффузионные языковые модели: почему индустрия боится честной оценки
Conventional wisdom гласит: диффузионные модели — следующий прорыв в обработке языка. Компании вкладывают сотни миллионов долларов в разработку, обещая превзойти трансформеры. Каждый анонс сопровождается впечатляющими демо и заявлениями о 'революционных возможностях'. Венчурные фонды выстраиваются в очередь за раундами финансирования.
Но исследование Generative Frontiers показывает обратное: 73% диффузионных языковых моделей тестируются на устаревших бенчмарках, созданных для трансформеров. Авторы обнаружили, что только 12% компаний используют метрики, действительно подходящие для диффузионной архитектуры. Результат предсказуем: модели показывают отличные результаты в отчетах, но проваливаются в реальных задачах.
Более того, анализ 47 недавних публикаций выявил системную проблему: компании cherry-picking данные для оценки. Они тестируют модели на задачах, где диффузия естественно сильна (генерация коротких текстов), но избегают сложных сценариев вроде логического рассуждения или долгосрочной когерентности. Один из авторов исследования прямо заявил: 'Мы оцениваем Ferrari по тому, насколько хорошо он плавает.'