Диффузионные языковые модели: почему индустрия боится честной оценки

Сегодня • arXiv cs.CL

Generative Frontiers опубликовали исследование о диффузионных языковых моделях, которое должно было стать техническим обзором. Вместо этого оно обнажило неудобную правду: индустрия избегает строгой оценки своих моделей, потому что результаты могут разрушить миллиардные инвестиции.

Conventional wisdom гласит: диффузионные модели — следующий прорыв в обработке языка. Компании вкладывают сотни миллионов долларов в разработку, обещая превзойти трансформеры. Каждый анонс сопровождается впечатляющими демо и заявлениями о 'революционных возможностях'. Венчурные фонды выстраиваются в очередь за раундами финансирования.

Но исследование Generative Frontiers показывает обратное: 73% диффузионных языковых моделей тестируются на устаревших бенчмарках, созданных для трансформеров. Авторы обнаружили, что только 12% компаний используют метрики, действительно подходящие для диффузионной архитектуры. Результат предсказуем: модели показывают отличные результаты в отчетах, но проваливаются в реальных задачах.

Более того, анализ 47 недавних публикаций выявил системную проблему: компании cherry-picking данные для оценки. Они тестируют модели на задачах, где диффузия естественно сильна (генерация коротких текстов), но избегают сложных сценариев вроде логического рассуждения или долгосрочной когерентности. Один из авторов исследования прямо заявил: 'Мы оцениваем Ferrari по тому, насколько хорошо он плавает.'

Диффузионные языковые модели: почему индустрия боится честной оценки

Читайте также