Диффузионные модели языка: почему равномерное обучение — это расточительство ресурсов

Сегодня • arXiv cs.CL
Пока все говорят о том, как сделать языковые модели быстрее, команда исследователей нашла неудобную правду: большинство шагов обучения диффузионных моделей работают вхолостую. И проблема не в железе — проблема в подходе.

Общепринятая мудрость гласит: чтобы улучшить диффузионные языковые модели, нужно больше данных, больше параметров, больше шагов обучения. Все крупные лаборатории следуют этой логике, равномерно распределяя вычислительные ресурсы по всем этапам денойзинга. Кажется разумным — каждый шаг важен, каждый шаг получает равное внимание.

Но исследование 'Not All Denoising Steps Are Equal' переворачивает эту логику. Авторы обнаружили, что шаги денойзинга кардинально различаются по важности — некоторые критичны для качества модели, другие почти бесполезны. Применив адаптивное планирование, они достигли того же качества на 40% меньшем количестве шагов обучения. Ключевой инсайт: ранние этапы денойзинга требуют интенсивной проработки, поздние — минимальной.

Цифры говорят сами за себя: традиционный подход тратит 60-80% вычислений на шаги, которые дают менее 20% улучшения качества. Это не просто неэффективность — это фундаментальное непонимание того, как работает процесс обучения. Исследователи показали, что умное распределение ресурсов важнее их общего объёма.