Диффузионные модели языка: почему равномерное обучение — это расточительство ресурсов
Общепринятая мудрость гласит: чтобы улучшить диффузионные языковые модели, нужно больше данных, больше параметров, больше шагов обучения. Все крупные лаборатории следуют этой логике, равномерно распределяя вычислительные ресурсы по всем этапам денойзинга. Кажется разумным — каждый шаг важен, каждый шаг получает равное внимание.
Но исследование 'Not All Denoising Steps Are Equal' переворачивает эту логику. Авторы обнаружили, что шаги денойзинга кардинально различаются по важности — некоторые критичны для качества модели, другие почти бесполезны. Применив адаптивное планирование, они достигли того же качества на 40% меньшем количестве шагов обучения. Ключевой инсайт: ранние этапы денойзинга требуют интенсивной проработки, поздние — минимальной.
Цифры говорят сами за себя: традиционный подход тратит 60-80% вычислений на шаги, которые дают менее 20% улучшения качества. Это не просто неэффективность — это фундаментальное непонимание того, как работает процесс обучения. Исследователи показали, что умное распределение ресурсов важнее их общего объёма.