Gradient Boosting в одном слое внимания: почему простота убивает сложность
Последние годы архитектура трансформеров развивалась по принципу «больше значит лучше». GPT-4 — 1.7 триллиона параметров, Claude-3 — сотни миллиардов. Индустрия убеждена: сложные задачи требуют сложных моделей. Gradient boosting, один из самых эффективных алгоритмов машинного обучения, казался несовместимым с архитектурой внимания.
Исследователи из MIT перевернули эту логику. Они показали, что механизм внимания может имитировать весь процесс gradient boosting — итеративное построение ансамбля слабых предикторов — внутри одного слоя. Ключ в том, что attention heads действуют как отдельные «деревья решений», а механизм внимания естественным образом взвешивает их вклад.
Результаты поразительны: модель с одним слоем внимания показывает качество, сопоставимое с классическими gradient boosting алгоритмами на табличных данных. При этом она обучается в 10 раз быстрее XGBoost и требует на 80% меньше памяти. Но главное — она интегрируется в любую трансформер-архитектуру без изменений.