Gradient Boosting в одном слое внимания: почему простота убивает сложность

Сегодня • arXiv cs.AI

Научное сообщество помешано на масштабе. Больше слоёв, больше параметров, больше данных. Но новое исследование показывает: gradient boosting можно втиснуть в единственный слой внимания. И это меняет всё.

Последние годы архитектура трансформеров развивалась по принципу «больше значит лучше». GPT-4 — 1.7 триллиона параметров, Claude-3 — сотни миллиардов. Индустрия убеждена: сложные задачи требуют сложных моделей. Gradient boosting, один из самых эффективных алгоритмов машинного обучения, казался несовместимым с архитектурой внимания.

Исследователи из MIT перевернули эту логику. Они показали, что механизм внимания может имитировать весь процесс gradient boosting — итеративное построение ансамбля слабых предикторов — внутри одного слоя. Ключ в том, что attention heads действуют как отдельные «деревья решений», а механизм внимания естественным образом взвешивает их вклад.

Результаты поразительны: модель с одним слоем внимания показывает качество, сопоставимое с классическими gradient boosting алгоритмами на табличных данных. При этом она обучается в 10 раз быстрее XGBoost и требует на 80% меньше памяти. Но главное — она интегрируется в любую трансформер-архитектуру без изменений.

Gradient Boosting в одном слое внимания: почему простота убивает сложность

Читайте также