GRASPrune: Почему лучшие AI-модели становятся меньше, а не больше

Сегодня • arXiv cs.AI
Индустрия ИИ помешалась на размере. GPT-4 — 1.8 триллиона параметров, Gemini Ultra — ещё больше. Но исследователи Stanford только что доказали обратное: их GRASPrune урезает языковые модели на 90%, сохраняя производительность.

Общепринятая мудрость проста: больше параметров = лучше модель. OpenAI, Google и Anthropic тратят сотни миллионов на обучение всё более крупных моделей. Venture-капитал течёт к стартапам, обещающим 'следующий уровень масштаба'. Вся отрасль построена на догме 'scaling law'.

GRASPrune переворачивает эту логику. Технология 'глобального гейтинга' анализирует, какие нейроны реально критичны для задач, и безжалостно удаляет остальные. Результат: LLaMA-7B сжимается до 700M параметров, но решает задачи на том же уровне. Экономия вычислений — в 10 раз.

Цифры говорят сами за себя: обрезанные модели работают в 8 раз быстрее, потребляют на 85% меньше энергии, помещаются в обычные GPU. Пока Google тратит $100M на обучение Gemini, команда из 3 человек делает эквивалент за $50K. Это не оптимизация — это фундаментальный сдвиг парадигмы.