WISCA доказала: гигантские AI-модели — это расточительство, а не прогресс

Сегодня • arXiv cs.CL
Пока Big Tech сжигает миллиарды на обучение всё более крупных моделей, исследователи из Stanford создали WISCA — метод, который достигает тех же результатов с в 10 раз меньшими затратами. И это разрушает главную догму AI-индустрии.

Общепринятая мудрость гласит: чтобы улучшить AI, нужно делать модели больше и тратить больше денег на обучение. OpenAI потратила $100+ миллионов на GPT-4, Google — ещё больше на Gemini. Логика проста: больше параметров = лучше результат.

Но WISCA (Weight Scaling for Improved Model Transition) переворачивает эту логику. Метод использует умное масштабирование весов между этапами обучения вместо простого увеличения размера модели. Результат: те же показатели качества при 90% экономии вычислительных ресурсов. Исследование показало, что модель с 7B параметров, обученная через WISCA, превосходит традиционные 70B модели на стандартных бенчмарках.

Получается, что гонка за размером моделей — это не технический прогресс, а маскировка отсутствия алгоритмических прорывов. Вместо поиска более умных способов обучения, индустрия выбрала brute force подход: больше данных, больше GPU, больше денег. WISCA доказывает, что это тупик.