Краткость убивает AI-гигантов: почему GPT-4 проигрывает малым моделям
Индустрия построена на простой вере: чем больше модель, тем она умнее. OpenAI, Google и Anthropic вкладывают миллиарды в масштабирование, создавая монстров с триллионами параметров. Бенчмарки подтверждают превосходство гигантов во всех задачах — от математики до программирования.
Но новое исследование MIT и Stanford обнаружило фундаментальный парадокс. Когда модели ограничили в длине ответа до 50 токенов, производительность крупных моделей рухнула на 40-60%. GPT-4 с его 1.8 триллионами параметров показал результаты хуже, чем Llama-7B — модель в 250 раз меньше. В задачах на краткое резюмирование и быстрые ответы малые модели доминировали.
Причина кроется в архитектуре обучения. Большие модели тренируются генерировать развернутые, многословные ответы — это повышает их оценки на стандартных бенчмарках. Но когда пространство для маневра сужается, их 'болтливость' становится проклятием. Они не умеют быть лаконичными, потому что никогда этому не учились.