Краткость убивает AI-гигантов: почему GPT-4 проигрывает малым моделям

Сегодня • arXiv cs.AI

Все верят: больше параметров = лучше результат. Но исследователи обнаружили аномалию в поведении языковых моделей, которая разрушает эту логику. При ограничении длины ответа GPT-4 внезапно начинает уступать моделям в 100 раз меньше.

Индустрия построена на простой вере: чем больше модель, тем она умнее. OpenAI, Google и Anthropic вкладывают миллиарды в масштабирование, создавая монстров с триллионами параметров. Бенчмарки подтверждают превосходство гигантов во всех задачах — от математики до программирования.

Но новое исследование MIT и Stanford обнаружило фундаментальный парадокс. Когда модели ограничили в длине ответа до 50 токенов, производительность крупных моделей рухнула на 40-60%. GPT-4 с его 1.8 триллионами параметров показал результаты хуже, чем Llama-7B — модель в 250 раз меньше. В задачах на краткое резюмирование и быстрые ответы малые модели доминировали.

Причина кроется в архитектуре обучения. Большие модели тренируются генерировать развернутые, многословные ответы — это повышает их оценки на стандартных бенчмарках. Но когда пространство для маневра сужается, их 'болтливость' становится проклятием. Они не умеют быть лаконичными, потому что никогда этому не учились.

Краткость убивает AI-гигантов: почему GPT-4 проигрывает малым моделям

Читайте также