AI-бенчмарки сломаны: индустрия измеряет не то, что важно

Сегодня • MIT Technology Review AI
OpenAI хвастается 94% на MMLU, Google празднует рекорд на SuperGLUE, Anthropic побеждает в HumanEval. Но за этими цифрами скрывается неудобная правда: современные AI-бенчмарки превратились в спидометр разбитой машины.

Индустрия живёт по простой логике: выше балл в бенчмарке — лучше модель. MMLU, HellaSwag, ARC — эти тесты стали священными коровами, определяющими успех ИИ-систем. Компании тратят миллионы на оптимизацию под конкретные датасеты, инвесторы смотрят на таблицы лидеров как на биржевые сводки.

А что если вся эта гонка — иллюзия прогресса? Исследование NYU показало: 73% 'улучшений' в популярных бенчмарках объясняются переобучением на тестовых данных, а не реальным пониманием. GPT-4 набирает 86% на математических задачах MATH, но падает до 34% на аналогичных примерах с изменённой формулировкой. Claude превосходит человека в чтении, но не может понять простую инструкцию из трёх шагов.

Настоящие проблемы ИИ — надёжность, безопасность, объяснимость — остаются за рамками измерений. Модель может решить задачу на логику из SAT, но галлюцинирует факты в 23% случаев. Она побеждает в coding challenges, но генерирует уязвимый код в production. Существующие бенчмарки измеряют производительность в лабораторных условиях, игнорируя поведение в реальном мире.