ProdCodeBench показал: ИИ-программисты провалили экзамен на реальную работу

Сегодня • arXiv cs.AI
GitHub Copilot генерирует код за секунды, Claude пишет целые приложения, а VC вкладывают миллиарды в AI-кодинг стартапы. Но исследователи из MIT создали ProdCodeBench — и результаты показали 23% успеха там, где на синтетических задачах ИИ показывал 85%.

Индустрия живёт в эйфории от AI-кодеров. Devin от Cognition AI оценили в $2 млрд, GitHub Copilot используют 50 млн разработчиков, а бенчмарки вроде HumanEval показывают 90%+ успеха у топовых моделей. Нарратив простой: ИИ уже умеет программировать лучше джуниоров.

ProdCodeBench переворачивает эту картину. Вместо синтетических алгоритмических задач исследователи взяли реальные баги и фичи из production-кода GitHub, Kubernetes, React. Результат: GPT-4 справился с 23% задач против 87% на HumanEval. Claude 3.5 Sonnet упал с 92% до 19%. Проблема не в сложности — в контексте, зависимостях, legacy-коде.

Разрыв объясняется фундаментальным изъяном: существующие бенчмарки тестируют не программирование, а решение олимпиадных задач. Настоящий код живёт в экосистемах, где 80% времени тратится на понимание чужого кода, а не написание нового. ProdCodeBench включает именно такие задачи — и ИИ проваливается.