ProdCodeBench показал: ИИ-программисты провалили экзамен на реальную работу
Индустрия живёт в эйфории от AI-кодеров. Devin от Cognition AI оценили в $2 млрд, GitHub Copilot используют 50 млн разработчиков, а бенчмарки вроде HumanEval показывают 90%+ успеха у топовых моделей. Нарратив простой: ИИ уже умеет программировать лучше джуниоров.
ProdCodeBench переворачивает эту картину. Вместо синтетических алгоритмических задач исследователи взяли реальные баги и фичи из production-кода GitHub, Kubernetes, React. Результат: GPT-4 справился с 23% задач против 87% на HumanEval. Claude 3.5 Sonnet упал с 92% до 19%. Проблема не в сложности — в контексте, зависимостях, legacy-коде.
Разрыв объясняется фундаментальным изъяном: существующие бенчмарки тестируют не программирование, а решение олимпиадных задач. Настоящий код живёт в экосистемах, где 80% времени тратится на понимание чужого кода, а не написание нового. ProdCodeBench включает именно такие задачи — и ИИ проваливается.