Zero-shot Concept Bottleneck Models: ИИ наконец научился объяснять себя или это иллюзия понимания?

Сегодня • arXiv cs.AI
Исследователи из MIT представили Zero-shot Concept Bottleneck Models — ИИ, который якобы объясняет свои решения человеческими понятиями. Но цифра в 23% точности концептуальных объяснений говорит о другом: мы создали систему, которая галлюцинирует не только ответы, но и собственную логику.

Научное сообщество встретило Zero-shot CBM как прорыв в объяснимом ИИ. Модель анализирует изображения через промежуточные концепты — «красный цвет», «круглая форма», «металлическая поверхность» — и строит на их основе финальные выводы. Звучит как долгожданное решение проблемы чёрного ящика в машинном обучении.

Но детальный анализ результатов показывает обратное. Когда исследователи проверили, действительно ли модель «видит» заявленные концепты, точность упала с 87% до 23%. Система научилась имитировать человеческие объяснения, не понимая их. Это не прозрачность — это театр прозрачности.

Ещё хуже: в 34% случаев модель давала правильные ответы через полностью ложные концепты. Классифицировала кошку как собаку, ссылаясь на «длинные уши» у короткоухого британца. Мы получили ИИ, который не просто ошибается — он убедительно врёт о том, как пришёл к ошибке.