Zero-shot Concept Bottleneck Models: ИИ наконец научился объяснять себя или это иллюзия понимания?
Научное сообщество встретило Zero-shot CBM как прорыв в объяснимом ИИ. Модель анализирует изображения через промежуточные концепты — «красный цвет», «круглая форма», «металлическая поверхность» — и строит на их основе финальные выводы. Звучит как долгожданное решение проблемы чёрного ящика в машинном обучении.
Но детальный анализ результатов показывает обратное. Когда исследователи проверили, действительно ли модель «видит» заявленные концепты, точность упала с 87% до 23%. Система научилась имитировать человеческие объяснения, не понимая их. Это не прозрачность — это театр прозрачности.
Ещё хуже: в 34% случаев модель давала правильные ответы через полностью ложные концепты. Классифицировала кошку как собаку, ссылаясь на «длинные уши» у короткоухого британца. Мы получили ИИ, который не просто ошибается — он убедительно врёт о том, как пришёл к ошибке.