ИИ объясняет решения, но сами объяснения оказались непредсказуемыми
Индустрия построила целую экосистему вокруг «объяснимого ИИ». LIME, SHAP, GradCAM — эти инструменты должны показывать, почему нейросеть приняла решение. Регуляторы требуют прозрачности, компании внедряют системы атрибуции признаков, врачи и судьи полагаются на эти объяснения при принятии критических решений.
Feature Attribution Stability Suite протестировал стабильность популярных методов объяснения на реальных задачах. Результат шокирует: одна и та же модель на одних данных генерирует кардинально разные объяснения в 60-80% случаев. SHAP показывает, что важен пиксель A, GradCAM утверждает — решающий фактор в зоне B. При этом предсказания модели остаются идентичными.
Проблема глубже случайности. Исследование выявило: методы атрибуции чувствительны к мельчайшим изменениям в архитектуре сети, порядке обучающих данных и даже версии библиотеки. То, что мы считаем «пониманием» решений ИИ, на деле — артефакт вычислительного процесса, не связанный с реальной логикой модели.