ИИ объясняет решения, но сами объяснения оказались непредсказуемыми

Сегодня • arXiv cs.AI
Медицинский ИИ ставит диагноз рака и объясняет: «Я увидел подозрительное пятно в левом углу». На следующий день тот же алгоритм с тем же снимком говорит: «Дело в текстуре ткани справа». Диагноз тот же, объяснение — противоположное.

Индустрия построила целую экосистему вокруг «объяснимого ИИ». LIME, SHAP, GradCAM — эти инструменты должны показывать, почему нейросеть приняла решение. Регуляторы требуют прозрачности, компании внедряют системы атрибуции признаков, врачи и судьи полагаются на эти объяснения при принятии критических решений.

Feature Attribution Stability Suite протестировал стабильность популярных методов объяснения на реальных задачах. Результат шокирует: одна и та же модель на одних данных генерирует кардинально разные объяснения в 60-80% случаев. SHAP показывает, что важен пиксель A, GradCAM утверждает — решающий фактор в зоне B. При этом предсказания модели остаются идентичными.

Проблема глубже случайности. Исследование выявило: методы атрибуции чувствительны к мельчайшим изменениям в архитектуре сети, порядке обучающих данных и даже версии библиотеки. То, что мы считаем «пониманием» решений ИИ, на деле — артефакт вычислительного процесса, не связанный с реальной логикой модели.