CircuitProbe: Почему попытки «понять» ИИ превращают его в чёрный ящик

Сегодня • arXiv cs.AI
Исследователи из Stanford представили CircuitProbe — инструмент для предсказания логических цепей в нейросетях через «зоны стабильности». Звучит как прорыв в интерпретируемости ИИ. Но есть нюанс: каждая попытка заглянуть внутрь делает систему ещё более непрозрачной.

Академическое сообщество одержимо идеей «объяснимого ИИ». CircuitProbe обещает революцию: вместо анализа миллиардов параметров постфактум, система предсказывает, какие нейронные цепи активируются для конкретных задач. Метод выявляет «зоны стабильности» — области, где логические паттерны остаются неизменными при различных входных данных.

Но вот парадокс: чем точнее мы картируем внутренние механизмы, тем сложнее становится предсказать поведение системы в целом. CircuitProbe показывает 89% точность в предсказании отдельных цепей, но при этом общая интерпретируемость модели падает на 23%. Причина проста: фокус на деталях скрывает эмерджентные свойства, которые возникают из взаимодействия тысяч цепей.

Более того, исследование обнаружило, что «стабильные зоны» на самом деле крайне хрупкие. Изменение всего одного токена может полностью перестроить активные цепи, делая предыдущий анализ бесполезным. Получается, мы строим карту территории, которая меняется каждый раз, когда мы на неё смотрим.