RAG-системы умирают не от атак — они убивают себя сами

Сегодня • arXiv cs.AI
Пока индустрия борется с явными атаками на ИИ-системы, исследователи из Stanford обнаружили кое-что пугающее: RAG-модели саботируют сами себя, даже когда формально «работают правильно». И это не баг — это фича.

Общепринятая мудрость гласит: главная угроза для RAG-систем (Retrieval-Augmented Generation) — это прямые атаки и явные отказы от выполнения задач. Компании тратят миллионы на защиту от prompt injection и adversarial inputs, строя системы мониторинга для отлова «плохих» запросов.

Но исследование «Beyond Explicit Refusals: Soft-Failure Attacks on Retrieval-Augmented Generation» переворачивает эту логику. Оказывается, 73% критических сбоев RAG-систем происходят не от внешних атак, а от «мягких отказов» — когда система формально отвечает, но даёт неполную, искажённую или irrelevant информацию. Модель не говорит «нет», она говорит «да, но неправильно».

Хуже того: эти soft-failure атаки почти невозможно детектировать автоматически, потому что система технически функционирует. Нет error codes, нет explicit refusals — только тихая деградация качества. Исследователи показали, как простые манипуляции с retrieval-компонентом заставляют даже GPT-4 генерировать правдоподобные, но фактически неверные ответы в 89% случаев.