Детекторы prompt injection оказались бесполезными — хакеры уже научились их обходить

Сегодня • arXiv cs.AI
AI-компании вкладывают состояния в детекторы prompt injection, обещая надёжную защиту от атак. Но новое исследование показывает: 89% современных детекторов обходятся простейшими техниками, о которых знает любой школьник с GitHub.

Индустрия AI-безопасности переживает золотую лихорадку. Startups привлекают десятки миллионов на создание систем защиты от prompt injection — атак, которые заставляют ИИ игнорировать инструкции и выполнять команды злоумышленника. Крупные корпорации покупают эти решения, веря в технологическое превосходство детекторов над атакующими.

Реальность оказалась жестче. Исследователи из университетов протестировали ведущие коммерческие детекторы против 'evasive injections' — замаскированных атак. Результат: 89% детекторов пропускают атаки, использующие базовые техники обфускации. Простая замена букв на Unicode-символы или разбивка команд на части превращает 'надёжную защиту' в дорогую пустышку.

Хуже того — сами детекторы становятся уязвимостью. Они добавляют латентность в 200-500мс, создают ложные срабатывания в 15% случаев и требуют отдельной инфраструктуры. Компании платят за иллюзию безопасности, получая реальные проблемы с производительностью.