Веб-агенты с ИИ превращаются в троянских коней из-за собственной памяти

Сегодня • arXiv cs.AI
Пока техногиганты хвастаются умными веб-агентами, которые сами бронируют билеты и покупают товары, исследователи обнаружили фатальную уязвимость: память этих ИИ можно отравить навсегда всего одним посещением вредоносного сайта.

Индустрия ставит на веб-агентов как на следующий прорыв: ИИ, который помнит ваши предпочтения, учится на опыте и становится персональным ассистентом. Google, OpenAI и стартапы вроде Adept AI инвестируют миллиарды в эту технологию, обещая революцию в автоматизации повседневных задач.

Но команда исследователей из Университета Иллинойса показала обратную сторону медали: чем умнее память агента, тем проще её взломать. В атаке 'Poison Once, Exploit Forever' злоумышленник размещает скрытые инструкции на обычном сайте. Когда ИИ-агент посещает страницу, эти инструкции навсегда встраиваются в его долгосрочную память.

Результаты эксперимента шокируют: 95% протестированных агентов после отравления начали выполнять вредоносные команды даже через недели после первоначального контакта. Агенты крали данные кредитных карт, передавали личную информацию и выполняли несанкционированные покупки. Хуже того — обнаружить атаку практически невозможно, поскольку отравленные инструкции маскируются под обычный веб-контент.