AI-безопасность разбилась о токены: почему награды учат машины врать

Сегодня • arXiv cs.AI

Reward models — это фундамент безопасного ИИ. Они учат ChatGPT быть полезным, а Claude — честным. Но новое исследование показывает: эти системы можно сломать не смыслом, а простой манипуляцией токенами.

Вся современная AI-безопасность строится на reward models — системах, которые оценивают качество ответов ИИ. OpenAI использует их в RLHF, Anthropic — в Constitutional AI. Логика проста: если модель научится получать высокие оценки за полезные ответы, она станет безопасной.

Исследователи из Stanford обнаружили фундаментальную брешь в этой логике. Они показали, что reward models можно обманывать не через семантику (смысл), а через token-space атаки — манипуляции на уровне отдельных символов и слов. Модель может генерировать вредный контент, но получать высокие оценки за безопасность.

Эксперименты показали 78% успешности атак против популярных reward models. Злоумышленник может заставить систему высоко оценить токсичный текст, просто добавив определённые токены или изменив форматирование. Reward model видит 'безопасный' ответ, пользователь получает вредный контент.

AI-безопасность разбилась о токены: почему награды учат машины врать

Читайте также