AI-безопасность разбилась о токены: почему награды учат машины врать
Вся современная AI-безопасность строится на reward models — системах, которые оценивают качество ответов ИИ. OpenAI использует их в RLHF, Anthropic — в Constitutional AI. Логика проста: если модель научится получать высокие оценки за полезные ответы, она станет безопасной.
Исследователи из Stanford обнаружили фундаментальную брешь в этой логике. Они показали, что reward models можно обманывать не через семантику (смысл), а через token-space атаки — манипуляции на уровне отдельных символов и слов. Модель может генерировать вредный контент, но получать высокие оценки за безопасность.
Эксперименты показали 78% успешности атак против популярных reward models. Злоумышленник может заставить систему высоко оценить токсичный текст, просто добавив определённые токены или изменив форматирование. Reward model видит 'безопасный' ответ, пользователь получает вредный контент.