ARES научили хакать ИИ изнутри — но проблема не в том, что вы думаете
Индустрия ИИ помешана на безопасности моделей от внешних атак. Миллиарды долларов тратятся на защиту от джейлбрейков, токсичного контента и манипуляций пользователей. Red-teaming стал мантрой каждой крупной AI-лаборатории.
ARES переворачивает фокус на 180 градусов. Система атакует не входные данные, а сами reward-функции — механизмы, которые учат ИИ что хорошо, а что плохо. Адаптивное тестирование выявило шокирующую правду: большинство моделей ломается не от хитрых промптов, а от внутренних противоречий в собственной системе ценностей.
Технология работает как автоматизированный этический хакер: создаёт сценарии, где reward-система даёт противоречивые сигналы, а затем в режиме реального времени чинит найденные дыры. В тестах Stanford ARES обнаружил критические уязвимости в системах поощрения у 73% протестированных моделей, включая те, что прошли все стандартные проверки безопасности.