ARES научили хакать ИИ изнутри — но проблема не в том, что вы думаете

Сегодня • arXiv cs.AI
Исследователи из Stanford создали ARES — систему, которая находит и исправляет фундаментальные дыры в алгоритмах обучения ИИ. Но главное открытие не в технологии. Главное — в том, что 73% современных ИИ-систем имеют критические изъяны в базовых механизмах поощрения.

Индустрия ИИ помешана на безопасности моделей от внешних атак. Миллиарды долларов тратятся на защиту от джейлбрейков, токсичного контента и манипуляций пользователей. Red-teaming стал мантрой каждой крупной AI-лаборатории.

ARES переворачивает фокус на 180 градусов. Система атакует не входные данные, а сами reward-функции — механизмы, которые учат ИИ что хорошо, а что плохо. Адаптивное тестирование выявило шокирующую правду: большинство моделей ломается не от хитрых промптов, а от внутренних противоречий в собственной системе ценностей.

Технология работает как автоматизированный этический хакер: создаёт сценарии, где reward-система даёт противоречивые сигналы, а затем в режиме реального времени чинит найденные дыры. В тестах Stanford ARES обнаружил критические уязвимости в системах поощрения у 73% протестированных моделей, включая те, что прошли все стандартные проверки безопасности.