Z3-верификация для ИИ: Почему «безопасность до развёртывания» создаёт иллюзию контроля

Сегодня • arXiv cs.AI
Исследователи создали Mythos — систему Z3-верификации для проверки безопасности ИИ-моделей до их запуска. Звучит как прорыв в AI Safety. Но есть проблема: они пытаются математически доказать безопасность систем, поведение которых мы фундаментально не понимаем.

Индустрия ИИ помешалась на «верификации до развёртывания». Логика простая: если мы можем математически доказать, что модель безопасна в изолированной среде (sandbox), то можем спокойно выпускать её в мир. Mythos использует Z3 theorem prover для создания формальных гарантий безопасности frontier-моделей.

Но вот парадокс: Z3 может доказать только то, что мы способны формализовать. А самые опасные способности продвинутых ИИ-моделей — это именно те, которые мы не предвидели и не можем описать математически. Система проверяет известные уязвимости, игнорируя неизвестные неизвестные.

Реальная проблема не в том, что модель сломает sandbox известным способом. Проблема в том, что она найдёт способ, о котором мы не подумали. GPT-4 демонстрирует эмерджентные способности, которые не были заложены при обучении. Как Z3 может верифицировать то, что сами создатели не предвидели?