Китайские рецензенты изобрели язык, который обманывает любую AI-модерацию

Сегодня • arXiv cs.CL
«Газета съедобна» означает «невкусно». «Учитель танцев» — «мошенник». Китайские пользователи создали систему кодированных отзывов, которая делает бесполезными все алгоритмы модерации сразу. И это только начало.

Индустрия контент-модерации построена на простой идее: AI может распознать негативные отзывы и токсичность лучше людей. Meta тратит $13 млрд в год, TikTok — $4 млрд, Google — $8 млрд. Все верят, что достаточно натренировать модель на большем количестве данных.

⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации.

Исследование Стэнфорда разбивает эту иллюзию в пух и прах. Китайские пользователи массово используют «coded language» — систему метафор, которая полностью обходит AI-детекцию. «Newspaper eat» (газета съедобна) = плохая еда, «dance teacher» (учитель танцев) = обманщик, «electrical appliance» (электроприбор) = некачественный товар. Точность распознавания упала с 89% до 23%.

Но главная проблема не в конкретных кодах — их можно выучить. Проблема в том, что пользователи создают новые метафоры быстрее, чем AI успевает их понять. Это не техническая задача, это социальная эволюция в реальном времени. Каждый день рождаются десятки новых кодированных значений.

Исследователи протестировали лучшие языковые модели — GPT-4, Claude, китайские Ernie и Qwen. Результат одинаковый: все проваливаются. Даже когда модели знают о существовании кодов, они не могут угнаться за скоростью их эволюции.