LayerTracer разоблачил: ИИ-модели ломаются не там, где думают все

Сегодня • arXiv cs.AI

Пока все ищут проблемы ИИ в токсичных данных и предвзятости, исследователи нашли настоящую бомбу замедленного действия: 73% критических сбоев происходят в промежуточных слоях нейросетей, которые никто не проверяет.

Индустрия потратила миллиарды на очистку данных и борьбу с bias в обучающих датасетах. Google, OpenAI и Meta наняли армии модераторов, создали сложные фильтры контента и разработали техники Constitutional AI. Логика проста: плохие данные на входе = плохие результаты на выходе.

⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации. ⚖️ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации.

LayerTracer переворачивает эту картину. Фреймворк анализирует не входные данные, а внутренние слои архитектуры нейросетей — и находит уязвимости там, где их не искал никто. Оказывается, модели ломаются не из-за 'токсичного' контента, а из-за того, как информация трансформируется между слоями. Исследование 47 популярных LLM показало: даже на 'чистых' данных модели генерируют опасный контент, если определённые слои получают неожиданные паттерны активации.

Самое тревожное: эти уязвимости нельзя исправить постобработкой или файн-тюнингом. Они заложены в самой архитектуре. LayerTracer выявил, что модели с transformer-архитектурой имеют 'слепые зоны' в attention-механизмах, где контекст искажается непредсказуемым образом. Это объясняет, почему даже самые продвинутые системы безопасности ИИ периодически дают сбои.

Юридическая информация

※ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации.

LayerTracer разоблачил: ИИ-модели ломаются не там, где думают все

Читайте также