G-Drift MIA: Новый метод атаки показал, что LLM помнят всё

Сегодня • arXiv cs.AI
Компании уверяют, что LLM не запоминают персональные данные из тренировочных наборов. Но новое исследование G-Drift MIA разрушает эту иллюзию: через анализ градиентов можно определить, видела ли модель конкретный текст с точностью 94%.

Стандартная защита звучит убедительно: современные языковые модели настолько велики, что конкретные примеры растворяются в миллиардах параметров. OpenAI, Google и другие гиганты построили на этом целые программы приватности, утверждая что их модели 'обобщают', а не 'запоминают'.

G-Drift MIA переворачивает эту логику. Метод отслеживает микроизменения в градиентах модели при обработке текста. Если модель видела данные во время обучения, её внутренние веса реагируют по-особому — создавая уникальную 'подпись' в пространстве признаков. Исследователи протестировали технику на GPT-3.5 и LLaMA: результат 94% точности определения membership.

Самое тревожное — метод работает даже после файн-тюнинга и других техник 'забывания'. Градиентный дрифт сохраняется в глубоких слоях модели, создавая постоянный отпечаток исходных данных. Это означает, что каждый запрос к ChatGPT потенциально может выдать, обучалась ли модель на ваших личных сообщениях или документах.