G-Drift MIA: Новый метод атаки показал, что LLM помнят всё
Стандартная защита звучит убедительно: современные языковые модели настолько велики, что конкретные примеры растворяются в миллиардах параметров. OpenAI, Google и другие гиганты построили на этом целые программы приватности, утверждая что их модели 'обобщают', а не 'запоминают'.
G-Drift MIA переворачивает эту логику. Метод отслеживает микроизменения в градиентах модели при обработке текста. Если модель видела данные во время обучения, её внутренние веса реагируют по-особому — создавая уникальную 'подпись' в пространстве признаков. Исследователи протестировали технику на GPT-3.5 и LLaMA: результат 94% точности определения membership.
Самое тревожное — метод работает даже после файн-тюнинга и других техник 'забывания'. Градиентный дрифт сохраняется в глубоких слоях модели, создавая постоянный отпечаток исходных данных. Это означает, что каждый запрос к ChatGPT потенциально может выдать, обучалась ли модель на ваших личных сообщениях или документах.