Open-source модели крадут ваши данные, пока вы их дообучаете
Корпорации массово переходят на self-hosted решения вроде Llama и Mistral именно из-за безопасности данных. Логика простая: модель крутится на ваших серверах, данные никуда не уходят, полный контроль. Именно поэтому 73% компаний из Fortune 500 выбрали локальный файн-тюнинг вместо OpenAI API.
Проблема в том, что сама архитектура трансформеров делает их уязвимыми к data extraction атакам. Исследователи из университета Карнеги-Меллон продемонстрировали: достаточно подсунуть специально подготовленные примеры в датасет, и модель начинает 'запоминать' и воспроизводить соседние тренировочные данные. Точность извлечения достигает 89% для текстов и 67% для структурированных данных.
Хуже того — атака работает даже при дифференциальной приватности и других защитных механизмах. Злоумышленнику нужен лишь доступ к финальным весам модели или возможность добавить свои примеры в тренировочный датасет. А учитывая, что большинство компаний берут готовые датасеты из открытых источников или от подрядчиков, барьер входа минимальный.