Синтетические данные для ИИ: почему «волшебная пилюля» оказалась плацебо

Сегодня • arXiv cs.AI
Синтетические данные должны были решить главную проблему ИИ — нехватку качественных обучающих примеров. Но исследователи из MIT обнаружили парадокс: чем больше синтетики, тем хуже результат. И дело не в данных.

Индустрия ИИ поставила на синтетические данные как на спасение от дефицита реальной информации. OpenAI, Google, Anthropic — все генерируют терабайты искусственных примеров для обучения моделей. Логика простая: если реальных данных мало, создадим фейковые. Рынок синтетических данных оценивается в $2.1 млрд и растёт на 23% в год.

Но новое исследование MIT переворачивает эту логику. Проблема не в качестве синтетических данных — проблема в том, что модели не умеют отслеживать их происхождение. Когда ИИ видит синтетический пример, он не знает, откуда тот взялся, и применяет те же паттерны обучения, что и к реальным данным. Результат: модель учится имитировать имитацию.

Исследователи предложили метод Provenance-Based Input Gradient Guidance — систему, которая помечает каждый синтетический пример 'родословной' и учит модель по-разному обрабатывать данные в зависимости от источника. В тестах точность выросла на 34% при том же объёме синтетических данных. Оказалось, дело не в количестве фейковых примеров, а в понимании их природы.