LLM убивают Data Engineering: почему автоматизация обработки данных — ловушка

Сегодня • arXiv cs.CL
Data engineers по всему миру празднуют: LLM теперь могут заменить многоступенчатую сборку пайплайнов обработки данных одной командой. Но за этим прорывом скрывается неудобная правда о том, куда движется индустрия данных.

Традиционно подготовка данных для анализа таблиц требовала от инженеров создания сложных многоэтапных пайплайнов: очистка, нормализация, агрегация, валидация. Каждый этап — отдельный код, отдельное тестирование, отдельная точка отказа. Новое исследование показывает: LLM справляются с этой задачей в одну команду, генерируя весь пайплайн автоматически.

Но вот парадокс: чем проще становится обработка данных, тем менее контролируемой она становится. LLM-генерированные пайплайны работают как чёрные ящики — никто не понимает, почему модель приняла то или иное решение по очистке данных. В исследовании 34% сгенерированных пайплайнов содержали скрытые ошибки, которые обнаруживались только через недели использования.

Ещё хуже: компании начинают увольнять data engineers, полагаясь на 'магию' LLM. Результат предсказуем — критические системы строятся на фундаменте, который никто не может отладить или модифицировать. Автоматизация превращается из решения в зависимость.