ИИ умирает от голода: почему алгоритмы становятся заложниками плохих данных
Индустрия одержима масштабом: больше параметров, больше вычислений, больше GPU. OpenAI, Google, Anthropic соревнуются в размерах моделей, словно это гонка вооружений. Conventional wisdom прост: лучший ИИ = самый большой ИИ.
Но исследование Gartner показывает обратное: 80% времени data scientists тратят не на обучение моделей, а на поиск и очистку данных. В среднестатистической корпорации данные живут в 400+ разрозненных системах. ИИ-модель может иметь триллион параметров, но если она обучается на данных пятилетней давности из разных форматов — она бесполезна.
Вот Turn Frame: проблема ИИ не в 'искусственном интеллекте', а в 'естественной глупости' данных. Пока Tesla тратит миллиарды на чипы, её автопилот ошибается из-за того, что данные с камер не синхронизированы с данными радаров. Netflix рекомендует фильмы не потому, что у них лучший алгоритм, а потому что у них лучшая data fabric — единая ткань данных, где каждый клик связан с каждым просмотром в реальном времени.