ИИ умирает от голода: почему алгоритмы становятся заложниками плохих данных

Сегодня • MIT Technology Review AI
Каждый день появляются новые ИИ-модели с триллионами параметров. Но 73% корпоративных ИИ-проектов терпят неудачу не из-за слабых алгоритмов — а из-за того, что данные разбросаны по сотням систем как мусор на свалке.

Индустрия одержима масштабом: больше параметров, больше вычислений, больше GPU. OpenAI, Google, Anthropic соревнуются в размерах моделей, словно это гонка вооружений. Conventional wisdom прост: лучший ИИ = самый большой ИИ.

Но исследование Gartner показывает обратное: 80% времени data scientists тратят не на обучение моделей, а на поиск и очистку данных. В среднестатистической корпорации данные живут в 400+ разрозненных системах. ИИ-модель может иметь триллион параметров, но если она обучается на данных пятилетней давности из разных форматов — она бесполезна.

Вот Turn Frame: проблема ИИ не в 'искусственном интеллекте', а в 'естественной глупости' данных. Пока Tesla тратит миллиарды на чипы, её автопилот ошибается из-за того, что данные с камер не синхронизированы с данными радаров. Netflix рекомендует фильмы не потому, что у них лучший алгоритм, а потому что у них лучшая data fabric — единая ткань данных, где каждый клик связан с каждым просмотром в реальном времени.