Корпоративный ИИ тонет в собственных данных — и это фича

Сегодня • arXiv cs.AI

Компании вкладывают миллионы в RAG-системы, чтобы ИИ находил нужную информацию в корпоративных базах. Но новое исследование Stanford AI Lab обнаружило парадокс: 73% запросов проваливаются не из-за отсутствия данных, а из-за их переизбытка.

Общепринятая мудрость гласит: больше данных = умнее ИИ. Корпорации скармливают системам терабайты документов, презентаций и отчётов, ожидая, что LLM магически найдёт нужное. Venture-капитал течёт рекой в стартапы, обещающие превратить корпоративный хаос в структурированное знание.

Но исследователи Stanford обнаружили обратное. Анализ 50,000 корпоративных запросов показал: когда база знаний превышает 100GB, точность ответов падает на 40%. Причина — не в слабости алгоритмов, а в фундаментальной проблеме: ИИ находит слишком много релевантной информации и теряется в противоречиях.

Решение оказалось контринтуитивным. Вместо накачивания системы данными, команда создала фреймворк, который генерирует метаданные через LLM — по сути, учит ИИ забывать ненужное. Результат: точность выросла на 60%, а скорость обработки — на 300%. Компании-участники тестирования сократили время поиска с часов до минут.

Корпоративный ИИ тонет в собственных данных — и это фича

Читайте также