BAS: Почему уверенность ИИ стала его самой опасной слабостью
Индустрия ИИ строится на презумпции: чем больше модель, тем она надёжнее. Компании вкладывают миллиарды в параметры и вычислительные мощности, обещая более точные и уверенные ответы. Метрики уверенности стали золотым стандартом для оценки качества моделей.
BAS (Bayesian Approximation Scoring) переворачивает эту логику. Исследование показало парадокс уверенности: модели демонстрируют максимальную confidence именно в областях, где их знания наиболее поверхностны. GPT-4 показывает 94% уверенности в медицинских диагнозах, но точность составляет лишь 67%. Claude демонстрирует 89% confidence в правовых вопросах при 71% accuracy.
Проблема не в размере модели, а в архитектуре самооценки. BAS использует теорию решений для выявления 'слепых зон уверенности' — областей, где модель не знает, что она не знает. Результат: 73% критических ошибок происходят именно в зоне высокой уверенности модели.