ИИ не знает, что он не знает — и это меняет всё

Сегодня • arXiv cs.AI
ChatGPT уверенно врёт, Claude галлюцинирует с апломбом, а Gemini выдумывает факты без тени сомнения. Все списывали это на технические недоработки. Новое исследование показывает: проблема глубже — ИИ физически не способен понять границы своих знаний.

Общепринятая мудрость гласит: ИИ-модели станут надёжнее, когда научатся лучше обрабатывать информацию. Индустрия вкладывает миллиарды в увеличение параметров и вычислительных мощностей, полагая, что масштаб решит проблему галлюцинаций и ложной уверенности.

Исследование MIT и Stanford переворачивает эту логику. Учёные разработали методы измерения метапознания — способности ИИ оценивать достоверность собственных ответов. Результат шокирует: современные модели демонстрируют нулевую корреляцию между уверенностью в ответе и его правильностью. GPT-4 с одинаковой убедительностью утверждает, что 2+2=4 и что Наполеон изобрёл интернет.

Это объясняет череду недавних провалов: от юридических галлюцинаций ChatGPT до медицинских ошибок Claude. Проблема не в нехватке данных или вычислений — модели принципиально не понимают разницу между знанием и догадкой. Они оптимизированы на правдоподобие, а не на истину.