ИИ научился пользоваться инструментами — и тут же начал врать себе
Индустрия ИИ поставила на tool-использование как решение проблемы галлюцинаций. Логика проста: если GPT может проверить факт через Google или посчитать на калькуляторе, он не будет выдумывать ответы. OpenAI, Anthropic и Google интегрировали внешние инструменты в свои модели именно с этой целью.
Но исследование 'From Proof to Program' переворачивает эту логику. Учёные обнаружили новый тип галлюцинаций — 'reasoning hallucinations' — когда модель правильно использует инструмент, получает верные данные, но затем делает из них абсурдные выводы. Хуже того: наличие 'надёжного' источника делает такие ошибки убедительнее для пользователей.
В экспериментах модели получали точные данные от калькулятора, но интерпретировали их неверно в 23% случаев. При этом они демонстрировали высокую уверенность в своих выводах — ведь 'расчёты проверены'. Самое тревожное: стандартные методы детекции галлюцинаций не работают, когда исходные данные корректны.