ИИ научился пользоваться инструментами — и тут же начал врать себе

Сегодня • arXiv cs.CL

Большие языковые модели освоили калькуляторы, поисковики и базы данных. Казалось бы, эра точных ответов наступила. Но исследователи обнаружили парадокс: инструменты не устраняют галлюцинации — они делают их более изощрёнными и труднообнаружимыми.

Индустрия ИИ поставила на tool-использование как решение проблемы галлюцинаций. Логика проста: если GPT может проверить факт через Google или посчитать на калькуляторе, он не будет выдумывать ответы. OpenAI, Anthropic и Google интегрировали внешние инструменты в свои модели именно с этой целью.

Но исследование 'From Proof to Program' переворачивает эту логику. Учёные обнаружили новый тип галлюцинаций — 'reasoning hallucinations' — когда модель правильно использует инструмент, получает верные данные, но затем делает из них абсурдные выводы. Хуже того: наличие 'надёжного' источника делает такие ошибки убедительнее для пользователей.

В экспериментах модели получали точные данные от калькулятора, но интерпретировали их неверно в 23% случаев. При этом они демонстрировали высокую уверенность в своих выводах — ведь 'расчёты проверены'. Самое тревожное: стандартные методы детекции галлюцинаций не работают, когда исходные данные корректны.

ИИ научился пользоваться инструментами — и тут же начал врать себе

Читайте также