LLM-бандиты провалились: почему «умная» инициализация оказалась ловушкой

Сегодня • arXiv cs.AI
Все верят: если LLM умеет рассуждать, то должна улучшать любые алгоритмы. Новое исследование разбивает этот миф вдребезги. Оказывается, когда GPT инициализирует bandit-алгоритмы, они работают на 23% хуже традиционных методов.

Логика казалась железной: раз большие языковые модели демонстрируют reasoning способности, почему бы не использовать их для «умной» инициализации алгоритмов многорукого бандита? Стартапы уже строят бизнес-модели на LLM-ускоренной оптимизации, а венчурные фонды вкладывают миллионы в «AI-native» решения для A/B тестирования и рекламных аукционов.

Но команда исследователей из Stanford и MIT обнаружила фундаментальный изъян. В работе «Jump Start or False Start?» они протестировали LLM-инициализацию на реальных задачах — от оптимизации гиперпараметров до рекомендательных систем. Результат шокирует: вместо ускорения алгоритмы показали regret на 23% выше базового уровня. Проблема в том, что LLM создают «уверенные» начальные оценки, которые направляют поиск в ложном направлении.

Исследование выявило парадокс: чем «умнее» инициализация от GPT-4, тем дольше алгоритм выбирается из неоптимальной траектории. Классический epsilon-greedy с случайной инициализацией обгоняет LLM-версии в 78% экспериментов. Причина проста — языковые модели оптимизированы для правдоподобности, а не для исследования пространства решений.