LLM-бандиты провалились: почему «умная» инициализация оказалась ловушкой
Логика казалась железной: раз большие языковые модели демонстрируют reasoning способности, почему бы не использовать их для «умной» инициализации алгоритмов многорукого бандита? Стартапы уже строят бизнес-модели на LLM-ускоренной оптимизации, а венчурные фонды вкладывают миллионы в «AI-native» решения для A/B тестирования и рекламных аукционов.
Но команда исследователей из Stanford и MIT обнаружила фундаментальный изъян. В работе «Jump Start or False Start?» они протестировали LLM-инициализацию на реальных задачах — от оптимизации гиперпараметров до рекомендательных систем. Результат шокирует: вместо ускорения алгоритмы показали regret на 23% выше базового уровня. Проблема в том, что LLM создают «уверенные» начальные оценки, которые направляют поиск в ложном направлении.
Исследование выявило парадокс: чем «умнее» инициализация от GPT-4, тем дольше алгоритм выбирается из неоптимальной траектории. Классический epsilon-greedy с случайной инициализацией обгоняет LLM-версии в 78% экспериментов. Причина проста — языковые модели оптимизированы для правдоподобности, а не для исследования пространства решений.