Локальное обучение с подкреплением: почему «умные» алгоритмы становятся близорукими

Сегодня • arXiv cs.AI
Исследователи из MIT представили Local Reinforcement Learning — метод, который учит ИИ принимать решения в ограниченном пространстве. Звучит как ограничение, но цифры говорят обратное: точность выросла на 34% при снижении вычислительных затрат в 8 раз.

Современное машинное обучение помешано на глобальной оптимизации. Алгоритмы пытаются учесть всё и сразу — каждое возможное действие, каждый сценарий, каждую переменную. Индустрия убеждена: чем шире охват, тем умнее система. Action-Conditioned Root Mean Squared Q-Functions — это математический аппарат для такого «всеобъемлющего» подхода.

Но что если глобальность — это ловушка? Новое исследование показывает: ИИ-системы работают эффективнее, когда фокусируются на локальных паттернах. Вместо анализа бесконечного пространства возможностей, алгоритм концентрируется на ограниченном наборе действий, релевантных текущему контексту. Результат — Q-функции, которые быстрее сходятся и точнее предсказывают.

Эксперименты на роботизированных задачах демонстрируют парадокс: ограничив «поле зрения» алгоритма до локального окружения, исследователи получили на 34% более точные решения. Время обучения сократилось с 48 до 6 часов. Причина проста: меньше шума, больше сигнала. Локальный контекст отсекает неактуальные данные, позволяя системе глубже понимать то, что действительно важно.