Математика ИИ: почему «умные» модели учатся на чужих ошибках
Классическое обучение с подкреплением строится на простой идее: агент взаимодействует со средой, получает награды и наказания, постепенно улучшая свою стратегию. Этот подход считается золотым стандартом для обучения ИИ сложным задачам, включая математическое рассуждение.
Но новое исследование Future Policy Approximation переворачивает эту логику. Вместо живого взаимодействия модель анализирует статичный датасет с примерами решений — включая неправильные. Ключевой инсайт: алгоритм не просто копирует успешные стратегии, а моделирует «будущую политику» — то, как бы действовал идеальный решатель, видя все эти примеры.
Результаты удивляют: на бенчмарках математического рассуждения offline-подход показал улучшения на 15-23% по сравнению с традиционным обучением с подкреплением. Модель научилась избегать типичных ловушек, изучив паттерны чужих ошибок, не повторяя их самостоятельно. Экономия вычислительных ресурсов составила 40%.