Математика ИИ: почему «умные» модели учатся на чужих ошибках

Сегодня • arXiv cs.CL
Пока все говорят о том, как ИИ должен учиться на собственном опыте, команда исследователей доказала обратное: лучшие результаты в математике получаются, когда модель изучает неудачные попытки других алгоритмов.

Классическое обучение с подкреплением строится на простой идее: агент взаимодействует со средой, получает награды и наказания, постепенно улучшая свою стратегию. Этот подход считается золотым стандартом для обучения ИИ сложным задачам, включая математическое рассуждение.

Но новое исследование Future Policy Approximation переворачивает эту логику. Вместо живого взаимодействия модель анализирует статичный датасет с примерами решений — включая неправильные. Ключевой инсайт: алгоритм не просто копирует успешные стратегии, а моделирует «будущую политику» — то, как бы действовал идеальный решатель, видя все эти примеры.

Результаты удивляют: на бенчмарках математического рассуждения offline-подход показал улучшения на 15-23% по сравнению с традиционным обучением с подкреплением. Модель научилась избегать типичных ловушек, изучив паттерны чужих ошибок, не повторяя их самостоятельно. Экономия вычислительных ресурсов составила 40%.