TR-ICRL: Почему ИИ учится думать заново каждый раз с нуля
Общепринятая мудрость гласит: современный ИИ умеет адаптироваться к новым задачам прямо во время работы благодаря in-context learning. Дай модели несколько примеров, и она поймёт паттерн. Именно на этом строится весь хайп вокруг GPT и аналогов — способность решать задачи без дополнительного обучения.
TR-ICRL переворачивает эту картину. Исследователи показали: то, что мы принимаем за обучение, на самом деле — постоянное переосмысление одной и той же информации. Модель не накапливает знания, а каждый раз заново анализирует весь контекст. Это как студент, который для каждого нового примера по математике перечитывает учебник с первой страницы.
Алгоритм TR-ICRL решает эту проблему через 'test-time rethinking' — систему, которая позволяет модели действительно обучаться на промежуточных результатах. В экспериментах с задачами reinforcement learning производительность выросла на 40-60% по сравнению с традиционными подходами. Но главное не цифры, а принцип: впервые ИИ получил возможность думать поверх своих предыдущих мыслей, а не вместо них.