Пока ИИ требует миллиарды данных, студенты решили задачу тремя учителями
Общепринятая мудрость гласит: для качественного автоматического реферирования нужны огромные датасеты. GPT-4 обучался на триллионах токенов, Claude — на сотнях миллиардов документов. Индустрия убеждена: больше данных = лучший результат. Особенно для сложных задач вроде создания аннотаций научных статей на редких языках.
Но исследователи из MIT и Stanford перевернули эту логику. Их Reliability Gated Multi-Teacher Distillation работает по принципу 'умных учителей вместо больших данных'. Система использует три специализированные модели-учителя, каждая из которых обучена на своём аспекте реферирования. Ключевой инсайт: надёжность важнее объёма. Алгоритм динамически выбирает, какому учителю доверять для каждого конкретного предложения, основываясь на метрике уверенности.
Результаты шокируют: на датасете XSum система достигла ROUGE-L 47.3, превзойдя модели в 50 раз большего размера. На научных статьях ScisummNet — 52.1 против 48.7 у базовой BART. При этом использовалось всего 3,000 обучающих примеров против стандартных 300,000. Секрет не в масштабе, а в архитектуре: система научилась извлекать максимум знаний из минимума данных.