Пока ИИ требует миллиарды данных, студенты решили задачу тремя учителями

Сегодня • arXiv cs.AI
Весь ИИ-мир одержим масштабом: больше данных, больше параметров, больше вычислений. Но команда исследователей только что доказала обратное, создав систему, которая превосходит гигантские модели, имея в 100 раз меньше обучающих примеров.

Общепринятая мудрость гласит: для качественного автоматического реферирования нужны огромные датасеты. GPT-4 обучался на триллионах токенов, Claude — на сотнях миллиардов документов. Индустрия убеждена: больше данных = лучший результат. Особенно для сложных задач вроде создания аннотаций научных статей на редких языках.

Но исследователи из MIT и Stanford перевернули эту логику. Их Reliability Gated Multi-Teacher Distillation работает по принципу 'умных учителей вместо больших данных'. Система использует три специализированные модели-учителя, каждая из которых обучена на своём аспекте реферирования. Ключевой инсайт: надёжность важнее объёма. Алгоритм динамически выбирает, какому учителю доверять для каждого конкретного предложения, основываясь на метрике уверенности.

Результаты шокируют: на датасете XSum система достигла ROUGE-L 47.3, превзойдя модели в 50 раз большего размера. На научных статьях ScisummNet — 52.1 против 48.7 у базовой BART. При этом использовалось всего 3,000 обучающих примеров против стандартных 300,000. Секрет не в масштабе, а в архитектуре: система научилась извлекать максимум знаний из минимума данных.