Забудь или найди: почему ИИ-модели выбирают невежество вместо знаний

Сегодня • arXiv cs.AI
Все верят, что чем больше знаний запихнуть в ИИ-модель, тем она умнее. Но исследователи из Stanford обнаружили парадокс: модели, которые меньше запоминают и больше ищут информацию извне, работают в разы эффективнее.

Общепринятая мудрость гласит: увеличивай параметры модели, скармливай ей терабайты данных, и получишь супер-ИИ. Индустрия потратила миллиарды на этот подход. GPT-4 запомнил половину интернета, Claude — научные статьи, Gemini — мультимодальные данные.

Но новое исследование 'To Memorize or to Retrieve' переворачивает эту логику. Учёные сравнили два подхода: классическое обучение (запихнуть всё в параметры) и RAG-ориентированное (научить модель искать информацию в базах знаний). Результат шокирует: RAG-модели с в 10 раз меньшими параметрами обошли гигантов в задачах на фактическую точность.

Цифры говорят сами за себя: традиционная модель на 175B параметров потребляла 3.2 ТВт⋅ч энергии для обучения, а RAG-аналог на 17B параметров — всего 0.4 ТВт⋅ч при лучшей производительности. Оказывается, попытка запомнить всё приводит к 'катастрофическому забыванию' — модель путает факты, галлюцинирует и теряет актуальность знаний.