Забудь или найди: почему ИИ-модели выбирают невежество вместо знаний
Общепринятая мудрость гласит: увеличивай параметры модели, скармливай ей терабайты данных, и получишь супер-ИИ. Индустрия потратила миллиарды на этот подход. GPT-4 запомнил половину интернета, Claude — научные статьи, Gemini — мультимодальные данные.
Но новое исследование 'To Memorize or to Retrieve' переворачивает эту логику. Учёные сравнили два подхода: классическое обучение (запихнуть всё в параметры) и RAG-ориентированное (научить модель искать информацию в базах знаний). Результат шокирует: RAG-модели с в 10 раз меньшими параметрами обошли гигантов в задачах на фактическую точность.
Цифры говорят сами за себя: традиционная модель на 175B параметров потребляла 3.2 ТВт⋅ч энергии для обучения, а RAG-аналог на 17B параметров — всего 0.4 ТВт⋅ч при лучшей производительности. Оказывается, попытка запомнить всё приводит к 'катастрофическому забыванию' — модель путает факты, галлюцинирует и теряет актуальность знаний.