Учёные переворачивают ИИ наизнанку: данные важнее алгоритмов
Традиционный подход к машинному обучению строится на простой логике: чем больше параметров и данных, тем лучше результат. OpenAI потратила $100+ млн на обучение GPT-4, Google вложила миллиарды в PaLM. Индустрия убеждена: масштаб решает всё.
Но Stanford переворачивает эту логику. Исследователи показали, что проблема не в количестве данных, а в том, как мы их обрабатываем. Их score-based подход к ассимиляции данных в высоких размерностях работает принципиально иначе: вместо накачивания модели терабайтами информации, они учат её «понимать» структуру данных на фундаментальном уровне.
Результаты поражают: их метод достигает сопоставимого качества при использовании в 10-50 раз меньших вычислительных ресурсов. Секрет в переосмыслении forward processes — математических операций, которые определяют, как модель «видит» входящие данные. Они не просто обрабатывают больше информации, они обрабатывают её умнее.