Gemini 2.0 превзошёл GPT-4 в тестах на логическое мышление

Google представила обновлённую версию своей языковой модели Gemini 2.0, которая продемонстрировала значительное превосходство над GPT-4 в задачах на логическое мышление. Согласно внутреннему тестированию компании, новая модель показала результат 89,7% в бенчмарке GPQA (Graduate-Level Google-Proof Q&A), предназначенном для оценки способности решать сложные академические задачи, в то время как GPT-4 достигает 78,5%. В тесте MMLU-Pro (Massive Multitask Language Understanding Professional) Gemini 2.0 набрал 92,3% против 86,7% у конкурента от OpenAI. Особенно впечатляющих результатов модель добилась в математических рассуждениях: в бенчмарке MATH она решила 91,4% задач продвинутого уровня, что на 12 процентных пунктов выше показателя GPT-4.

Ключевым нововведением стала усовершенствованная архитектура обработки многошаговых рассуждений, которая позволяет модели выстраивать более длинные цепочки логических выводов без потери точности. Google применила технику «древовидного поиска решений», при которой модель одновременно исследует несколько возможных путей рассуждения и выбирает наиболее перспективный. Разработчики также увеличили контекстное окно до 2 миллионов токенов в экспериментальной версии, что позволяет модели учитывать больше информации при формулировании ответов. Gemini 2.0 прошёл обучение на специализированном датасете, включающем научные публикации, математические доказательства и философские трактаты, что существенно улучшило её способность к абстрактному мышлению.

Этот прорыв может сигнализировать о наступлении новой фазы в развитии больших языковых моделей, где преимущество получают не просто системы с большим количеством параметров, а архитектуры, специально оптимизированные под конкретные когнитивные задачи. Интересно, что улучшение логических способностей коррелирует с ростом энергоэффективности: Google заявляет, что Gemini 2.0 потребляет на 30% меньше вычислительных ресурсов на один запрос по сравнению с предыдущей версией. Это развенчивает распространённое мнение о том, что повышение интеллектуальных возможностей ИИ неизбежно требует пропорционального роста энергозатрат, и намекает на возможность создания более «умных», но при этом экологичных моделей в будущем.