LLM+ не эволюция ИИ — это признание что трансформеры достигли потолка

Сегодня • MIT Technology Review AI

Каждую неделю появляется новая LLM+ модель с улучшенными возможностями. Но взгляд на патентные заявки последних 18 месяцев показывает тревожную картину: 89% инноваций касаются оптимизации трансформеров, и только 11% — принципиально новых архитектур.

Общепринятое мнение: LLM+ модели становятся умнее благодаря архитектурным улучшениям и новым подходам к обучению. Claude 3.5, GPT-4 Turbo, Gemini Ultra — каждый релиз преподносится как качественный скачок в понимании языка и рассуждениях.

Реальность выглядит иначе. Анализ MIT Technology Review показал: 94% прироста производительности современных LLM+ приходится на увеличение параметров и объёма данных. Архитектура трансформеров, предложенная Google в 2017 году, остаётся неизменной уже 7 лет. Anthropic потратила $2.4 млрд на обучение Claude, но использовала ту же базовую архитектуру, что и GPT-2.

Даже попытки выйти за рамки показательны. Mamba, RetNet, RWKV — альтернативные архитектуры, которые должны были заменить attention mechanism, застряли на уровне proof-of-concept. Venture-капитал течёт в стартапы, которые обещают 'следующее поколение ИИ', но в итоге строят более эффективные трансформеры. DeepMind's Gemini 2.0 — это 1.8 триллиона параметров той же архитектуры 2017 года.

Юридическая информация

※ Деятельность Meta Platforms Inc. (Facebook, Instagram) признана экстремистской и запрещена на территории Российской Федерации.

LLM+ не эволюция ИИ — это признание что трансформеры достигли потолка

Читайте также