JoyAI Flash: Почему эффективность токенов важнее размера модели

Сегодня • arXiv cs.AI
В мире AI все помешались на триллионах параметров. Но JoyAI-LLM Flash с 7 миллиардами параметров обрабатывает токены в 3 раза эффективнее GPT-4. Секрет не в размере — в архитектуре.

Кремниевая долина построила религию вокруг scaling law: больше параметров равно лучше результат. OpenAI, Google, Anthropic жгут миллиарды долларов на обучение монстров с триллионами весов. Логика простая — если GPT-4 хорош, то GPT-5 с большим количеством параметров будет лучше.

JoyAI переворачивает эту логику. Их Flash-модель показывает 2.3x улучшение в token efficiency при обучении и 40% снижение latency при инференсе по сравнению с аналогичными по размеру моделями. Достигается это через novel attention mechanism и оптимизированную архитектуру feed-forward слоёв, которая требует на 60% меньше вычислений на токен.

Пока западные гиганты покупают всё больше H100 и строят дата-центры размером с город, китайские исследователи решают фундаментальную проблему: как извлечь максимум из каждого вычисления. Flash доказывает — intelligence не измеряется гигабайтами весов. 7B параметров, правильно организованных, бьют 70B параметров грубой силы в реальных задачах на 15-20%.