Память убивает ИИ быстрее, чем мы думали — и никто об этом не говорит

Сегодня • arXiv cs.AI
Каждый день мы слышим о новых прорывах в ИИ и растущей мощности GPU. Но исследователи из Stanford обнаружили неудобную правду: 78% времени обработки современных LLM тратится не на вычисления, а на ожидание данных из памяти.

Индустрия ИИ живёт мифом о том, что производительность зависит от количества параметров и мощности процессоров. Nvidia продаёт H100 за $40,000, обещая революцию в скорости. Компании тратят миллиарды на дата-центры, набивая их самым быстрым железом.

Но новое исследование Stanford AI Lab переворачивает эту логику. Анализируя disaggregated LLM inference — архитектуру, где память и вычисления разнесены по разным узлам — учёные выяснили шокирующее: узкое место не в GPU, а в memory pipeline. Модели типа GPT-4 проводят большую часть времени в ожидании, пока нужные веса подгрузятся через сеть.

Цифры беспощадны: latency памяти составляет 200-500 микросекунд против 10 микросекунд на сами вычисления. Это как если бы Ferrari ехал со скоростью велосипеда из-за пробок. Исследователи предлагают радикальное решение: prefetching алгоритмы, которые предугадывают, какие части модели понадобятся следующими, сокращая ожидание на 60%.