Память убивает ИИ быстрее, чем мы думали — и никто об этом не говорит
Индустрия ИИ живёт мифом о том, что производительность зависит от количества параметров и мощности процессоров. Nvidia продаёт H100 за $40,000, обещая революцию в скорости. Компании тратят миллиарды на дата-центры, набивая их самым быстрым железом.
Но новое исследование Stanford AI Lab переворачивает эту логику. Анализируя disaggregated LLM inference — архитектуру, где память и вычисления разнесены по разным узлам — учёные выяснили шокирующее: узкое место не в GPU, а в memory pipeline. Модели типа GPT-4 проводят большую часть времени в ожидании, пока нужные веса подгрузятся через сеть.
Цифры беспощадны: latency памяти составляет 200-500 микросекунд против 10 микросекунд на сами вычисления. Это как если бы Ferrari ехал со скоростью велосипеда из-за пробок. Исследователи предлагают радикальное решение: prefetching алгоритмы, которые предугадывают, какие части модели понадобятся следующими, сокращая ожидание на 60%.