NVIDIA представила результаты тестирования своего нового ускорителя H200 Tensor Core GPU, который продемонстрировал впечатляющий прирост производительности в задачах машинного обучения. Согласно данным MLPerf Training v4.1 — индустриального бенчмарка для оценки систем ИИ — H200 показал ускорение до 45% по сравнению с предыдущим поколением H100 в некоторых рабочих нагрузках. Особенно заметные результаты были достигнуты при обучении больших языковых моделей на базе GPT-3: система из восьми GPU H200 справилась с задачей на 18% быстрее своего предшественника. Также компания сообщила, что суперкомпьютер на базе 11 616 H200 установил абсолютный рекорд, обучив модель с 175 миллиардами параметров всего за 3,5 минуты.
Ключевым отличием H200 от H100 стало увеличение объема высокоскоростной памяти HBM3e до 141 ГБ против 80 ГБ у предшественника, а также повышение пропускной способности до 4,8 ТБ/с. Эти улучшения критически важны для обработки масштабных датасетов и работы с моделями, требующими большого объема оперативных данных. В тестах использовались различные архитектуры — от компьютерного зрения до рекомендательных систем и генеративных моделей. NVIDIA отмечает, что благодаря оптимизации программного стека и улучшенной энергоэффективности, H200 демонстрирует лучшее соотношение производительности к энергопотреблению, что особенно важно для крупных дата-центров, где расходы на электричество и охлаждение составляют значительную часть операционных затрат.
Появление H200 происходит в момент, когда индустрия сталкивается с парадоксальной ситуацией: несмотря на растущий спрос на вычислительные мощности для ИИ, многие компании начинают более критично оценивать рентабельность своих инвестиций в инфраструктуру. Увеличение скорости обучения не просто сокращает время до получения результата — это принципиально меняет экономику разработки моделей, позволяя проводить больше экспериментов при том же бюджете. Более того, возможность обучать модели быстрее открывает путь к более частым итерациям и потенциально к качественно новым подходам в архитектуре нейросетей, где скорость эксперимента становится конкурентным преимуществом не меньшим, чем сам алгоритм.