AWS запускает выделенные кластеры для обучения ИИ

Amazon Web Services объявила о запуске новой услуги Amazon SageMaker HyperPod, предлагающей выделенные кластеры для обучения больших языковых моделей и других ИИ-систем. Сервис предоставляет доступ к инфраструктуре с тысячами GPU и специализированных чипов AWS Trainium, способных масштабироваться до кластеров с более чем 20 000 ускорителей. AWS обещает сократить время настройки вычислительных кластеров с недель до минут, а также гарантирует автоматическое восстановление после сбоев без потери прогресса обучения. Компания заявляет, что новая платформа может снизить затраты на обучение моделей до 40% по сравнению с традиционными облачными решениями благодаря оптимизированному управлению ресурсами и устойчивости к отказам оборудования.

HyperPod решает одну из главных проблем разработчиков ИИ — нестабильность длительных процессов обучения. При тренировке крупных моделей, которая может занимать недели или месяцы, даже единичный отказ GPU способен откатить весь прогресс на дни назад. Новый сервис автоматически обнаруживает неисправные узлы, заменяет их и возобновляет обучение с последней контрольной точки, что особенно критично для моделей масштаба GPT-4 или Claude. AWS интегрировала в платформу инструменты для распределённого обучения, включая поддержку популярных фреймворков PyTorch FSDP и DeepSpeed, а также собственные оптимизации для чипов Trainium2. Клиенты получают гибкость в выборе между GPU NVIDIA H100, A100 или фирменными ускорителями Amazon, которые обещают лучшее соотношение цена-производительность для трансформерных архитектур.

Запуск HyperPod сигнализирует о стратегическом сдвиге в конкуренции облачных провайдеров: если раньше они боролись за клиентов inference-сервисами, теперь фокус смещается на захват рынка обучения моделей — гораздо более прибыльного сегмента. AWS фактически создаёт экосистему, где компании могут полностью полагаться на инфраструктуру Amazon от обучения до развёртывания, что усиливает vendor lock-in. Интересно, что AWS особо подчёркивает поддержку собственных чипов Trainium — это попытка снизить зависимость от NVIDIA и переманить клиентов более низкими ценами. Если AWS удастся доказать сопоставимую производительность своих ускорителей, это может серьёзно изменить расстановку сил на рынке AI-железа, где NVIDIA пока удерживает более 90% доли рынка.