Inference Headroom Ratio: Почему ИИ-модели тихо ломаются под нагрузкой

Сегодня • arXiv cs.AI

Пока все обсуждают точность ИИ-моделей, исследователи обнаружили более тревожную проблему: модели теряют стабильность задолго до достижения технических лимитов. Новый Inference Headroom Ratio показывает, что у GPT-4 запас прочности составляет всего 23% от заявленной производительности.

Общепринятая мудрость гласит: если модель работает в лабораторных условиях, она будет работать и в продакшене. Компании хвастаются бенчмарками, где их ИИ показывает 95% точности, и все верят, что это означает надёжность. Инвесторы вкладывают миллиарды, основываясь на этих цифрах.

Но Inference Headroom Ratio переворачивает эту логику. Исследование показало, что модели начинают деградировать при 40-60% от максимальной нагрузки, а не при 90-95%, как ожидалось. Claude-3 демонстрирует стабильность только до 45% загрузки, после чего качество ответов падает экспоненциально. Это означает, что реальная производительность в 2-3 раза ниже заявленной.

Проблема не в железе — в самой архитектуре трансформеров. Attention-механизм создаёт каскадные сбои при высокой нагрузке, которые невозможно предсказать заранее. Компании это знают, но молчат, потому что признание означало бы пересмотр всех бизнес-планов и оценок стоимости.

Inference Headroom Ratio: Почему ИИ-модели тихо ломаются под нагрузкой

Читайте также