Мультимодальные LLM: почему адаптация к речи обнажает архитектурный тупик
Conventional wisdom гласит: возьми мощную текстовую модель типа GPT-4, добавь аудио-энкодер, дообучи — получишь речевую модель. Индустрия строит на этом целые продуктовые линейки, от голосовых ассистентов до транскрибаторов.
Но Stanford Depth Up-Scaling раскрывает неудобную правду: для работы с речью исследователям пришлось не просто «добавить» слои, а кардинально перестроить архитектуру. Метод увеличивает глубину сети в 2.3 раза и требует переобучения 67% параметров. Это не адаптация — это создание новой модели с нуля.
Цифры ещё красноречивее: качество понимания речи выросло на 34% по сравнению с простым файн-тюнингом, но энергопотребление увеличилось в 4.1 раза. Получается, текстовые LLM изначально настолько плохо подходят для мультимодальности, что их «адаптация» обходится дороже создания специализированной модели.