Мультимодальные LLM: почему адаптация к речи обнажает архитектурный тупик

Сегодня • arXiv cs.CL
Исследователи из Stanford создали технологию адаптации текстовых LLM к речи через «мультимодальное масштабирование глубины». Звучит как прорыв. Но их результаты случайно доказали обратное: текстовые модели настолько узко заточены, что превращение их в мультимодальные требует архитектурной хирургии.

Conventional wisdom гласит: возьми мощную текстовую модель типа GPT-4, добавь аудио-энкодер, дообучи — получишь речевую модель. Индустрия строит на этом целые продуктовые линейки, от голосовых ассистентов до транскрибаторов.

Но Stanford Depth Up-Scaling раскрывает неудобную правду: для работы с речью исследователям пришлось не просто «добавить» слои, а кардинально перестроить архитектуру. Метод увеличивает глубину сети в 2.3 раза и требует переобучения 67% параметров. Это не адаптация — это создание новой модели с нуля.

Цифры ещё красноречивее: качество понимания речи выросло на 34% по сравнению с простым файн-тюнингом, но энергопотребление увеличилось в 4.1 раза. Получается, текстовые LLM изначально настолько плохо подходят для мультимодальности, что их «адаптация» обходится дороже создания специализированной модели.