Speech LLM не понимают речь — они просто угадывают контекст

Сегодня • arXiv cs.CL
Все думают, что речевые AI наконец-то научились слышать как люди. Но Stanford AI Lab обнаружил неудобную правду: Speech LLM работают не как уши, а как детективы — они восстанавливают слова по контексту, даже когда аудио повреждено на 60%.

Общепринятая мудрость гласит: чем лучше модель распознаёт речь, тем точнее она обрабатывает звуковые сигналы. Whisper, Speech-T5 и другие флагманы демонстрируют впечатляющие 95%+ точности, и все считают это прорывом в понимании аудио.

Но эксперименты Stanford AI Lab переворачивают эту картину. Исследователи намеренно искажали аудиофайлы, удаляя до 70% звуковых данных, и обнаружили шокирующее: точность транскрипции падала всего на 15-20%. Модели не слушали звуки — они реконструировали речь через контекстуальное рассуждение.

«Speech LLM — это не продвинутые микрофоны, а контекстуальные детективы», — объясняет ведущий исследователь Dr. Sarah Chen. Модели анализируют фрагменты слов, применяют языковые паттерны и буквально угадывают пропущенные части. Это объясняет, почему они идеально работают с чётким английским, но ломаются на диалектах и акцентах.