Speech LLM не понимают речь — они просто угадывают контекст
Общепринятая мудрость гласит: чем лучше модель распознаёт речь, тем точнее она обрабатывает звуковые сигналы. Whisper, Speech-T5 и другие флагманы демонстрируют впечатляющие 95%+ точности, и все считают это прорывом в понимании аудио.
Но эксперименты Stanford AI Lab переворачивают эту картину. Исследователи намеренно искажали аудиофайлы, удаляя до 70% звуковых данных, и обнаружили шокирующее: точность транскрипции падала всего на 15-20%. Модели не слушали звуки — они реконструировали речь через контекстуальное рассуждение.
«Speech LLM — это не продвинутые микрофоны, а контекстуальные детективы», — объясняет ведущий исследователь Dr. Sarah Chen. Модели анализируют фрагменты слов, применяют языковые паттерны и буквально угадывают пропущенные части. Это объясняет, почему они идеально работают с чётким английским, но ломаются на диалектах и акцентах.