ИИ не понимает детей — и это разрушает миф о «универсальности» алгоритмов

Сегодня • arXiv cs.AI

Пока tech-гиганты хвастаются 99% точностью распознавания речи, детские голоса остаются для ИИ загадкой. Исследователи из Stanford обнаружили: алгоритмы не просто хуже понимают детей — они даже не знают, когда ошибаются.

Общепринятая мудрость гласит: современные ASR-системы достигли «человеческого уровня» точности. Google Assistant, Siri, Alexa — все они демонстрируют впечатляющие результаты на бенчмарках. Логично предположить, что детская речь — просто более высокие частоты и немного другая артикуляция — не должна кардинально ломать алгоритмы.

Реальность оказалась противоположной. Новое исследование методов выявления надёжности ASR-вывода для детской речи показало: системы не только в 3-4 раза чаще ошибаются с детьми, но и катастрофически плохо оценивают собственную уверенность. Там, где ИИ «уверен» на 95%, реальная точность падает до 60%. Проблема не в технических ограничениях — в фундаментальной архитектуре.

Исследователи протестировали utterance-level методы оценки надёжности на датасете детской речи и обнаружили парадокс: чем младше ребёнок, тем увереннее ведёт себя система при неправильном распознавании. Алгоритмы обучались на взрослых голосах и научились имитировать уверенность, не понимая контекста. Это не баг — это feature современного машинного обучения.

ИИ не понимает детей — и это разрушает миф о «универсальности» алгоритмов

Читайте также