ИИ учится забывать: почему мультимодальная память стала главной проблемой

Сегодня • arXiv cs.CL

Каждый день ИИ-модели становятся умнее, обрабатывая текст, изображения и звук одновременно. Но есть грязный секрет: обучая их новому, мы стираем то, что они уже знали. И это не баг — это фундаментальная архитектурная проблема.

Индустрия помешана на том, как научить ИИ понимать больше модальностей — текст плюс картинки, видео плюс аудио, всё сразу. Мультимодальные графы знаний стали святым Граалем: модель должна связывать информацию из разных источников и форматов. Venture-фонды вкладывают миллиарды в стартапы, обещающие «универсальный ИИ».

Но новое исследование «When Modalities Remember: Continual Learning for Multimodal Knowledge Graphs» раскрывает неудобную правду: проблема не в том, как научить ИИ новому, а в том, как заставить его не забывать старое. Каждый раз, когда мультимодальная модель изучает новую связь между изображением и текстом, она разрушает до 40% ранее изученных паттернов.

Это называется «катастрофическим забыванием», и для мультимодальных систем оно критично. Если обычная языковая модель может переучиться на новых текстах, то мультимодальная должна помнить, как связаны слова с картинками, звуки с видео, и тысячи других комбинаций. Исследователи обнаружили: существующие методы сохраняют лишь 23% кросс-модальных связей после обновления знаний.

ИИ учится забывать: почему мультимодальная память стала главной проблемой

Читайте также