ИИ учится забывать: почему мультимодальная память стала главной проблемой
Индустрия помешана на том, как научить ИИ понимать больше модальностей — текст плюс картинки, видео плюс аудио, всё сразу. Мультимодальные графы знаний стали святым Граалем: модель должна связывать информацию из разных источников и форматов. Venture-фонды вкладывают миллиарды в стартапы, обещающие «универсальный ИИ».
Но новое исследование «When Modalities Remember: Continual Learning for Multimodal Knowledge Graphs» раскрывает неудобную правду: проблема не в том, как научить ИИ новому, а в том, как заставить его не забывать старое. Каждый раз, когда мультимодальная модель изучает новую связь между изображением и текстом, она разрушает до 40% ранее изученных паттернов.
Это называется «катастрофическим забыванием», и для мультимодальных систем оно критично. Если обычная языковая модель может переучиться на новых текстах, то мультимодальная должна помнить, как связаны слова с картинками, звуки с видео, и тысячи других комбинаций. Исследователи обнаружили: существующие методы сохраняют лишь 23% кросс-модальных связей после обновления знаний.