CLIP научили понимать отрицания — но это обнажает фундаментальную слепоту ИИ

Сегодня • arXiv cs.AI

Исследователи из Университета Торонто создали Omni-NegCLIP — модель, которая наконец понимает отрицания в тексте. Звучит как прорыв, но копнув глубже, обнаруживаешь тревожную правду: мы празднуем то, что ИИ научился понимать логику пятилетнего ребёнка.

Отрасль привыкла измерять прогресс в ИИ сложными бенчмарками и миллиардами параметров. CLIP от OpenAI стал золотым стандартом для понимания изображений и текста, набирая впечатляющие 76.2% на ImageNet. Но есть нюанс: покажи ему картинку собаки с подписью «это НЕ кошка» — и модель запутается.

Omni-NegCLIP решает эту проблему через контрастивное обучение передних слоёв, повышая точность понимания отрицаний с 23% до 67%. Впечатляет? Только до тех пор, пока не осознаёшь: мы потратили годы на создание систем, которые не понимают базовую человеческую логику. Ребёнок к трём годам знает разницу между «есть печенье» и «нет печенья». ИИ-системы за триллионы долларов — нет.

Настоящая проблема не в том, что CLIP плохо работал с отрицаниями. Проблема в том, что никто не заметил этого до 2024 года. Мы строили замки из песка, восхищаясь архитектурой и игнорируя, что фундамент размывает первая же волна базовой логики.

CLIP научили понимать отрицания — но это обнажает фундаментальную слепоту ИИ

Читайте также