CLIP научили понимать отрицания — но это обнажает фундаментальную слепоту ИИ
Отрасль привыкла измерять прогресс в ИИ сложными бенчмарками и миллиардами параметров. CLIP от OpenAI стал золотым стандартом для понимания изображений и текста, набирая впечатляющие 76.2% на ImageNet. Но есть нюанс: покажи ему картинку собаки с подписью «это НЕ кошка» — и модель запутается.
Omni-NegCLIP решает эту проблему через контрастивное обучение передних слоёв, повышая точность понимания отрицаний с 23% до 67%. Впечатляет? Только до тех пор, пока не осознаёшь: мы потратили годы на создание систем, которые не понимают базовую человеческую логику. Ребёнок к трём годам знает разницу между «есть печенье» и «нет печенья». ИИ-системы за триллионы долларов — нет.
Настоящая проблема не в том, что CLIP плохо работал с отрицаниями. Проблема в том, что никто не заметил этого до 2024 года. Мы строили замки из песка, восхищаясь архитектурой и игнорируя, что фундамент размывает первая же волна базовой логики.