CLIP научили видеть геометрию: почему это убивает человеческое преимущество в дизайне

Сегодня • arXiv cs.AI
Пока все обсуждают ChatGPT и генерацию текста, исследователи тихо решили главную проблему машинного зрения. CLIP теперь понимает не просто 'что' на картинке, но 'где' и 'как расположено'. Архитекторы и дизайнеры, у нас плохие новости.

Общепринятая мудрость гласит: ИИ хорош в распознавании объектов, но плох в понимании пространственных отношений. Именно поэтому дизайнеры, архитекторы и художники чувствовали себя в безопасности — машины видят 'кота' и 'диван', но не понимают, что кот лежит НА диване, а не под ним.

Новый Geometry-Aware CLIP переворачивает эту логику. Алгоритм использует локальное кросс-модальное выравнивание, чтобы понимать геометрические связи между объектами с точностью 94% — это уровень профессионального дизайнера. Система анализирует не только сами объекты, но и их взаимное расположение, масштаб, перспективу.

Но настоящий прорыв — в 'steering' механизме. ИИ может не просто описать композицию, но и предложить её улучшение, понимая принципы золотого сечения, баланса и визуального веса. В тестах на архитектурных проектах система превзошла 73% профессиональных дизайнеров в оценке пространственной гармонии.