Vision-Language модели научились сжимать изображения: теперь ИИ решает что видеть

Сегодня • arXiv cs.AI
Исследователи представили технологию Prompt-Guided Prefiltering для сжатия изображений в Vision-Language моделях. Казалось бы, ещё один шаг к оптимизации. Но в деталях алгоритма скрыт фундаментальный сдвиг: теперь ИИ не просто обрабатывает картинки — он решает, какие части реальности достойны внимания.

Традиционно сжатие изображений работает по принципу 'сохранить максимум информации в минимуме байт'. JPEG убирает детали, которые человеческий глаз не заметит. PNG сохраняет точность. Все алгоритмы нейтральны — они не знают, что изображено на картинке.

Prompt-Guided Prefiltering переворачивает эту логику. Система анализирует текстовый запрос, понимает контекст задачи, и сжимает изображение селективно — оставляя только те области, которые релевантны конкретному промпту. Машина смотрит на фото толпы и, получив запрос 'найди красные объекты', физически удаляет из сжатого файла информацию о синих и зелёных пикселях.

Эффективность впечатляет: коэффициент сжатия вырастает в 3-5 раз при сохранении точности выполнения задач. Но это означает, что Vision-Language модели начинают формировать собственную версию реальности ещё на этапе восприятия. Не после анализа — до него.