Vision-Language модели научились сжимать изображения: теперь ИИ решает что видеть
Традиционно сжатие изображений работает по принципу 'сохранить максимум информации в минимуме байт'. JPEG убирает детали, которые человеческий глаз не заметит. PNG сохраняет точность. Все алгоритмы нейтральны — они не знают, что изображено на картинке.
Prompt-Guided Prefiltering переворачивает эту логику. Система анализирует текстовый запрос, понимает контекст задачи, и сжимает изображение селективно — оставляя только те области, которые релевантны конкретному промпту. Машина смотрит на фото толпы и, получив запрос 'найди красные объекты', физически удаляет из сжатого файла информацию о синих и зелёных пикселях.
Эффективность впечатляет: коэффициент сжатия вырастает в 3-5 раз при сохранении точности выполнения задач. Но это означает, что Vision-Language модели начинают формировать собственную версию реальности ещё на этапе восприятия. Не после анализа — до него.