Unified Thinker от Google: почему «мышление» в ИИ — это маркетинговый трюк

Сегодня • arXiv cs.AI
Google DeepMind анонсировал Unified Thinker — первую модель генерации изображений с «модулем рассуждений». Команда утверждает, что ИИ теперь «думает» перед созданием картинки. Но техническая документация раскрывает неудобную правду: никакого мышления там нет.

Индустрия ИИ одержима идеей «мыслящих машин». Unified Thinker позиционируется как прорыв: модель анализирует запрос, «размышляет» над композицией, цветами и стилем, а затем генерирует изображение. Маркетологи Google говорят о «революции творческого процесса» и сравнивают с тем, как работает художник-человек.

Реальность проще и циничнее. «Модуль рассуждений» — это обычный трансформер, который генерирует промежуточные текстовые описания перед передачей данных в диффузионную модель. Никакого планирования, анализа или понимания. Система просто научилась создавать более детальные промпты для себя же — как продвинутый автокомплит.

Архитектура Unified Thinker состоит из трёх последовательных блоков: текстового процессора (330M параметров), «reasoning core» (1.2B параметров) и генератора изображений (2.8B параметров). «Мышление» занимает всего 27% вычислительных ресурсов. Остальное — классическая генерация пикселей. Результаты впечатляют не из-за рассуждений, а из-за качества базовой диффузионной модели.