Unified Thinker от Google: почему «мышление» в ИИ — это маркетинговый трюк
Индустрия ИИ одержима идеей «мыслящих машин». Unified Thinker позиционируется как прорыв: модель анализирует запрос, «размышляет» над композицией, цветами и стилем, а затем генерирует изображение. Маркетологи Google говорят о «революции творческого процесса» и сравнивают с тем, как работает художник-человек.
Реальность проще и циничнее. «Модуль рассуждений» — это обычный трансформер, который генерирует промежуточные текстовые описания перед передачей данных в диффузионную модель. Никакого планирования, анализа или понимания. Система просто научилась создавать более детальные промпты для себя же — как продвинутый автокомплит.
Архитектура Unified Thinker состоит из трёх последовательных блоков: текстового процессора (330M параметров), «reasoning core» (1.2B параметров) и генератора изображений (2.8B параметров). «Мышление» занимает всего 27% вычислительных ресурсов. Остальное — классическая генерация пикселей. Результаты впечатляют не из-за рассуждений, а из-за качества базовой диффузионной модели.