HoWToBench раскрыл неудобную правду: ИИ пишет как школьник-отличник

Сегодня • arXiv cs.CL
Исследователи создали HoWToBench — первый тест, который оценивает ИИ как настоящего писателя. Результаты шокируют: модели, которые мы считаем «творческими», на деле работают как ученики, заучившие правила сочинений.

Индустрия убеждает нас, что GPT-4 и Claude пишут почти как люди. Маркетологи показывают впечатляющие примеры: статьи, рассказы, сценарии. Инвесторы вкладывают миллиарды в стартапы, обещающие заменить копирайтеров и журналистов. Консенсус ясен: ИИ освоил искусство письма.

HoWToBench переворачивает эту картину. Бенчмарк использует «Дерево письма» — методологию, которая оценивает не финальный текст, а процесс его создания. Как автор планирует структуру? Как развивает идеи? Как адаптируется к аудитории? Результат: даже лучшие модели получают 23% от человеческого уровня в холистической оценке письма.

Проблема глубже стилистики. ИИ генерирует грамматически правильные тексты, но не понимает, зачем пишет. Он копирует паттерны из обучающих данных, создавая иллюзию понимания. Настоящее письмо требует намерения, контекста, эмпатии к читателю — того, что модели имитируют поверхностно.