Латынь побеждает ChatGPT: почему древний язык обнажил главную слабость ИИ

Сегодня • arXiv cs.CL
Исследователи создали тест на латыни для ИИ-систем — и результаты шокируют. Модели, которые легко решают задачи по квантовой физике, не могут ответить на простые вопросы о Цезаре и Цицероне.

Общепринятая мудрость гласит: чем больше данных, тем умнее ИИ. Современные языковые модели тренируются на триллионах токенов из интернета, поглощая всё от Википедии до Reddit. Логика проста — больше текста равно лучшему пониманию языка.

Но RespondeoQA, новый бенчмарк для латинско-английских вопросов, переворачивает эту логику. Исследователи обнаружили: модели показывают точность всего 23-31% на базовых вопросах о латинской литературе, в то время как студенты классических факультетов достигают 78%. Проблема не в сложности — латынь изучена лучше любого живого языка, каждое слово задокументировано.

Настоящий инсайт скрыт глубже: ИИ не понимает структуру языка, он лишь имитирует статистические паттерны. Латынь с её флексивной грамматикой требует понимания связей между словами, а не просто запоминания последовательностей. Когда нет миллиардов примеров для копирования, модели беспомощны как дети.