IndiaFinBench обнажил главную проблему ИИ — он не понимает реальный мир

Сегодня • arXiv cs.AI
Исследователи создали IndiaFinBench — первый тест ИИ на реальных индийских финансовых документах. Результаты шокируют: модели, показывающие 95% точности на академических тестах, едва преодолевают 60% на живых регуляторных текстах.

Индустрия ИИ помешана на лидербордах. GPT-4, Claude, Gemini соревнуются за проценты на MMLU, HellaSwag и других синтетических бенчмарках. Инвесторы смотрят на эти цифры и видят прогресс. Компании кричат о «человеческом уровне производительности».

IndiaFinBench переворачивает эту картину. Команда из IIT Delhi собрала 5000 реальных документов Резервного банка Индии, SEBI и страховых регуляторов. Не упрощённые академические задачки, а живые тексты с противоречиями, архаичной терминологией и культурными нюансами. Результат: даже топовые модели показали падение производительности на 30-40%.

Проблема не в сложности хинди или специфике Индии. Проблема в том, что современные LLM обучены угадывать паттерны в чистых, размеченных данных. Реальный мир грязный. Финансовые документы полны отсылок к местным законам, неформальной терминологии, исторического контекста. ИИ не понимает контекст — он распознаёт статистические корреляции.