ESL-Bench: Медицинские ИИ-агенты провалили самый простой тест на логику
Медицинские ИИ-системы демонстрируют впечатляющие результаты в диагностике: точность GPT-4 в анализе рентгеновских снимков достигает 94%, превышая показатели врачей-резидентов. Индустрия инвестировала $15 млрд в health-tech стартапы в 2024 году, веря в революцию персонализированной медицины.
ESL-Bench переворачивает эту картину. Бенчмарк тестирует способность ИИ понимать продольные связи — как события влияют друг на друга во времени. Оказалось, что модели отлично распознают паттерны в данных, но не понимают каузальности. Они видят корреляцию между назначением антибиотика и выздоровлением, но не могут объяснить механизм связи.
Проблема глубже статистики. Современные языковые модели обучены на срезах данных, а медицина — это история развития состояний во времени. ИИ может предсказать, что пациенту станет лучше, но не понимает почему. В критических ситуациях это различие между корреляцией и причинностью становится вопросом жизни и смерти.