ESL-Bench: Медицинские ИИ-агенты провалили самый простой тест на логику

Сегодня • arXiv cs.AI

Исследователи создали ESL-Bench — первый тест для медицинских ИИ-агентов на понимание временных связей между событиями. Результаты шокируют: системы, успешно ставящие диагнозы, не могут связать приём лекарства с улучшением состояния пациента через неделю.

Медицинские ИИ-системы демонстрируют впечатляющие результаты в диагностике: точность GPT-4 в анализе рентгеновских снимков достигает 94%, превышая показатели врачей-резидентов. Индустрия инвестировала $15 млрд в health-tech стартапы в 2024 году, веря в революцию персонализированной медицины.

ESL-Bench переворачивает эту картину. Бенчмарк тестирует способность ИИ понимать продольные связи — как события влияют друг на друга во времени. Оказалось, что модели отлично распознают паттерны в данных, но не понимают каузальности. Они видят корреляцию между назначением антибиотика и выздоровлением, но не могут объяснить механизм связи.

Проблема глубже статистики. Современные языковые модели обучены на срезах данных, а медицина — это история развития состояний во времени. ИИ может предсказать, что пациенту станет лучше, но не понимает почему. В критических ситуациях это различие между корреляцией и причинностью становится вопросом жизни и смерти.

ESL-Bench: Медицинские ИИ-агенты провалили самый простой тест на логику

Читайте также