ИИ-аннотаторы не могут договориться о медицинских текстах — и это проблема не технологий

Сегодня • arXiv cs.CL
Когда ИИ-системы не могут единообразно оценить сложность медицинских текстов, все винят алгоритмы. Но Stanford Health AI Lab обнаружил неудобную правду: проблема не в машинах, а в том, что сами врачи и эксперты кардинально расходятся в понимании медицинской грамотности.

Общепринятая мудрость гласит: натренируй ИИ на экспертных аннотациях, и получишь надёжную систему оценки медицинских текстов. Исследователи из Stanford собрали 15 экспертов для разметки 2,400 медицинских документов по критериям понятности для пациентов. Результат должен был стать золотым стандартом для обучения ИИ.

Вместо этого они получили хаос. Согласованность между экспертами составила всего 0.34 по шкале Каппа Коэна — это едва выше случайного совпадения. Более того, чем сложнее был медицинский концепт, тем сильнее расходились мнения специалистов. Один и тот же текст про диабет один эксперт оценивал как 'доступный для пациента', другой — как 'требующий медицинского образования'.

Исследование выявило 'эпистемическую нестабильность' — фундаментальное расхождение в том, что вообще означает медицинская грамотность. Когда команда попыталась обучить ИИ на этих противоречивых данных, модель научилась предсказывать не объективную сложность текста, а субъективные предпочтения конкретных аннотаторов. По сути, ИИ стал зеркалом профессиональных предрассудков врачей.