ИИ-рекрутинг сломался не там, где думали: проблема в хвостах распределения
Общепринятая мудрость: тестируй ИИ-системы найма на средних показателях, и если bias незаметен — всё в порядке. Именно так работают современные аудиты алгоритмов рекрутинга. Средняя оценка кандидата с именем Джон почти не отличается от средней оценки кандидата с именем Ахмед.
Но исследователи из MIT обнаружили подвох в самом неожиданном месте — в хвостах распределения. Когда ИИ оценивает топ-10% кандидатов или худших 10%, имена начинают играть решающую роль. Модель может дать одинаковые средние баллы, но при этом систематически занижать оценки выдающихся кандидатов с «неевропейскими» именами на 15-20%.
Хуже того: стандартные метрики справедливости этого не ловят. Они смотрят на средние значения, игнорируя то, что происходит с самыми сильными кандидатами — теми, кого компании больше всего хотят нанять. Получается парадокс: чем талантливее кандидат с «неправильным» именем, тем сильнее его дискриминирует ИИ.