ИИ читает ваш геном неправильно — и это меняет всё

Сегодня • arXiv cs.AI
Большие языковые модели теперь анализируют человеческий геном с точностью 99,7%. Звучит впечатляюще, пока не узнаешь главное: они игнорируют 40% генетических вариаций, которые определяют различия между людьми.

Медицинские компании массово внедряют LLM-эмбеддинги для анализа генома. Логика проста: если GPT понимает язык, то сможет «прочитать» и генетический код. Инвесторы уже вложили $2,3 млрд в стартапы, обещающие персонализированную медицину на базе ИИ.

Но есть фундаментальная проблема. Языковые модели обучены находить общие паттерны в тексте — они отлично выделяют частотные слова и фразы. Геном работает наоборот: самое важное скрыто в редких вариациях. Мутация, встречающаяся у 0,01% населения, может быть критичнее, чем последовательность, общая для 99% людей.

Исследование MIT показало: LLM-модели систематически недооценивают редкие генетические варианты, которые часто связаны с наследственными заболеваниями. Алгоритм «видит» стандартную последовательность и помечает отклонения как шум, хотя именно в них ключ к пониманию генетических рисков конкретного человека.