ИИ научился строить графы знаний, но забыл главное — понимать смысл

Сегодня • arXiv cs.AI
Пока tech-сообщество восхищается способностью LLM автоматически создавать графы знаний из текста, исследователи обнаружили парадокс: модели виртуозно воспроизводят синтаксис RDF, но точность семантических связей не превышает 34%.

На первый взгляд, результаты впечатляют: GPT-4 и Claude генерируют корректные RDF-триплеты в 89% случаев, автоматически извлекая сущности и отношения из неструктурированного текста. Индустрия уже планирует интеграцию в поисковые системы и базы знаний, обещая революцию в организации информации.

Но детальный анализ переворачивает картину. Исследование Performance Evaluation of LLMs показало: модели мастерски копируют формат, но семантическая корректность связей проваливается. Когда требуется понять, что 'Париж является столицей Франции' означает административное подчинение, а не географическое расположение, точность падает до 34%. Модели путают причинно-следственные связи с корреляциями, иерархии с ассоциациями.

Хуже того — чем сложнее домен знаний, тем больше галлюцинаций. В медицинских и юридических текстах LLM создают правдоподобные, но фактически неверные связи в 67% случаев. Получается красивая структура данных, наполненная логическими ошибками.