FGR-ColBERT: Почему точность поиска убивает саму идею поиска

Сегодня • arXiv cs.CL
Исследователи из Stanford представили FGR-ColBERT — систему, которая выделяет точные токены для максимальной релевантности поиска. Звучит как прорыв, но есть нюанс: алгоритм настолько точен, что может закрыть дверь к неожиданным открытиям навсегда.

FGR-ColBERT анализирует каждый токен в документе и определяет его точный вклад в релевантность запроса. Система показывает 15-20% улучшение точности по сравнению с обычными поисковыми алгоритмами. Казалось бы, идеальное решение — никакого информационного шума, только то, что нужно.

Но вот парадокс: лучший поиск в истории человечества происходил через случайность. Пенициллин открыли из-за забытой чашки Петри. Микроволновку изобрели, изучая радары. Веб появился в CERN при попытке организовать документооборот физиков. Все эти открытия стали возможны благодаря информационному «мусору» — тому, что FGR-ColBERT теперь безжалостно фильтрует.

Авторы исследования признают: система настолько точна в определении релевантности, что практически исключает serendipity — случайные находки вне контекста запроса. В тестах 94% результатов содержали только прямые совпадения с ключевыми словами, тогда как в обычном поиске этот показатель составляет 67%.