SemLoc от исследователей: почему ИИ ищет баги лучше программистов, но хуже детектива

Сегодня • arXiv cs.AI

Команда исследователей представила SemLoc — систему, которая находит баги в коде точнее опытных разработчиков. Но в техническом отчёте скрыта деталь: чтобы превзойти человека, ИИ пришлось отказаться от своей главной суперсилы — свободного рассуждения.

SemLoc работает по принципу структурированного анализа: большая языковая модель получает код с ошибкой и пошагово сужает область поиска, используя семантическое понимание программы. На бенчмарке Defects4J система показала точность 73% против 45% у традиционных инструментов и 52% у разработчиков средней квалификации.

Но вот парадокс: чтобы достичь такой точности, авторы SemLoc ограничили 'творческие' способности модели жёсткими рамками поиска. Система не может отклоняться от заданного алгоритма, импровизировать или использовать интуицию — те самые качества, за которые мы ценим LLM. Фактически, SemLoc превращает GPT в продвинутый grep.

Исследование обнаружило критическую закономерность: чем свободнее рассуждала модель, тем хуже она находила баги. При отключении структурных ограничений точность падала до 31% — хуже junior-разработчика. Получается, что для решения практических задач ИИ нужно лишать именно тех способностей, которые делают его 'интеллектуальным'.

SemLoc от исследователей: почему ИИ ищет баги лучше программистов, но хуже детектива

Читайте также