Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью

admin Опубликовано 3 недели тому назад 1 минуты чтение

Исследовательская организация METR опубликовала подробный анализ, который ставит под сомнение реальную эффективность ИИ-агентов в программировании.

Ученые проверили, насколько результаты одного из главных отраслевых бенчмарков SWE-bench Verified соответствуют практике разработки с участием живых мейнтейнеров open source-проектов. Выяснилось, что около половины решений, которые автоматическая система оценки считает успешными, в реальности не были бы приняты в основной код.

В исследовании участвовали четыре действующих мейнтейнера трех популярных репозиториев: scikit-learn, Sphinx и pytest. Они провели ручной код-ревью 296 pull-request, созданных ИИ-моделями. Среди протестированных систем были Claude 3.5 Sonnet, Claude 3.7 Sonnet, Claude 4 Opus, Claude 4.5 Sonnet и GPT-5.

Разрыв между результатами автоматических тестов и реальным код-ревью: модели ИИ демонстрируют заметно более высокие показатели успешности в бенчмарке SWE-bench, чем при проверке опытными разработчиками, что указывает на переоценку их практической эффективности. Источник: METR.

Рецензенты не знали, написан ли код человеком или машиной. В результате оказалось, что в реальной разработке такие решения принимаются значительно реже: уровень одобрения оказался примерно на 24 процентных пункта ниже, чем показывали автоматические тесты SWE-bench. Даже если учитывать, что сами человеческие решения при повторной проверке одобрялись только в 68% случаев, разница между оценками алгоритма и мнением разработчиков все равно осталась статистически значимой.

Разработчики классифицировали причины отклонения решений на три основные категории. Первая — низкое качество кода, включая несоблюдение стандартов проекта и избыточную сложность. Вторая — нарушения существующей логики системы, когда исправление одной ошибки приводило к поломке других частей кода. Третья — базовые функциональные ошибки: значительная доля решений формально проходила тесты, но фактически не устраняла исходную проблему.

Исследование также выявило различия между моделями: переход от Claude 3.5 к Claude 3.7 сопровождался ростом общего числа «успешных» решений, но увеличением случаев функциональных дефектов, тогда как более поздние версии Anthropic улучшали прежде всего качество кода. GPT-5 в среднем демонстрировал более слабые результаты по этому критерию.

Дополнительный анализ показал, что результаты тестов могут создавать неверное впечатление о том, насколько хорошо ИИ работает в реальных задачах. По автоматическим данным Claude 4.5 Sonnet достигает 50-процентного уровня успеха на задачах, сопоставимых с 50 минутами работы разработчика. Однако оценки мейнтейнеров снизили этот показатель примерно до восьми минут. Это означает, что лабораторные метрики могут завышать реальную эффективность ИИ-агентов в несколько раз.

Авторы указывают, что исследование не доказывает фундаментального потолка возможностей современных моделей. В эксперименте ИИ-системы получали только одну попытку решения задачи, тогда как в реальной разработке код дорабатывается итеративно после замечаний.

Кроме того, часть процедур ревью была упрощена: например, мейнтейнеры работали без инструментов непрерывной интеграции. Тем не менее результаты показывают, что прямое использование бенчмарков для прогнозов о влиянии ИИ на рынок труда и индустрию разработки может приводить к серьезно завышенным ожиданиям.

Источник: devby.io