Перейти к содержимому

Techno — Box.

Технологический информационный журнал.

Основное меню
  • IT
  • Космос
  • Наука
  • Робототехника
  • Связь
  • Техника
  • Технологии
Подписаться
  • Главная
  • IT
  • Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью
  • IT

Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью

admin Опубликовано 3 недели тому назад 1 минуты чтение

Исследовательская организация METR опубликовала подробный анализ, который ставит под сомнение реальную эффективность ИИ-агентов в программировании.

Исследовательская организация METR опубликовала подробный анализ, который ставит под сомнение реальную эффективность ИИ-агентов в программировании.

Ученые проверили, насколько результаты одного из главных отраслевых бенчмарков SWE-bench Verified соответствуют практике разработки с участием живых мейнтейнеров open source-проектов. Выяснилось, что около половины решений, которые автоматическая система оценки считает успешными, в реальности не были бы приняты в основной код.

В исследовании участвовали четыре действующих мейнтейнера трех популярных репозиториев: scikit-learn, Sphinx и pytest. Они провели ручной код-ревью 296 pull-request, созданных ИИ-моделями. Среди протестированных систем были Claude 3.5 Sonnet, Claude 3.7 Sonnet, Claude 4 Opus, Claude 4.5 Sonnet и GPT-5.

Разрыв между результатами автоматических тестов и реальным код-ревью: модели ИИ демонстрируют заметно более высокие показатели успешности в бенчмарке SWE-bench, чем при проверке опытными разработчиками, что указывает на переоценку их практической эффективности. Источник: METR.

Рецензенты не знали, написан ли код человеком или машиной. В результате оказалось, что в реальной разработке такие решения принимаются значительно реже: уровень одобрения оказался примерно на 24 процентных пункта ниже, чем показывали автоматические тесты SWE-bench. Даже если учитывать, что сами человеческие решения при повторной проверке одобрялись только в 68% случаев, разница между оценками алгоритма и мнением разработчиков все равно осталась статистически значимой.

Разработчики классифицировали причины отклонения решений на три основные категории. Первая — низкое качество кода, включая несоблюдение стандартов проекта и избыточную сложность. Вторая — нарушения существующей логики системы, когда исправление одной ошибки приводило к поломке других частей кода. Третья — базовые функциональные ошибки: значительная доля решений формально проходила тесты, но фактически не устраняла исходную проблему.

Исследование также выявило различия между моделями: переход от Claude 3.5 к Claude 3.7 сопровождался ростом общего числа «успешных» решений, но увеличением случаев функциональных дефектов, тогда как более поздние версии Anthropic улучшали прежде всего качество кода. GPT-5 в среднем демонстрировал более слабые результаты по этому критерию.

Дополнительный анализ показал, что результаты тестов могут создавать неверное впечатление о том, насколько хорошо ИИ работает в реальных задачах. По автоматическим данным Claude 4.5 Sonnet достигает 50-процентного уровня успеха на задачах, сопоставимых с 50 минутами работы разработчика. Однако оценки мейнтейнеров снизили этот показатель примерно до восьми минут. Это означает, что лабораторные метрики могут завышать реальную эффективность ИИ-агентов в несколько раз.

Авторы указывают, что исследование не доказывает фундаментального потолка возможностей современных моделей. В эксперименте ИИ-системы получали только одну попытку решения задачи, тогда как в реальной разработке код дорабатывается итеративно после замечаний.

Кроме того, часть процедур ревью была упрощена: например, мейнтейнеры работали без инструментов непрерывной интеграции. Тем не менее результаты показывают, что прямое использование бенчмарков для прогнозов о влиянии ИИ на рынок труда и индустрию разработки может приводить к серьезно завышенным ожиданиям.

Источник: devby.io

Навигация по записям

Предыдущий Huawei Enjoy 90 Plus и Enjoy 90 Pro Max готовятся к выходу
Следующий: Новые приборы оценят «здоровье» лесов, болот и полей России

Связанные новости

a43899704cbe9a1516475e1ee8e94334.webp
  • IT

«Как ракета». ИИ почти удвоил скорость разработки софта, не обрушив качество

admin Опубликовано 3 недели тому назад
a8407c441c750bcf8742c3a60e0b7570.webp
  • IT

ПВТ говорит, что вклад компаний-резидентов в экономику «подошёл к 30%»

admin Опубликовано 3 недели тому назад
977430f0947e4786bd0af74353cb9808.webp
  • IT

«Никто не знает, что делать»: CEO OpenAI заявил, что ИИ переписывает правила капитализма

admin Опубликовано 3 недели тому назад
8a3540c7e11a64de01d78fd0651bd548.jpg
  • Технологии

Безопасно ли приложение Telega и другие сторонние клиенты для Telegram?

admin Опубликовано 3 недели тому назад
0c984b822a99af38efe278925a51131d.jpg
  • Технологии

В России произошел массовый сбой в работе соцсетей

admin Опубликовано 3 недели тому назад
af0c7ec5a8ee7e1136c54774f1ab6d6b.jpg
  • Технологии

«Таких в совокупности жителей страны меньше процента» — эксперты о лимитах на интернет-трафик

admin Опубликовано 3 недели тому назад
20368f1ebb20a329d63617f4cddbb8b9.jpg
  • Технологии

Видеокарты взлетели в цене почти на треть

admin Опубликовано 3 недели тому назад
b84a116fd66672a85e5761aa1229e526.jpg
  • Технологии

Осторожно, вас слушают мошенники и… бывшие любовники

admin Опубликовано 3 недели тому назад
«Как ракета». ИИ почти удвоил скорость разработки софта, не обрушив качество a43899704cbe9a1516475e1ee8e94334.webp
  • IT

«Как ракета». ИИ почти удвоил скорость разработки софта, не обрушив качество

admin Опубликовано 3 недели тому назад
Компании всё активнее используют ИИ-инструменты для кодинга, и это уже напрямую отражается на скорости разработки. По данным нового исследования платформы...
Читать далее Прочитать больше о «Как ракета». ИИ почти удвоил скорость разработки софта, не обрушив качество
ПВТ говорит, что вклад компаний-резидентов в экономику «подошёл к 30%» a8407c441c750bcf8742c3a60e0b7570.webp
  • IT

ПВТ говорит, что вклад компаний-резидентов в экономику «подошёл к 30%»

admin Опубликовано 3 недели тому назад
В Парке высоких технологий на минувшей неделе прошло выездное заседание Постоянной комиссии Палаты представителей по экономической политике. Говорили о том, как...
Читать далее Прочитать больше о ПВТ говорит, что вклад компаний-резидентов в экономику «подошёл к 30%»
«Никто не знает, что делать»: CEO OpenAI заявил, что ИИ переписывает правила капитализма 977430f0947e4786bd0af74353cb9808.webp
  • IT

«Никто не знает, что делать»: CEO OpenAI заявил, что ИИ переписывает правила капитализма

admin Опубликовано 3 недели тому назад
Глава OpenAI Сэм Альтман признал, что искусственный интеллект уже меняет фундаментальный баланс между трудом и капиталом, а у общества пока...
Читать далее Прочитать больше о «Никто не знает, что делать»: CEO OpenAI заявил, что ИИ переписывает правила капитализма
ИИ не облегчает нагрузку, а увеличивает время на каждую задачу — до 346% 888602835d39c8ad391d2b471cbd8993.webp
  • IT

ИИ не облегчает нагрузку, а увеличивает время на каждую задачу — до 346%

admin Опубликовано 3 недели тому назад
Использование инструментов искусственного интеллекта не облегчает рабочие процессы сотрудников, а, напротив, делает их более интенсивными и фрагментированными. Использование инструментов искусственного...
Читать далее Прочитать больше о ИИ не облегчает нагрузку, а увеличивает время на каждую задачу — до 346%
Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью cee729a971930ce926a61a1c95b289b1.webp
  • IT

Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью

admin Опубликовано 3 недели тому назад
Исследовательская организация METR опубликовала подробный анализ, который ставит под сомнение реальную эффективность ИИ-агентов в программировании. Исследовательская организация METR...
Читать далее Прочитать больше о Половина одобренного бенчмарками ИИ-кода не прошла ручного код-ревью

Метки

aliexpress anthropic Apple galaxy s26 google honor huawei iPhone NASA oneplus OpenAI oppo samsung vivo xiaomi Антарктида Астрономия Астрофизика Илон Маск Исследование Исследования Космические исследования Космос Луна МКС Марс Россия США Сбербанк России беларусь вспышки на солнце иносми искусственный интеллект китай магнитные бури наука нейросеть новостная лента робототехника роботы рынок труда социальные сети технологии эксклюзив эксклюзивные новости

Возможно, вы пропустили:

954fd80e13961ac20596ba4a1003af0e.jpg
  • Связь

Дата выхода OnePlus 15T объявлена официально

admin Опубликовано 3 недели тому назад
3afa0cceb96f8398737b6e2531a71478.jpg
  • Связь

Анонс. OPPO Find N6. Планшетосмартфон с самой невидимой складкой

admin Опубликовано 3 недели тому назад
8a3540c7e11a64de01d78fd0651bd548.jpg
  • Технологии

Безопасно ли приложение Telega и другие сторонние клиенты для Telegram?

admin Опубликовано 3 недели тому назад
732f51ceb8a5f1acf78e0f576932f986.webp
  • Наука

На астероиде Рюгу обнаружили соединения, участвующие в зарождении жизни

admin Опубликовано 3 недели тому назад

Все материалы на данном сайте взяты из открытых источников и предоставляются исключительно в ознакомительных целях. Права на материалы принадлежат их владельцам. Администрация сайта ответственности за содержание материала не несет. Сайт не является СМИ!

Если Вы обнаружили на нашем сайте материалы, которые нарушают авторские права, принадлежащие Вам, Вашей компании или организации, пожалуйста, сообщите нам.
На сайте могут быть опубликованы материалы 18+!
При цитировании ссылка на источник обязательна.

  • Карта сайта