Недавнее исследование показало, что программные ассистенты на основе искусственного интеллекта могут вносить больше ошибок в код, чем помогать в его написании. Об этом пишет SecurityLab со ссылкой на выводы специалистов компании Uplevel, специализирующейся на управлении кодом.
Компания провела исследование эффективности работы программистов с использованием популярного инструмента от GitHub — Copilot. Результаты эксперимента оказались неожиданными: использование Copilot не привело к значительному росту продуктивности, а напротив, вызвало увеличение ошибок в коде на 41%.
Для исследования Uplevel отслеживала работу 800 разработчиков в течение трёх месяцев до использования Copilot и в течение трёх месяцев после его внедрения. Оценка производительности основывалась на времени добавления кода в репозиторий (пулл-реквестах) и общем количестве выполненных запросов.
Результаты показали, что «Copilot не повлиял на скорость работы разработчиков, не ускорил процесс кодирования и не улучшил качество кода». Вопреки ожиданиям команды Uplevel, временные затраты на пулл-реквесты не сократились, а дефектность кода не уменьшилась, как изначально предполагалось.
Одной из причин низкой эффективности Copilot может быть то, что он основан на больших языковых моделях (LLM), которые склонны к так называемым «галлюцинациям» — генерации неверной информации и созданию некорректного кода. Исследование, проведённое учёными из Техасского университета в Сан-Антонио, выявило, что LLM часто предлагают «несуществующие» файлы или библиотеки.
Контекст
- В феврале прошлого года один из руководителей Google предупредил о «галлюцинациях» искусственного интеллекта, с которыми можно столкнуться при использовании набирающих популярность чат-ботов. По его словам, «это выражается в том, что машина дает убедительный, но полностью выдуманный ответ».
- Недавно генеральный директор Apple Тим Кук заявил: он не уверен, что компания сможет полностью остановить галлюцинации искусственного интеллекта (ИИ).