GitHub Copilot、Amazon CodeWhisperer和ChatGPT,写出的代码真的能用吗?一项针对89名开发者的实证研究给出了意外答案。

实验设计:让真人开发者做裁判

打开网易新闻 查看精彩图片

研究团队招募了89名有5年以上经验的开发者,每人使用三种工具完成相同编程任务。评估维度包括功能正确性、代码可读性、安全漏洞和运行时效率。

关键发现:Copilot在功能正确率上领先,但安全漏洞检出率也最高;CodeWhisperer的代码最"干净",却常出现逻辑不完整;ChatGPT(当时版本)平衡性最好,但生成速度明显慢于前两者。

时间线:从惊艳到冷静

2021年Copilot发布时,开发者惊叹其补全能力。2022年CodeWhisperer入局,主打安全扫描差异化。2023年这项研究启动时,行业正从"能用就行"转向"敢不敢用"。

研究团队特意选择Java和Python两种语言,覆盖LeetCode算法题、Web API开发和SQL查询三类场景——这正是企业日常最高频的代码产出类型。

数据背后的用户痛点

一个细节值得玩味:开发者对"可运行代码"的定义分歧巨大。初级开发者认为不出错即可,资深开发者则要求符合团队编码规范。AI工具目前只能满足前者。

研究还记录了开发者的真实行为模式。超过60%的人拿到AI生成代码后,会立即运行测试而非先阅读——这种信任惯性,恰恰是安全漏洞流入生产环境的通道。

商业逻辑的转折点

这项研究发布于2024年初,恰逢企业采购决策的关键窗口。此前厂商比拼的是生成速度和语言覆盖度;此后,"可审计性"和"漏洞责任归属"成为合同谈判的新条款。

研究团队负责人指出:「当前评估框架仍缺少对长期维护成本的测算。」这暗示下一波产品竞争,将围绕代码生命周期管理展开。