html
- Anthropic的Claude Opus 4.5 AI模型在公司自己的编码测试中超越了所有人类考生。
- 这项为期两小时的工程考试主要考察在时间压力下的技术能力和判断力。
- 这个新版本是Anthropic在AI编码工具领域又一个重要的进展。
Anthropic的新AI模型在编码方面超越了人类,该公司在其最新发布中表示。
周一,该公司推出了Claude Opus 4.5,并将其描述为迄今为止最先进的AI模型,并表示新模型在公司为未来工程候选人设计的“广受诟病的困难家庭作业考试”中“得分高于任何人类考生”。
在周一的一篇博客文章中,Anthropic表示,这项为期两小时的家庭作业测试旨在评估在时间压力下的技术能力和判断力,虽然这并不能反映工程师所需的所有技能,但AI模型在“重要技术技能上超越了优秀候选人”这一事实,引发了人们对“AI将如何改变工程职业”的思考。
在其方法中,该公司表示,这一结果来自于给模型多次解决每个问题的机会,然后选择其最佳答案。
关于工程测试的具体内容,公开的信息很少。2024年在Glassdoor上发布的一篇面试评论提到,该测试分为四个级别,并要求候选人实现一个特定的系统并为其添加功能。目前尚不清楚Claude 4.5所参加的测试是否类似。Anthropic在其博客中没有提供更多细节,也没有回应评论请求。
最新发布的Claude 4.5是在其前一版本推出三个月后发布的。除了编码,新模型在生成专业文档方面也进行了升级,比如Excel表格和PowerPoint演示文稿。
新版本进一步巩固了Anthropic在AI编码领域的主导地位。即使是马克·扎克伯格的Meta也在使用Claude来支持其Devmate内部编码助手,尽管双方在AI竞赛中是竞争对手。
该公司一直对其训练方法保持保密。Stackblitz的首席执行官Eric Simons,该公司是vibe编码服务Bolt.new的创始公司,之前告诉《商业内幕》他相信Anthropic让其AI模型独立编写和发布代码,然后公司通过人类和AI工具对结果进行审查。Anthropic的产品管理、研究和前沿部门负责人Dianne Penn表示,这一描述“基本上是正确的”。
在十月份,Anthropic首席执行官Dario Amodei在Dreamforce大会上表示,Claude AI已经为公司大部分团队编写了90%的代码,尽管他表示不会用这个机器人替代任何软件工程师。
“如果克劳德正在编写 90% 的代码,这通常意味着你需要同样数量的软件工程师。你可能需要更多的软件工程师,因为他们可以更有效地工作,”阿莫代说。“他们可以专注于那10%的代码编辑,或者编写最难的那10%,或者负责监督一组AI模型。”
热门跟贴