打开网易新闻 查看精彩图片

微软在AI领域的策略,长期以来主要依赖第三方大语言模型。起初主要使用OpenAI的GPT系列模型,近来也引入了Anthropic的Claude——而现在,微软正将两者同时整合,用于提升Copilot的研究者(Researcher)智能体的能力。

研究者智能体专为需要深度推理或跨多源信息解决问题的场景而设计,近期新增了一项可选的"批评"(Critique)功能。在这一工作流程中,GPT负责起草内容,随后由Claude进行审核。根据微软的官方声明,审核内容涵盖"准确性、完整性与引用规范性"三个维度。

微软表示,未来还可能为用户提供反向切换选项,即由Claude负责撰写、GPT负责审核。

这种工作流程乍看之下可能略显粗糙,但其实与开发者有时采用一个模型编写代码、再用另一个不同系列的模型进行代码审查的做法并无本质区别。

至少从微软的基准测试结果来看,这一方案展现出明显优势。在Perplexity的深度研究DRACO基准测试中,Anthropic的Claude Opus 4.6单独运行得分为42.7分,在Perplexity深度研究模式下得分为50.4分,而开启"批评"功能的Copilot研究者智能体得分高达57.4分,超越了所有单独模型的表现。

目前尚无OpenAI GPT-5.4的基准测试数据,但其得分预计与Opus 4.6处于相近水平。

研究功能的另一项新特性是"委员会"(Council)功能,允许用户并排对比不同模型处理同一查询的结果。

此外,微软近期还宣布将Anthropic的Claude Cowork工具引入Copilot。Cowork本质上是面向知识工作者的Claude Code,能够运行需要完成多步骤工作流的长时间智能体任务。该功能以"Copilot Cowork"为名,现已在早期访问计划Microsoft 365 Frontier中上线。

微软在此处的优势在于:许多客户对直接向Anthropic上传企业数据心存顾虑。而这些企业本已在使用Microsoft 365,Copilot Cowork的数据完全由企业自主掌控(Cowork在沙盒云环境中运行),这使他们得以放心使用这些新工具。

Capital Group企业技术高级副总裁巴顿·华纳(Barton Warner)表示:"这不是关于生成内容或答案,而是真正付诸行动——串联步骤、协调任务、贯穿日常工作流程。由于Cowork在我们的企业数据环境及安全与风险边界内运行,我们可以充满信心地进行试验、学习并推广扩展,这让我们能够更快推进,并将AI聚焦于真正能创造价值的场景。"

引入Anthropic来推出Cowork和Critique等功能,折射出微软当前所处的战略位置:一方面在逐步摆脱对OpenAI的早期依赖,另一方面也在与另一家模型供应商建立更深层的合作关系。

对于为Copilot支付高额费用的客户而言,一个核心问题始终萦绕心头:使用微软服务的价值,究竟在于其所调度的模型本身,还是在于使这些模型真正发挥作用的企业数据与信任层?

微软显然押注于后者。而对Anthropic来说,这次合作是其迈向企业AI首选供应商目标的又一重要布局。

微软商业应用与智能体总裁查尔斯·拉曼纳(Charles Lamanna)在首次宣布Cowork时曾指出:"正是这种多模型优势,让Copilot与众不同。"如果微软拥有自己的前沿模型,或许会采取不同的策略,但就现状而言,这已是其所能做出的最优选择。

Q&A

Q1:Copilot研究者智能体的"批评"功能是如何运作的?

A:Copilot研究者智能体的"批评"功能采用双模型协作机制:由OpenAI的GPT负责起草内容,再交由Anthropic的Claude进行审核,审核范围涵盖准确性、完整性与引用规范性三个方面。在Perplexity的DRACO基准测试中,开启该功能后得分达57.4分,高于Claude Opus 4.6单独运行的42.7分和深度研究模式下的50.4分,显示出明显的性能提升效果。

Q2:Copilot Cowork是什么?有什么特别之处?

A:Copilot Cowork是微软将Anthropic的Claude Cowork工具引入Copilot后推出的功能,主要面向需要处理多步骤复杂工作流的知识工作者。其核心优势在于数据安全性:Cowork运行于沙盒云环境中,企业数据无需上传至Anthropic,完全在企业自有的Microsoft 365环境内受控运行,因此特别适合对数据安全要求较高的企业客户。目前该功能已在Microsoft 365 Frontier早期访问计划中上线。

Q3:微软为什么要同时使用GPT和Claude,而不是只用一个模型?

A:微软目前没有自研的前沿大语言模型,因此必须依赖第三方模型。引入多模型策略一方面是为了减少对单一供应商OpenAI的依赖,另一方面也通过多模型协作实现性能互补——不同模型家族在审查彼此输出时往往能发现对方遗漏的问题。微软认为自身的核心价值在于整合模型的企业数据管理能力与信任层,而非模型本身,因此多模型策略是其现阶段最优解。