Anthropic近日发布了新款改进版Claude模型——Opus 4.7,但有意将其能力设定在备受期待的Claude Mythos之下。
Anthropic将Opus 4.7定位为相较于Opus 4.6的"显著提升",在高级软件工程能力、视觉处理、内存、指令跟随以及金融分析方面均有所强化。
然而,尚未正式发布(此前曾意外泄露)的Mythos在某种程度上盖过了Opus 4.7的风头。值得注意的是,Anthropic自身在一定程度上也对Opus 4.7保持低调,明确表示其"不如"Claude Mythos Preview"先进","综合能力也更为有限"。
此次Opus升级还紧随Glasswing项目的发布而来。Glasswing是Anthropic的安全计划,利用Claude Mythos Preview识别并修复网络安全漏洞。
科技分析师Carmi Levy表示:"在科技史上,一款产品的发布营销重点放在它'不能做什么'而非'能做什么'上,这实属罕见。Anthropic传达的信息清楚表明,Opus 4.7是一款更安全的模型,其能力相较Mythos被刻意有所限制。"
能力提升与安全改进
Anthropic强调,Opus 4.7在指令跟随方面比Opus 4.6"大幅提升",能够处理复杂、长期运行的任务,并对指令保持"精准关注"。用户反馈称,他们可以将"最棘手的编程工作"交由该模型完成,其记忆能力也优于前代版本。该模型可在多轮长会话中记住相关笔记并将其应用于新任务,从而减少前期的上下文输入需求。
Anthropic表示,Opus 4.7的视觉能力是前代模型的三倍,支持最高2576像素的高分辨率图像输入,使其能够胜任需要精细视觉细节的多模态任务,例如用于分析密集截图或从复杂图表中提取数据的计算机使用智能体。
此外,该公司还表示,Opus 4.7在财务分析方面表现更为出色,能够生成"严谨的分析与模型",并输出更具专业水准的报告。
在安全性方面,Anthropic表示Opus 4.7与前代模型基本持平,在"欺骗、谄媚、配合滥用"等不良行为方面的发生率较低。不过,该公司也指出,尽管在诚实性和抵御恶意提示注入攻击方面有所改进,但Opus 4.7在其他方面(例如回应有害提示时)"略弱于"Opus 4.6,"行为表现尚未完全理想"。
与Mythos的对比
Opus 4.7的发布正值业界对Claude Mythos高度期待之际。Mythos是一款通用前沿模型,Anthropic称其为迄今训练过的"对齐效果最好"的模型。有趣的是,在今天的发布博客中,Anthropic透露Mythos Preview在多项主要基准测试中的得分超过Opus 4.7,部分差距甚至超过十个百分点。
Mythos Preview在SWE-Bench Pro和SWE-Bench Verified(智能体编程)、Humanity's Last Exam(多学科推理)以及智能体搜索(BrowseComp)方面得分更高;而两者在智能体计算机使用、研究生级推理以及视觉推理方面的得分则基本相当。
Opus 4.7目前已在所有Claude产品及API中上线,同时也支持Amazon Bedrock、Google Cloud的Vertex AI以及Microsoft Foundry。定价与Opus 4.6保持一致:输入Token每百万Token收费5美元,输出Token每百万Token收费25美元。
行业定位与市场分析
Info-Tech Research Group高级顾问分析师Yaz Palanichamy表示,Claude Opus在业界被定位为"实用前沿"模型,代表Anthropic"能力最强的智能多功能自动化模型",核心应用场景涵盖复杂编程、深度研究以及综合智能体工作流。
他解释称,该模型的核心产品差异化优势在于其嵌入算法在扩展各类操作场景时的协调性与可组合性。
Palanichamy还指出,Claude Opus 4.7是一款"技术倾向型"平台,需要一定程度的深度个性化调整来优化提示词和生成输出结果。尽管Google Gemini 3.1 Pro拥有更大的上下文窗口(200万Token,而Claude为100万Token),但Opus 4.7在应用工程场景方面仍对竞品Gemini保持明显优势。他同时补充道,"某些同类模型在原始推理能力上确实趋于收敛"。
Levy指出,4.7版本的更新推动Opus超越了基础聊天机器人工作流,将其定位为更接近"复杂技术角色副驾驶"的工具。"它比以往任何时候都更强大,是知识工作者更好的辅助工具。"与此同时,它带来的风险也更低,堪称"经过精心权衡的折中方案"。
他还指出,Opus 4.7的发布距Opus 4.6推出仅相隔两个月,这本身"就是一个信号,说明AI开发周期已经变得多么过热,市场竞争已经变得多么激烈"。
Glasswing安全项目与Mythos的战略意义
上周,Anthropic还宣布了Glasswing项目,将Mythos Preview应用于防御性安全领域。该公司正与AWS、Google等企业及30余家网络安全机构合作推进该项目,并声称Glasswing已发现"数千个"高危漏洞,涵盖每个主流操作系统和网络浏览器。
Anthropic有意限制Claude Mythos Preview的发布范围,优先在"能力较弱的模型"上测试新的网络安全防护机制,Opus 4.7便是其中之一,其网络安全能力不及Mythos。实际上,Anthropic承认,在训练过程中曾刻意进行实验,"差异化削减"了这些能力。
Anthropic解释称,Opus 4.7内置了防护机制,能够自动检测并屏蔽涉及"禁止或高风险"网络安全用途的请求,相关经验将被应用于Mythos模型。
Levy认为,这"在某种程度上承认了新模型相较于其高端同系产品被刻意降低了部分能力",目的是强化其网络风险检测与拦截能力的可信度。
从市场营销角度来看,这使Anthropic得以将Opus 4.7定位为能力与风险之间的理想平衡点,同时又不必承担有限发行的高端模型所带来的"网络安全包袱"。
Levy表示,Mythos很可能成为推动Opus 4.7大规模普及的"终极铺垫"。即便Mythos"日益可能"永不公开发布,它也将作为"一种理想手段",彰显Opus是为大多数企业决策者提供最佳平衡的那款模型。
Palanichamy对此表示认同,并指出Opus 4.7可作为面向公众的"试验田",用于实时测试和优化自动化网络安全防护机制,这些机制最终将"成为Mythos级前沿模型更大范围发布前的必要前提条件"。
Q&A
Q1:Opus 4.7相比Opus 4.6有哪些主要提升?
A:Opus 4.7在多个方面实现了显著改进:指令跟随能力大幅提升,能够处理复杂的长期任务;视觉能力是前代的三倍,支持最高2576像素的高分辨率图像;记忆能力更强,可跨多轮会话记住笔记并应用于新任务;财务分析能力也更加出色,能生成更专业的分析报告。
Q2:Opus 4.7和Claude Mythos相比差距在哪里?
A:Mythos Preview在多项基准测试中超越Opus 4.7,部分差距超过十个百分点,尤其是在智能体编程(SWE-Bench)、多学科推理(Humanity's Last Exam)和智能体搜索方面。Anthropic有意将Opus 4.7的能力设定得低于Mythos,特别是在网络安全相关能力上进行了"差异化削减",以确保更安全的部署。
Q3:Opus 4.7在哪些平台上可以使用,定价如何?
A:Opus 4.7已在所有Claude产品及API中上线,同时支持Amazon Bedrock、Google Cloud的Vertex AI以及Microsoft Foundry。定价与前代Opus 4.6保持一致:输入Token每百万Token收费5美元,输出Token每百万Token收费25美元。
热门跟贴