OpenAI的哪个对手能掀翻牌桌？|openai|算法

出品｜虎嗅科技组

作者｜齐健

编辑｜苗正卿

头图｜MidJourney

当地时间6月19日，Anthropic发布了Claude 3.5 Sonnet，这是Claude 3.5系列模型的首个版本，Anthropic在官宣博文中提到，新模型在智能、速度和成本效率方面都取得了显著提升，并且在多个评估中超越了同类模型和 Claude 3 Opus。

在视觉模型方面，Claude 3.5 Sonnet 也有显著提升，特别是在需要视觉推理的任务上，如解释图表和图形。此外，它能够从不完美的图像中转录文本，在零售、物流和金融服务等的票据业务中很有应用前景。

目前，Claude 3.5 Sonnet可以在 Claude.ai 和 iOS 应用上免费使用，订阅了 Claude Pro 和 Team 计划的用户，可以获得更高的使用限额。Claude 3.5 Sonnet 也可以通过 Anthropic API的形式在Amazon Bedrock等云服务中获得，价格为每百万输入令牌 3 美元，每百万输出令牌 15 美元，具有 200K 令牌的上下文窗口。

Anthropic此次发布中，虽然提及了模型能力、速度、成本，以及多模态等方面的升级。然而细看他们公布的评测分数，其实与GPT-4o等模型的差距非常之小。最大的新意，似乎是全新的Artifacts功能。

Artifacts允许用户在与 Claude 对话的同时，直接在对话旁边编辑和构建 Claude 生成的内容，这标志着 Claude 从单纯的对话式 AI 向协作工作环境的转变。

虽然Anthropic没有放出大量Artifacts功能的演示，但是公布新模型之后，Claude.ai第一时间上线了全新模型和功能的试用，目前网上已经出现了大量真实用户的评测体验。相比于GPT-4o的实时对话等功能，Artifacts未必更加惊艳，但却触手可及。

作为一款模型内的应用功能，Artifacts的上线，似乎也意味着Anthropic正准备从“卷模型”的牌桌站起来，在模型产品、模型功能的维度上，跟OpenAI掀桌子。

Artifacts是什么？

Anthropic的官方博文中对Artifacts的介绍并不多，不过从目前的测试来看，这项功能很可能是Claude 3.5，以及未来一段时间中最重要的功能之一。

Artifacts生成的内容块，如代码、文档或可视化，会直接出现在用户对话旁边的专用窗口中。

以分析英伟达股票为例，首先打开Artifact这个实验性选项。

输入prompt：

我要分析英伟达这支股票，你先帮我想一下如何分析，而且应该变化要有对比，比如苹果和微软；

你应该删除一些重要性没那么强的指标，而应该关注核心的反应关键变化的指标，特别是有先行指标特征的；

很好，现在用数据可视化形式；

需要真实的数据，时间应该是2010年开始到现在，而且数据可视化应该可以翻页，每个页面是3家公司的单独数据看板；

把数值也标上去。

除了股票分析之外，Artifact还可以直接生成小游戏。

“Claude3.5的新功能，类似给人的大脑上了核磁共振能考察运行的内容数据和分析特征了。”大语言模型研究专家祝韬告诉虎嗅，Artifacts功能和之前Anthropic一篇研究论文《Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet》有关。

祝韬分析认为，Artifact功能的开发直接受益于Anthropic团队对模型内部特征的深入理解，发现某些特征的激活如何影响Claude的输出偏好。

例如，多模态输出：对模型处理不同类型信息（文本、代码、图像描述等）的特征的理解，可能促进了Artifacts支持多种输出类型的能力；对模型如何在内部表示和关联概念的理解，可能提高了Claude在Artifacts中保持上下文一致性的能力。

简而言之，Artifacts功能可以被视为对Claude内部工作原理深入理解的实际应用。它展示了如何将对AI模型内部机制的研究转化为实用的、面向用户的功能。

顶级大模型进入应用时代

相比于Gemini 1.5和GPT-4o，Claude的优势在于长文本输出，不过关注长文本能力似乎使得Claude在文风跟随上表现一般，仍需要一些解码技术的支持。此外，Claude 3.5的数学能力似乎仍不如GPT-4o。

OpenAI的首席技术官Mira Murati最近在她的母校达特茅斯工程学院的一次访谈中透露，下一代 GPT（GPT-5）有望在“一年半内”问世。她还提到，下一代模型在特定任务方面将拥有“博士”级别的智能。

GPT-4o在模型能力上有限的提升，再加上GPT-5一推迟就是一年半，不禁让人猜想业内顶流们在模型研发上是不是遇到了瓶颈。例如，训练更大规模的模型需要更强大的计算资源和更复杂的算法设计，而这些都不是短期内能够轻易解决的。

此外，训练大型语言模型需要更多的计算资源、电力消耗以及数据获取和处理的费用。这些成本不仅是经济上的负担，也在实际操作中增加了难度。进一步提升模型能力，需要更大规模、更高质量的数据。这类数据的获取和处理也是一个巨大挑战。

由此，顶流大模型们都开始将研发重点逐步转型功能、应用，以及商业化场景。

Anthropic官宣博文中提到，公司还在开发新的功能和模式，以支持更多商业用例，并探索如何使 Claude 能够根据用户的偏好和历史记录来提供更加个性化和高效的体验。

从GPT-4o的实时对话，Claude3.5的Artifacts功能，以及Gemini与谷歌生态的深度融合，似乎可以看出，AI大模型在应用和功能方面的研发和升级更加容易。

大模型在技术基础上已经相对成熟，许多核心算法和架构也经过了广泛的研究和优化。因此，基于这些现有技术进行应用层面的创新和改进相对更加容易。例如，GPT-4o 的改进可能更多是基于已有的 GPT-3 和 GPT-4 架构进行优化和调整。

应用和功能的研发通常是由具体用户需求驱动的。用户和企业在实际使用过程中会反馈出具体的问题和需求，这为研发团队提供了明确的改进方向。例如，Claude 3.5 的 Artifacts 功能就是为了满足用户在生成和编辑独立内容块时的需求，从而增加了实际应用的灵活性和价值。

应用和功能的研发可以通过快速迭代来实现。相比于底层模型能力的提升，应用层面的改进可以通过不断试验和调整快速实现。例如，Gemini 与 Gmail 的结合，可以通过逐步集成和优化，快速提升用户体验和功能实用性。

AI大模型在不同应用场景中的表现差异很大，不同场景对模型的需求和要求也不同。这种多样化使得开发者可以针对特定场景进行优化和改进，从而提升模型在该场景下的应用效果。例如，GPT-4o 在特定任务上的表现优化，Claude 3.5 的 Artifacts 功能，以及 Gemini 在邮件服务中的集成，都是基于特定应用场景的创新。

在应用和功能研发中，模块化和组合创新非常重要。通过将不同的技术模块进行组合和创新，可以实现新的功能和应用。例如，Claude 3.5 的 Artifacts 功能就是通过对模型内部特征的理解和利用，实现了多种内容类型的生成和编辑。

“AI大模型最终还是得看技术和市场的契合度。”波形智能创始人兼CEO姜昱辰告诉虎嗅，谷歌的优势在于其庞大的数据量和良好的生态系统，因此Gemini的使用频率反而比GPT更高，毕竟每天都要使用Gmail和Google Docs。

在大模型未来的市场化和发展方面，姜昱辰更看好谷歌，她认为尽管GPT-4o在ChatGPT产品基础上有优势，但谷歌有数据和应用两个绝对优势。