打开网易新闻 查看精彩图片

出品|虎嗅科技组

作者|齐健

编辑|苗正卿

头图|MidJourney

当地时间6月19日,Anthropic发布了Claude 3.5 Sonnet,这是Claude 3.5系列模型的首个版本,Anthropic在官宣博文中提到,新模型在智能、速度和成本效率方面都取得了显著提升,并且在多个评估中超越了同类模型和 Claude 3 Opus。

在视觉模型方面,Claude 3.5 Sonnet 也有显著提升,特别是在需要视觉推理的任务上,如解释图表和图形。此外,它能够从不完美的图像中转录文本,在零售、物流和金融服务等的票据业务中很有应用前景。

目前,Claude 3.5 Sonnet可以在 Claude.ai 和 iOS 应用上免费使用,订阅了 Claude Pro 和 Team 计划的用户,可以获得更高的使用限额。Claude 3.5 Sonnet 也可以通过 Anthropic API的形式在Amazon Bedrock等云服务中获得,价格为每百万输入令牌 3 美元,每百万输出令牌 15 美元,具有 200K 令牌的上下文窗口。

Anthropic此次发布中,虽然提及了模型能力、速度、成本,以及多模态等方面的升级。然而细看他们公布的评测分数,其实与GPT-4o等模型的差距非常之小。最大的新意,似乎是全新的Artifacts功能。

Artifacts允许用户在与 Claude 对话的同时,直接在对话旁边编辑和构建 Claude 生成的内容,这标志着 Claude 从单纯的对话式 AI 向协作工作环境的转变。

虽然Anthropic没有放出大量Artifacts功能的演示,但是公布新模型之后,Claude.ai第一时间上线了全新模型和功能的试用,目前网上已经出现了大量真实用户的评测体验。相比于GPT-4o的实时对话等功能,Artifacts未必更加惊艳,但却触手可及。

作为一款模型内的应用功能,Artifacts的上线,似乎也意味着Anthropic正准备从“卷模型”的牌桌站起来,在模型产品、模型功能的维度上,跟OpenAI掀桌子。

Artifacts是什么?

Artifacts是什么?

Anthropic的官方博文中对Artifacts的介绍并不多,不过从目前的测试来看,这项功能很可能是Claude 3.5,以及未来一段时间中最重要的功能之一。

Artifacts生成的内容块,如代码、文档或可视化,会直接出现在用户对话旁边的专用窗口中。

以分析英伟达股票为例,首先打开Artifact这个实验性选项。

打开Artifact这个实验性选项
打开网易新闻 查看精彩图片
打开Artifact这个实验性选项

输入prompt:

我要分析英伟达这支股票,你先帮我想一下如何分析,而且应该变化要有对比,比如苹果和微软;

你应该删除一些重要性没那么强的指标,而应该关注核心的反应关键变化的指标,特别是有先行指标特征的;

很好,现在用数据可视化形式;

需要真实的数据,时间应该是2010年开始到现在,而且数据可视化应该可以翻页,每个页面是3家公司的单独数据看板;

把数值也标上去。

输出结果
打开网易新闻 查看精彩图片
输出结果

除了股票分析之外,Artifact还可以直接生成小游戏。

小游戏生成
打开网易新闻 查看精彩图片
小游戏生成

“Claude3.5的新功能,类似给人的大脑上了核磁共振能考察运行的内容数据和分析特征了。”大语言模型研究专家祝韬告诉虎嗅,Artifacts功能和之前Anthropic一篇研究论文《Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet》有关。

祝韬分析认为,Artifact功能的开发直接受益于Anthropic团队对模型内部特征的深入理解,发现某些特征的激活如何影响Claude的输出偏好。

例如,多模态输出:对模型处理不同类型信息(文本、代码、图像描述等)的特征的理解,可能促进了Artifacts支持多种输出类型的能力;对模型如何在内部表示和关联概念的理解,可能提高了Claude在Artifacts中保持上下文一致性的能力。

简而言之,Artifacts功能可以被视为对Claude内部工作原理深入理解的实际应用。它展示了如何将对AI模型内部机制的研究转化为实用的、面向用户的功能。

顶级大模型进入应用时代

顶级大模型进入应用时代

相比于Gemini 1.5和GPT-4o,Claude的优势在于长文本输出,不过关注长文本能力似乎使得Claude在文风跟随上表现一般,仍需要一些解码技术的支持。此外,Claude 3.5的数学能力似乎仍不如GPT-4o。

OpenAI的首席技术官Mira Murati最近在她的母校达特茅斯工程学院的一次访谈中透露,下一代 GPT(GPT-5)有望在“一年半内”问世。她还提到,下一代模型在特定任务方面将拥有“博士”级别的智能。

GPT-4o在模型能力上有限的提升,再加上GPT-5一推迟就是一年半,不禁让人猜想业内顶流们在模型研发上是不是遇到了瓶颈。例如,训练更大规模的模型需要更强大的计算资源和更复杂的算法设计,而这些都不是短期内能够轻易解决的。

此外,训练大型语言模型需要更多的计算资源、电力消耗以及数据获取和处理的费用。这些成本不仅是经济上的负担,也在实际操作中增加了难度。进一步提升模型能力,需要更大规模、更高质量的数据。这类数据的获取和处理也是一个巨大挑战。

由此,顶流大模型们都开始将研发重点逐步转型功能、应用,以及商业化场景。

Anthropic官宣博文中提到,公司还在开发新的功能和模式,以支持更多商业用例,并探索如何使 Claude 能够根据用户的偏好和历史记录来提供更加个性化和高效的体验。

从GPT-4o的实时对话,Claude3.5的Artifacts功能,以及Gemini与谷歌生态的深度融合,似乎可以看出,AI大模型在应用和功能方面的研发和升级更加容易。

大模型在技术基础上已经相对成熟,许多核心算法和架构也经过了广泛的研究和优化。因此,基于这些现有技术进行应用层面的创新和改进相对更加容易。例如,GPT-4o 的改进可能更多是基于已有的 GPT-3 和 GPT-4 架构进行优化和调整。

应用和功能的研发通常是由具体用户需求驱动的。用户和企业在实际使用过程中会反馈出具体的问题和需求,这为研发团队提供了明确的改进方向。例如,Claude 3.5 的 Artifacts 功能就是为了满足用户在生成和编辑独立内容块时的需求,从而增加了实际应用的灵活性和价值。

应用和功能的研发可以通过快速迭代来实现。相比于底层模型能力的提升,应用层面的改进可以通过不断试验和调整快速实现。例如,Gemini 与 Gmail 的结合,可以通过逐步集成和优化,快速提升用户体验和功能实用性。

AI大模型在不同应用场景中的表现差异很大,不同场景对模型的需求和要求也不同。这种多样化使得开发者可以针对特定场景进行优化和改进,从而提升模型在该场景下的应用效果。例如,GPT-4o 在特定任务上的表现优化,Claude 3.5 的 Artifacts 功能,以及 Gemini 在邮件服务中的集成,都是基于特定应用场景的创新。

在应用和功能研发中,模块化和组合创新非常重要。通过将不同的技术模块进行组合和创新,可以实现新的功能和应用。例如,Claude 3.5 的 Artifacts 功能就是通过对模型内部特征的理解和利用,实现了多种内容类型的生成和编辑。

AI大模型最终还是得看技术和市场的契合度。”波形智能创始人兼CEO姜昱辰告诉虎嗅,谷歌的优势在于其庞大的数据量和良好的生态系统,因此Gemini的使用频率反而比GPT更高,毕竟每天都要使用Gmail和Google Docs。

在大模型未来的市场化和发展方面,姜昱辰更看好谷歌,她认为尽管GPT-4o在ChatGPT产品基础上有优势,但谷歌有数据和应用两个绝对优势。