前言

Anthropic公司宣布,Claude 3模型家族将重新定义我们在认知任务上的行业标准。这个家族包括三个不同能力的模型:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每个模型都在智能、速度和成本之间提供了最佳的平衡,以适应各种特定应用的需求。

Claude 3:智能的新标准

Claude 3系列模型在多项评估基准测试中超越了同行,包括本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)等。Opus,作为最智能的模型,展现了接近人类的理解和流利度,引领了通用智能的前沿。所有Claude 3模型在分析、预测、细致内容创作、代码生成以及非英语语言对话(如西班牙语、日语和法语)方面的能力都有所增强。

近瞬时结果:速度与效率的完美结合

Claude 3模型能够支持实时客户聊天、自动完成和数据提取任务,响应速度必须迅速且实时。Haiku是市场上速度最快、性价比最高的模型,它能在不到三秒钟的时间内阅读一篇包含图表和图形的arXiv研究论文(约10k tokens)。Sonnet在大多数工作负载中的速度是Claude 2的两倍,且智能水平更高,擅长快速响应的任务,如知识检索或销售自动化。Opus则在保持类似速度的同时,提供了更高的智能水平。

强大的视觉能力

Claude 3模型具有与其他领先模型相媲美的复杂视觉能力。它们可以处理各种视觉格式,包括照片、图表、图形和技术图。特别的是,能够为特别的企业提供这种新的模态,因为一些企业的知识库中有高达50%的信息以PDF、流程图或演示文稿幻灯片等格式编码。

更少的拒绝:更细腻的理解

以前的Claude模型经常做出不必要的拒绝,这表明缺乏上下文理解。Opus、Sonnet和Haiku在拒绝接近系统边界的提示方面的可能性显著降低。Claude 3模型展示了更细腻的理解能力,识别真正的伤害,并更少地拒绝无害的提示。

提高准确性:可信赖的输出

各种规模的企业都依赖Claude模型来服务他们的客户,这使得模型输出在大规模上保持高准确性至关重要。为了评估这一点,用了一系列复杂的、针对当前模型已知弱点的事实问题。根据模型的回答将它们分类为正确答案、错误答案(或幻觉)以及承认不确定性。与Claude 2.1相比,Opus在这些具有挑战性的开放式问题上的正确答案(或准确率)提高了两倍,同时也展示了较低的错误答案水平。

长篇幅上下文与近乎完美的回忆

Claude 3系列模型最初将提供一个200K的上下文窗口。然而,所有三个模型都能够接受超过100万个tokens的输入,同时可能会为需要增强处理能力的特定客户开放这一功能。为了有效地处理长篇幅上下文提示,模型需要强大的回忆能力。'Needle In A Haystack'(NIAH)评估衡量了模型从大量数据中准确回忆信息的能力。通过使用每个提示的30个随机针/问题对之一,并在多样化的众包文档语料库上进行测试,增强了这个基准的鲁棒性。Claude 3 Opus不仅实现了近乎完美的回忆,准确率超过99%,而且在某些情况下,它甚至识别了评估本身的局限性,意识到“针”句子似乎是被人为插入到原始文本中的。

模型细节

Claude 3 Opus能够处理高度复杂的任务。它能够以惊人的流畅度和类人理解力处理开放式提示和未见场景。Opus向我们展示了生成性AI的可能性极限。Claude 3 Sonnet在智能和速度之间取得了理想的平衡,特别适合企业工作负载。它以较低的成本提供强大的性能,并为大规模AI部署设计了高耐久性。用户将能够构建无缝的AI体验,模仿人类互动。

模型可用性

Opus和Sonnet现在已经在API中可用,该API现已在159个国家普遍可用,使开发者能够立即注册并开始使用这些模型。Haiku将很快推出。Sonnet正在为claude.ai上的免费体验提供动力,Opus则为Claude Pro订阅者提供。Sonnet今天也通过Amazon Bedrock和在Google Cloud的Vertex AI Model Garden中提供私人预览——Opus和Haiku也将很快在两者中推出。

型号详情