Claude3模型发布，总结了这九点！OpenAI又将打出什么牌？|claude|openai|上下文|知识库|视频生成模型

前言

Anthropic公司宣布，Claude 3模型家族将重新定义我们在认知任务上的行业标准。这个家族包括三个不同能力的模型：Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每个模型都在智能、速度和成本之间提供了最佳的平衡，以适应各种特定应用的需求。

Claude 3：智能的新标准

Claude 3系列模型在多项评估基准测试中超越了同行，包括本科水平的专家知识（MMLU）、研究生水平的专家推理（GPQA）、基础数学（GSM8K）等。Opus，作为最智能的模型，展现了接近人类的理解和流利度，引领了通用智能的前沿。所有Claude 3模型在分析、预测、细致内容创作、代码生成以及非英语语言对话（如西班牙语、日语和法语）方面的能力都有所增强。

近瞬时结果：速度与效率的完美结合

Claude 3模型能够支持实时客户聊天、自动完成和数据提取任务，响应速度必须迅速且实时。Haiku是市场上速度最快、性价比最高的模型，它能在不到三秒钟的时间内阅读一篇包含图表和图形的arXiv研究论文（约10k tokens）。Sonnet在大多数工作负载中的速度是Claude 2的两倍，且智能水平更高，擅长快速响应的任务，如知识检索或销售自动化。Opus则在保持类似速度的同时，提供了更高的智能水平。

强大的视觉能力

Claude 3模型具有与其他领先模型相媲美的复杂视觉能力。它们可以处理各种视觉格式，包括照片、图表、图形和技术图。特别的是，能够为特别的企业提供这种新的模态，因为一些企业的知识库中有高达50%的信息以PDF、流程图或演示文稿幻灯片等格式编码。

更少的拒绝：更细腻的理解

以前的Claude模型经常做出不必要的拒绝，这表明缺乏上下文理解。Opus、Sonnet和Haiku在拒绝接近系统边界的提示方面的可能性显著降低。Claude 3模型展示了更细腻的理解能力，识别真正的伤害，并更少地拒绝无害的提示。

提高准确性：可信赖的输出

各种规模的企业都依赖Claude模型来服务他们的客户，这使得模型输出在大规模上保持高准确性至关重要。为了评估这一点，用了一系列复杂的、针对当前模型已知弱点的事实问题。根据模型的回答将它们分类为正确答案、错误答案（或幻觉）以及承认不确定性。与Claude 2.1相比，Opus在这些具有挑战性的开放式问题上的正确答案（或准确率）提高了两倍，同时也展示了较低的错误答案水平。

长篇幅上下文与近乎完美的回忆

Claude 3系列模型最初将提供一个200K的上下文窗口。然而，所有三个模型都能够接受超过100万个tokens的输入，同时可能会为需要增强处理能力的特定客户开放这一功能。为了有效地处理长篇幅上下文提示，模型需要强大的回忆能力。'Needle In A Haystack'（NIAH）评估衡量了模型从大量数据中准确回忆信息的能力。通过使用每个提示的30个随机针/问题对之一，并在多样化的众包文档语料库上进行测试，增强了这个基准的鲁棒性。Claude 3 Opus不仅实现了近乎完美的回忆，准确率超过99%，而且在某些情况下，它甚至识别了评估本身的局限性，意识到“针”句子似乎是被人为插入到原始文本中的。

模型细节

Claude 3 Opus能够处理高度复杂的任务。它能够以惊人的流畅度和类人理解力处理开放式提示和未见场景。Opus向我们展示了生成性AI的可能性极限。Claude 3 Sonnet在智能和速度之间取得了理想的平衡，特别适合企业工作负载。它以较低的成本提供强大的性能，并为大规模AI部署设计了高耐久性。用户将能够构建无缝的AI体验，模仿人类互动。

模型可用性

Opus和Sonnet现在已经在API中可用，该API现已在159个国家普遍可用，使开发者能够立即注册并开始使用这些模型。Haiku将很快推出。Sonnet正在为claude.ai上的免费体验提供动力，Opus则为Claude Pro订阅者提供。Sonnet今天也通过Amazon Bedrock和在Google Cloud的Vertex AI Model Garden中提供私人预览——Opus和Haiku也将很快在两者中推出。

型号详情