碾压GPT-4吹牛了！一手评测Claude 3最强版本Opus：多模态能力略差，做数学题实强|gpt-4|opus|小编|数学题|模态

作者｜杨文

来源｜AI先锋官

先锋官有话说：

产品名称：Claude 3 Opus

总体评价：★★★★☆

易用性：★★★★☆

功能性：★★★★☆

创新性：★★★★☆

推荐功能：文字处理、数学推理

最近AI圈卷疯了，小编手里的选题，写不完，根本写不完。

昨晚，由几位OpenAI 前员工创立的 AI 公司 Anthropic 推出了新的Claude 3系列模型，并称其是目前市面上速度最快、性能最卓越的人工智能模型。

网友们纷纷点评“全球最强大模型一夜易主，GPT-4时代终结！”

产品介绍

Anthropic发布了新一代大语言模型Claude 3系列，包括Claude 3 Opus（著作）、Sonnet（十四行诗）和Haiku（俳句）三种规模，分别代表了超大杯、大杯和中杯。

Anthropic声称,最强大的Claude 3 Opus模型在行业基准测试中超越了OpenAI的GPT-4和谷歌的Gemini Ultra，尤其在本科水平的知识、研究生水平的推理以及基础数学方面更是展现出了卓越的能力。

此外，Claude 3还具备视觉识别能力，能够处理包括照片、图表和技术图纸等多种视觉资料。

Claude 3的主要功能

1.增强的多语言能力：Claude 3模型在处理非英语语言方面有所提升，能够更好地理解和生成西班牙语、日语和法语等语言的内容。

2.长文本处理能力：Claude 3模型家族提供了200K的上下文窗口，并且能够处理超过100万token的输入，有助于更好地理解和记忆长文本信息。

3.视觉处理能力：Claude 3模型具备处理各种视觉格式的能力，包括照片、图表、图形和技术图示等文件。

4.实时响应能力：模型能够支持实时的客户聊天、自动完成和数据提取任务，提供近乎即时的结果。

5.减少拒绝回复：与之前的模型相比，Claude 3在理解请求方面更加细腻，减少了在系统边界附近不必要的拒绝。

6.提高准确性：Claude 3模型在处理复杂、事实性问题时的准确性有所提高，减少了错误答案的产生。

7.结构化输出：Claude 3模型在生成JSON等流行结构化输出方面有所改进，简化了自然语言分类和情感分析等用例的指令。

8.更易于使用：Claude 3模型更擅长遵循复杂的多步骤指令，并且能够更好地遵循品牌声音和响应指南。

每个模型的具体特点

Claude 3 Opus：最智能的模型，适用于高度复杂的任务，如任务自动化、研发和策略分析。

Claude 3 Sonnet：在智能和速度之间提供平衡，适合企业工作负载，如数据处理和客户互动。

Claude 3 Haiku：最快的模型，适用于需要即时响应的场景，如内容审核和节省时间的任务。

相较于Opus，Sonnet和Haiku两款模型在参数规模和使用成本上更为亲民。

链接直达

目前，用户可免费使用Claude 3 Sonnet模型。而最强的Opus版本，则需要付费订阅，价格为20美元/月。Haiku 模型即将推出。

Claude 3 Sonnet模型：

https://claude.ai/chats

-5-

一手评测：

多模态能力略差，文字处理、数学推理实强

既然网友们声称Claude 3超越了GPT-4，咱们就让Claude 3最强版本Opus和GPT-4好好较量一番。

（温馨提示：以下测评均使用英文，然后翻译为中文。）

先看这俩大模型的界面。说实话，小编很喜欢Claude 3的界面。

与GPT-4比起来，Claude 3的界面简洁中透着美感。最上方是LOGO，下面依次是欢迎语、问题输入框以及Claud3 最新能力的图文介绍，最下面是历史记录。

无论是功能设置还是配色，都简洁大方，一应俱全。

废话不多说，咱们来上干货。

一、多模态能力：GPT-4仍遥遥领先

此次Claude 3最受关注的就是具备处理各种视觉格式的能力，包括照片、图表、图形和技术图示等文件。

Round1:理解和处理图片能力

小编上传了一张小时候看过的动画片大力水手的照片，问：这是哪个卡通人物？

Claude 3Opus的回答：

GPT-4的回答：

这俩大模型都回答正确，不过Opus回答得更细致，还把画面描述了一遍。

这一局，Opus略胜一筹。

小编又上传了一张较为潦草的英文手写字迹，问：这上面写了什么？

Claude 3Opus的回答：

GPT-4的回答：

虽然二者都能识别图片中的文字，但很遗憾，它们都没准确识别图中涂改过的单词“render”。

这一局，二者半斤八两。

Round2:画图能力

小编让这俩大模型分别画一只戴着耳机的小猫。

Claude 3Opus的回答：

GPT-4的回答：

一提到画图，Opus上来就道歉，无法绘制、生成、编辑、操作或创建图像。目前，它只具备感知和分析图片的能力。

而GPT-4虽然生成的图片比较丑，但起码它有这能力。

很明显，这局GPT-4赢了。

Round 3:语音“朗读”功能

眼瞅着Claude 3的“挑衅”，OpenAI终于坐不住了，在社交平台上发布了ChatGPT具有语音朗读的功能。

“ChatGPT现在可以读取响应。在iOS或Android上，点击并按住消息，然后点击“朗读”。我们也开始在网络上滚动——点击消息下方的“朗读”按钮。”

小编看热闹不嫌事大，直接把这张图喂给了Opus，问：这是什么功能？你有这种功能吗？

Claude 3Opus回答：

Opus是真实诚，坦言自己的技能集中于分析图像和进行基于文本的对话，不具备这种文本转语音的功能。

这一局，GPT-4赢了。

Round 4:视频处理能力

小编想上传一段Sora生成的猛犸象视频，并问：视频中有几只猛犸象？

Claude 3Opus的回答：

GPT-4的回答：

Opus直接无法上传视频文件，更别提回答问题了。

GPT-4不仅能上传视频文件，也能分析出视频的时长。只不过，它无法统计视频中的猛犸象数量。

这一局，仍是GPT-4胜。

二、数学推理能力：Opus更胜一筹

小编从北京市2023年中考数学真题中选了几道，分别来测试这俩大模型。

Round1：若关于x的一元二次方程x2-3x+m=0有两个相等的实数根，则实数m的值是多少？正确答案应该选C，9/4

Claude 3Opus的回答：

GPT-4的回答：

Opus回答正确，GPT-4则选了B，算出-9/4，回答错误。

这一局，Opus赢。

Round2：已知x+2y-1=0，求代数式（2x+4y）/（x2+4xy+4y2）的值。正确答案是2。

Claude 3Opus的回答：

GPT-4的回答：

Opus回答正确。

而GPT-4一顿操作猛如虎，写了一堆看不懂的解题过程，最后答案算出个x。

这一局，Opus赢。

Round3：某珠宝店失窃，甲、乙、丙、丁四人涉嫌被拘审。四人的口供如下：

甲：案犯是丙。

乙：丁是案犯。

丙：如果我作案，那么丁是主犯。

丁：作案的不是我。

四个口供中只有一个是假的。

如果以上断定为真，则以下哪项是真的?（）

A.说假话的是甲，作案的是乙

B.说假话的是丁，作案的是丙和丁

C.说假话的是乙，作案的是丙

D.说假话的是丙，作案的是丙

正确答案：B

Claude 3Opus的回答：

GPT-4的回答：

这道题目俩大模型都给出了正确答案，但Opus的回答更简单直接，而GPT-4分析了一通，把小编绕的云里雾里。

三、文字处理能力:Opus赢麻了

Round1:Why in the romance of The Three kingdoms Zhuge Liang could not break Kong Ming's empty city scheme?（为什么《三国演义》中的诸葛亮破不了孔明的空城计？）

Claude 3Opus的回答：

GPT-4的回答：

这俩大模型都指出了这道题目的问题所在——诸葛亮和孔明是同一个人。

但是，在细节上，Opus回答更准确，GPT-4则有一些错误。例如，GPT-4认为罗贯中和诸葛亮是同一个人；诸葛亮在城楼上弹古琴，而非琵琶。

这一局，Opus略胜一筹。

Round2:In the Romance of The Three Kingdoms, why did Lu Bu flirt with Lin Daiyu?Who was Lu Bu flirting with?（三国演义中，吕布为何调戏林黛玉？吕布调戏的是谁？）

Claude 3Opus的回答：

GPT-4的回答：

这俩大模型都非常默契的认为，吕布不可能调戏林黛玉，因为这是两个不同文学作品中的人物。

不过，对于“吕布到底调戏的是谁？”这一问题，Opus竟编出来一个燕夫人，难道Opus和小编读的不是同一本《三国演义》？

GPT-4似乎更了解中国文化，对吕布和貂蝉的戏码如数家珍。

这一局，GPT-4胜。

Round3:小编上传了一份12万字的PDF文档，问：How many topics does this document cover? What are they?（这份文档介绍了几个话题？分别是什么？）

Claude 3Opus的回答：

GPT-4的回答：

这份12万字的文档，涉及人类永生、人工只能、火箭技术、氢弹、芯片等多方面的科普内容。

从回答来看，Opus是把整个文档全部读完了进行的总结，回答出芯片、光刻机、火箭等主题，但而GPT-4似乎只阅读完了第一部分人类永生与衰老。

这一局，Opus完胜。

-6-

总结

从多模态能力上来说，Claude 3Opus只会看图，不会画图，也没有视频处理和语音处理的能力，而GPT-4则更胜一筹。

从数学推理能力上来说，Claude 3Opus做数学题、推理的本事确实比GPT-4强，不过高中数学题还是容易掉链子。

从文字处理能力上来说，Claude 3Opus绝对更胜一筹。

Claude 3每次能够处理大约15万个单词的内容，这相当于处理一本长篇巨著，如《白鲸记》（Moby Dick）或《哈利波特与死亡圣器》（Harry Potter and the Deathly Hallows）的内容。

相比之下，ChatGPT的单次处理能力大约为3000个单词。

换句话说，Claude 3单词处理能力是ChatGPT近50倍。

在数学推理和文字处理方面，Claude 3Opus确实厉害，但由此淘汰掉GPT-4还为时尚早，起码多模态能力方面就差一些。

碾压GPT-4吹牛了！一手评测Claude 3最强版本Opus：多模态能力略差，做数学题实强

热搜

热门跟贴

热搜

热门跟贴

相关推荐

珠海市五年级数学期末考试压轴题，求面积，难住很多学生

初中数学经典题型

家长让孩子用电视做数学算题，结果孩子语音唤出助手帮忙答题，网友：这算不算合理利用工具

小升初奥数培优专题分数乘除法混合运算，运算顺序和细节值得注意

178高考数学卷3 (文) 8 点到直线的距离

挑战美国竞赛题：初中数学压轴题，你能做出来吗？

这道小学题99%的人小时候都靠蒙，学会天平思维5秒解决

找规律填数字，数字太少怎么办

小学数学求阴影部分面积不用相似也能做

解方程组，难度较大的一道题，学霸的解法挺绝

163高考数学全国3卷 理 13 线性规划 求最大值

数轴折叠问题，一个视频学通！

四年级数学题，难倒全班同学

小学竞赛题：能做出来的人寥寥无几，有难度

中考数学：AB=5，AC=3，求三角形ABC的面积

上海中考题，学霸10秒就拿下

高考模拟题，没有一定的计算能力，还真求不出来

这道数学题竟然困扰了全球数学家50年？

打听式教学创始人，哈哈哈

数学老师讲解数学题，黑板上的算式引人注目！

163高考数学全国3卷理 13 线性规划求最大值