用国考题来测试“百小应”和 GPT-4o，到底谁能成功上岸？｜AI鲜测

硅星GenAI

2024-05-24 18:14 ·上海

作者｜丸丸柚贝

编辑｜椰子

5月22号，百川智能正式发布了Baichuan 4大模型，并推出成立之后的首款AI搜索助手“百小应”。

官方称，Baichuan 4与国外主流大模型对比，在知识百科、长文本、生成创作等文科类中文任务上明显优于国外大模型。

百小应体验地址：

https://www.baichuan-ai.com/

另外，据说取名“百小应”是因为它能“一呼百应”。话不多说，AI测评组再次上线，V我50，让你看看“百小应”的实力。

所以本期AI测评内容重点：知识常识、言语理解、问题分析、逻辑推理、长文本。意外发现国考题在这些方面简直比弱智吧还要好用。

今天就来看看“百小应”和GPT-4o谁能考公上岸成功！

AI国考——行测一、常识——奇怪的知识又增加了

Q1："毛病"指的是什么动物的毛？「国考真题」

A.猪 B.狗 C.羊 D.马

双方作答（点击可看大图）：

百小应

ChatGPT 4o

【答案】：D，马

百小应回答正确！

百小应 ChatGPT 4o 1:0

Q2：人体中最先衰老的器官是：「国考真题」

双方作答（点击可看大图）：

百小应 ChatGPT 4o

【答案】：胸腺

百小应回答正确！

百小应 ChatGPT 4o 2:0

PS：什么？胸腺竟然是从出生就开始衰老退化了！我应该不是最后一个知道的吧！

（关注硅星Gen AI让你了解更多冷知识）

Q3：图片中的小绿人叫什么名字（常识+多模态）「国考真题」

双方作答（点击可看大图）：

百小应

ChatGPT 4o

【答案】：皮特托先生

百小应：虽然冷门，但也难不倒我！

百小应 ChatGPT 4o 3:0

Q4：这条裙子是什么颜色的？

（经典裙子，测测AI图片视觉如何）

双方作答（点击可看大图）：

百小应 ChatGPT 4o

【答案】：你看到的是什么颜色呢？

百小应和ChatGPT 4o均能识别出该裙子的颜色分为两种不同情况，但ChatGPT 4o描述的更加清楚、准确，并了解到该裙子的颜色曾引发争议。

百小应 ChatGPT 4o 3:1

二、言语理解

春夏秋冬：四季（）「国考真题」

A.喜怒哀乐：情绪 B.赤橙黄绿：颜色

C.早中晚：一天 D.东南西北：四方

双方作答（点击可看大图）：

百小应 ChatGPT 4o

【答案】D

【解析】春夏秋冬：四季，全同关系和包容关系，春夏秋冬是四季，四季只有春夏秋冬。喜怒哀乐：情绪，情绪还有其他惊恐等。赤橙黄绿：颜色，颜色还有其他黑白红。早中晚：一天，一天除了早中晚还有上午下午等。东南西北：四方，东南西北是四方，四方只有东南西北，故选D

百小应答对！

百小应 ChatGPT 4o 4:1

三、问题分析

Q1：电脑黑屏怎么办？

双方作答（点击可看大图）：

百小应 ChatGPT 4o

百小应回答时可以主动提问，并且支持联网多轮搜索，解决问题更具有针对性（询问方式还怪贴心的，有被服务到）；ChatGPT 4o则是列举出来一些常见的解决办法。这局胜负很明显了吧！

百小应 ChatGPT 4o 5:1

Q2：请你对比一下华为P70和苹果15pro

双方作答（点击可看大图）：

百小应 ChatGPT 4o

两者均是以表格➕关键信息输出，结构清晰。但是两者的信息都不够准确，相对来说ChatGPT 4o的出错更少一些。所以这局ChatGPT 4o胜出。

百小应 ChatGPT 4o 5:2

四、逻辑推理

Q1：找出不同的选项（）「国考真题」

A.春天 B.夏天 C.秋天 D.冬天

双方作答（点击可看大图）：

百小应 ChatGPT 4o

【答案】C

【解析】因为“春、夏、冬”的字型都是上下结构，而“秋”是左右结构。故正确答案为C。

（你回答对了吗？）

百小应虽然选项对了，但是解析有点胡言乱语，不得分；ChatGPT 4o，答案没对，但解析略有一些道理，但不得分！

百小应 ChatGPT 4o 5:2

但是说实话，这题不管是答案还是题目本身在社交媒体上争论还是挺大的，现在看来在AI届也是挺有争议的。

Q2：甲、乙、丙、丁四人都报考了银行选拔考试，只有一个人通过笔试进入到面试，当被询问时，他们分别这样回答：

甲：我没有进入面试

乙：丁进入了面试

丙：乙进入了面试

丁：我没有进入面试

这四人中只有一个人说了真话，那么谁进入了银行选拔考试的面试？「国考真题」

A.甲 B.乙 C.丙 D.丁

双方作答（点击可看大图）：

百小应 ChatGPT 4o

【答案】A。

【解析】第一步，乙与丁是矛盾关系，必是一真一假；第二步，由题干知只有一真，可以判断真命题在乙与丁中；第三步，可由上述推断甲和丙为假，据此得出甲进了面试。故答案选A。

百小应和ChatGPT 4o全都out

百小应 ChatGPT 4o 5:2

AI国考——申论（长文本生成创作）

问题：

“给定材料 5”提到，“在大变局的喧嚣中始终坚守住‘本分’，切实增强好‘本领’，不断突破创新，推动高质量发展的步伐就能坚实稳健，我们就能走向广阔的未来。”请结合对这句话的理解，参考给定材料，联系实际，自选角度，自拟题目，写一篇文章。

要求：

（1）观点明确，见解深刻；

（2）参考给定材料，但不拘泥于给定材料；

（3）思路清晰，语言流畅；

（4）字数 1000～1200 字。「国考真题」

双方作答：

百小应

ChatGPT 4o

两者的文章结构都比较清晰，那不如让Kimi当个中间人来评价两者的表现。

Kimi巴拉巴拉总结：ChatGPT 4o写的好。

OK，这局胜负已分！ChatGPT 4o胜出。

恭喜“百小应”成功上岸

最终结果百小应 ChatGPT 4o 5:3，恭喜百小应以两分优势，成功上岸！在理解中文语境、常识等题目上，百小应表现突出，AI联网多轮搜索，主动提问的能力也有些惊艳。总的来说，不愧是国内排名第一大模型——Baichuan-4大模型。

在国内价格战打到飞起的时候，百川智能凭实力突出重围。王小川表示，价格免费是优势，但不一定是竞争力。百川并不会掺和到价格战当中，因为To B不是公司的主要商业模式，价格战的影响也有限。公司会将更多的精力放在超级应用当中。

最后，王小川还私下透露，让AI助手百小应会提问，主要是为了日后的超级应用做积累。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴