打开网易新闻 查看精彩图片

都说B站硬核大会员的通关测试题目极其硬核,不如我们用AI做个弊?

打开网易新闻 查看精彩图片

上周国产 AI跃问App上线了(不知道跃问的小伙伴自行补课:),这次的跃问除了原来的长文总结、文档理解等功能之外,既能拍照问答、又智能搜索,估计大家看测评也看烦了,想起B站站硬核大会员的进阶题目倒是困扰我挺久的,据我调查三五好友,他们也声称题很偏、比较难。现在压力给到跃问App,它能否帮我们通关,直达LV6 小闪电⚡️?我们一起来试试!

打开网易新闻 查看精彩图片

第一次挑战

那我们先选择动画/动漫、知识、鬼畜区,接下来直接答题。

打开网易新闻 查看精彩图片

开始答题:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

可以看到这次AI只给出了答案, 即使 过程中调整提示词,它依旧只是给出一个答案,看着倒是简洁明了,但是无从判断它的识图能力、分析推理能力到底如何。

你觉得AI答的对吗?你的答案是什么?

不过很好的一点是我们跃问全部答完了,那到底能不能通关呢?

(本次题目链接在此:https://yuewen.cn/share/114631435266416640?utm_source=share&utm_content=web_linkcopy)

答案揭晓:

打开网易新闻 查看精彩图片

第一次通关共答题100道, 得分54分,很遗憾,进阶失败

我们来小小总结下经验:

  • 跃问对于很多的鬼畜题很难答对,鬼畜对于AI来说理解难度确实不小。就像你问各大模型弱智吧的题,同样很多是转不过弯来的。所以主要是选择更加容易找到答案的区域,题目不能太偏,全是鬼畜那AI指定过不了。

  • 这一次全都是截图直接提问跃问,主要是想测试它的多模态能力,目前无法判断水平如何。因为它只回答了ABCD,无从判断是否它真的读到题目了。接下来我们调整下提示词,然后让它先分析题目,然后再结合答案作答。

第二次挑战

既然都来答题了,那我们今天的首要目的是通关。我估摸着对于ai来讲(甚至是对于人来讲),网络能搜到的、文史类的等等这一类的题相对来说会比鬼畜区更容易一些。那我们就再来试试看,这次我们选择知识、文史、体育区,看在跃问的帮助下能否通关。

打开网易新闻 查看精彩图片

先给跃问一段提示词Prompt,然后我们再开始答题。

现在我要进行B站硬核大会员的升级测试,我每次会给你一道题,包含ABCD四个选项。你帮我分析题目,并从选项中获取正确答案。

如果你不确定或者是不会做,那就联网搜索之后找到答案再回复我。找不到答案不许回来。

注意:避免只回复abcd选项,因为需要你有充分的理由才能答对题。

(PS:目的是为了让AI好好审题,突然觉得自己好像个出题老师啊!)

打开网易新闻 查看精彩图片

这里我们看题目跟上面的有啥不同,同时加上提示词之后,看看跃问回答的能力边界在哪里。我们 主要从3个方面测试:1️⃣ 图片识别能力,2️⃣ 逻辑分析推理能力,3️⃣ 搜索能力,其他能力本文暂不讨论。

我们来看几个回答:

最近世界杯正热火朝天,这不B站的世界杯题目说来就来:

打开网易新闻 查看精彩图片

1-20题(截图问答)直达链接: https://yuewen.cn/share/114634969110134784?utm_source=share&utm_content=web_linkcopy

根据跃问的回答,说明它能识别出截图中的内容,识图能力还可以;再看回答的内容还挺有理有据的,分析后给出了答案。

回答完了世界杯,来一道历史题:

打开网易新闻 查看精彩图片

21-40题(文字问答): https://yuewen.cn/share/114635310295793664?utm_source=share&utm_content=web_linkcopy

回答这道历史题的时候采用了搜索能力,搜索信源这次出现了3类。但在21-40题的其他回答中,多数问题都采用了搜索,同样信源也不少。比如在第36题中,信源增加了搜狐、腾讯、虎扑社区、manuted.com 等等信息来源。

打开网易新闻 查看精彩图片

在答题过程中会发现,跃问多次用到联网搜索,同时还会排除法的做题思路,一定程度上增加了答案的精准性。

到了第42题开始,跃问的识图能力开始有所下降,上传两次截图,均未识别出图中题目,更别提答对了。

打开网易新闻 查看精彩图片

41-60题(截图问答):https://yuewen.cn/share/114635510733201408?utm_source=share&utm_content=web_linkcopy

但它回答的是《阿甘正传》,识图上有很大的幻觉,第二次上传依旧未能识别出图中内容。

打开网易新闻 查看精彩图片

然而我直接用文字提问它,答案则精准很多。

打开网易新闻 查看精彩图片

可以说跃问的识图能力还是有待提升的,用肯定能用,但要注意甄别答案

再来看一道知识题

打开网易新闻 查看精彩图片

我们会发现跃问回答的有些模棱两可,瞎分析,根本就没分析出哪个不是昆虫。

我们再来看一道关于AI的题目

打开网易新闻 查看精彩图片

61-80题(文字&图片混合问答): https://yuewen.cn/share/114635760810164224?utm_source=share&utm_content=web_linkcopy

这一道AI题,跃问逐个分析选项,看起来非常有条理,那么你答对了吗?

进入最后一道,化学题

打开网易新闻 查看精彩图片

81-93题(文字&图片混合问答): https://yuewen.cn/share/114635940812914688?utm_source=share&utm_content=web_linkcopy

跃问先是分析来题目,然后再分析了每一个选项,最后做出的答案,分析过程看起来挺有道理。不过你还记得答案是什么吗?

从第42题开始,我就开始图片和文字轮番上阵了,以免它又出现幻觉,胡说八道,识别不出来。

第二次通关咱们做了93题就被迫交卷了,那咱们的题目分析也到这儿,来看看最终的战果如何。

最终得分64分成功通关,升级为硬核会员!!

打开网易新闻 查看精彩图片

93题答对64题,跃问险胜通关!

一些通关经验

两次测试终于通关了,这里分享一些小小的经验给想通关的你,不能说必保通关,但一次两次能通关还是可以的!

打开网易新闻 查看精彩图片

  • 有手就会篇

根据这次答题经验,以及查询之前做的相关功课,会发现鬼畜区、动漫区、影视区相对于其他几个区的问题更加难,题目更加刁钻一些;不过好消息是我发现有些题目是重复的,比如鬼畜区经典老梗:

金坷垃老梗回顾

打开网易新闻 查看精彩图片

梗-唱跳rap和(没人不知道吧?)

打开网易新闻 查看精彩图片

那这样的话,我们需要做好两点:

第一,准备好你身边的AI应用,能识图、能文字输入都可以。如果可以的话,直接截图上传然后AI回答你直接选答案就行了。

第二,开始答题前做好答题区域选择,尽量选择知识、文史、体育、音乐等AI能搜索到的类型即可,能增加不少答题正确率。

做好以上两点,你就躺平无脑选答案就行啦!

  • 提前准备学习篇

自己提前刷题库,甚至可以把题目喂给AI,让它学习后再来做题。你选哪个题库,你就去搜哪个题库,网络一搜一大把,这里附上几个题目合集:

2024年B站硬核会员考核560题: https://www.bilibili.com/read/cv33967949/

2024年B站硬核会员/试炼动漫区题库: https://www.bilibili.com/read/cv30751044/

2024份的硬核会员考试鬼畜区: https://www.bilibili.com/video/BV1RM4m1X7aw/?spm_id_from=333.337.search-card.all.click&vd_source=c51b77ea0e8c6261e9039c2c3d6b6410

B站硬核会员测试文史区: https://www.bilibili.com/video/BV1t94y1P7v9/?spm_id_from=333.337.search-card.all.click&vd_source=c51b77ea0e8c6261e9039c2c3d6b6410

知识、音乐、文史区题目: https://www.bilibili.com/video/BV11V411X72R/?spm_id_from=333.788.recommend_more_video.6&vd_source=c51b77ea0e8c6261e9039c2c3d6b6410

2024年硬核会员影视区: https://www.bilibili.com/video/BV1vA4m1w7Qc/?spm_id_from=333.337.search-card.all.click&vd_source=c51b77ea0e8c6261e9039c2c3d6b6410

打开网易新闻 查看精彩图片

最后

用跃问做B站硬核会员两次总算通关了。 这次的实测结论有:

  • 识图能力:跃问APP大部分情况能识别图中内容,并针对内容及时进行推理;也存在几次识别的内容根本不是截图的提问,甚至有时候会胡编乱造出来一个新题目并自己分析给出答案。除此之外,审核相对严格,对于中国的一些内容会绕开,适当做选择性回答。

  • 逻辑推理能力:答题时会先分析题目,找信息然后作答,有时候会采用排除法作答。但有几次出现了逻辑混乱、选项错乱的情况,给不出正确答案。

  • 搜索能力:提示词中提醒它“不会去搜索”增加了搜索的概率,进而增加了答案的准确性。

说实话,AI更新太快了,每一个模型的擅长之处不尽相同,我们无论用哪一个,或多或少都能有所帮助,希望你在不同的场景下AI工具间切换自如、能随时随地解决大小问题。