打开网易新闻 查看精彩图片

新智元报道

编辑:编辑部

【新智元导读】热乎乎的文心一言测评报告出炉了!虽然有些任务被吊打,但要论中国文化的博大精深,它可不输GPT-4。

GPT-4震撼发布了!更智能也更强大,考试中超90%的人类
打开网易新闻 查看更多视频
GPT-4震撼发布了!更智能也更强大,考试中超90%的人类

昨天,百度没有现场demo的发布会,似乎被群嘲了一波。

打开网易新闻 查看精彩图片

一位穿白衬衣、黑裤子,系一条白色腰带的美男子,给我们带来了一场中规中矩、似乎缺乏亮点的演示。

打开网易新闻 查看精彩图片

不过,CEO的腰带和颜值倒是出了圈。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

有人调侃,这些天被ChatGPT、GPT-4整焦虑的人,发布会后忽然又觉得自己可以了。

打开网易新闻 查看精彩图片

但是拿到内测码的小编,火速测评了一波。

看着文心一言洋洋洒洒腾蛟起凤,感慨万千:或许,当时百度要是心一横,牙一咬,愿意在发布会上露一手,结果会大不一样。

实测报告火热出炉!

先来试试最近很火的一道鸡兔同笼题。因为这道题本身有问题,算出来结果是负的,所以经常被用来调戏各种「ChatGPT」们。

如果只是单纯问这个问题,文心一言会非常机智地说:这道题出错了吧!

然而,当你问计算过程的时候,还是寄了……

打开网易新闻 查看精彩图片

而GPT-4这边则是,自己把自己的计算推倒重来了好几遍之后,理不直气也壮地给出了错误答案……

打开网易新闻 查看精彩图片

而必应则很干脆,毫不犹豫地给出了错误答案。

打开网易新闻 查看精彩图片

还有这次意外火出圈的「V50」梗,文心一言从意思到出处一本正经地解释了一遍。

打开网易新闻 查看精彩图片

但GPT-4显然就有些水土不服了……

打开网易新闻 查看精彩图片

不过能上网的必应,还是可以轻松搞定的。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

但是到谐音梗这里,文心一言似乎并不能马上领悟其中的微妙。

打开网易新闻 查看精彩图片

即便提示这是个谐音梗之后,它依然输出了一样的答案。

打开网易新闻 查看精彩图片

而GPT-4,立马就明白了中文里的双关。

打开网易新闻 查看精彩图片

不过,你要是问文心一言懂不懂什么叫「麻了隔壁」,就有意思了。

打开网易新闻 查看精彩图片

看回答吧,它能说出这是个谐音梗,应该是懂了。但是呢,它又不明说,哎,就是让你挑不出错,绝对教不坏小孩。

打开网易新闻 查看精彩图片

而GPT-4却无法get到这个梗,果然,咱们的国粹,外国的机器人理解起来确实有难度。

打开网易新闻 查看精彩图片

接下来让(忽悠)文心一言重复我们说的话,虽然没有像GPT-3.5回答「您是智障」那么聪明,但也成功避开这个坑。

从某种程度上说,智商还是在线的,并且十分正能量。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

老婆的话好像管用,好像又不管用....

打开网易新闻 查看精彩图片

另外,让它们互相给对方出难题。

打开网易新闻 查看精彩图片

可以看到,GPT-4给出的问题相对更直观,颗粒度也更细。

打开网易新闻 查看精彩图片

美术功底如何?

文心一言是个多模态模型,那咱们来看看它的绘图能力。

来看看金庸笔下的美艳少妇,在文心一言笔下会是什么样子。

打开网易新闻 查看精彩图片

这……小编一口水喷出来。

你别说,美吧,肯定不够美,但也并不丑,是一张初看捧腹、细看值得反复咂摸的脸。

文心一言,就喜欢你这不按套路出牌的样子!

那让文心一言生成一幅林黛玉的画像吧。

输入描述后,它生成了一棵柳树……

打开网易新闻 查看精彩图片

于是小编明确了一下要求,要按这段文字生成一幅女子的画像。

然后文心一言确实画出一位古典美女,但气质明显不对。

打开网易新闻 查看精彩图片

不死心的小编多次重复任务,你别说,试到第五次的时候,小编眼前一亮:终于得到了一张可以打70分的图!

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

玩上瘾的小编,非要生成一个90分的林黛玉不可。试了几次之后,果然蹲到了!

打开网易新闻 查看精彩图片

可见,文心一言的发挥不稳定,但多番尝试下,有可能诞生非常惊艳的作品。

既然都到这儿了,那怎么少得了「林黛玉倒拔垂杨柳」呢。

比较亮点的图,都给大家贴这儿了。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

要求它画一张鸭子和兔子的合体,这生成的是鸭还是兔呢?

打开网易新闻 查看精彩图片

而这个任务中,恐怕文心一言也没有搞明白,盘子里到底有没有香蕉?杯子里有没有橙汁?

打开网易新闻 查看精彩图片

最后,既然文心一言强烈推荐我们尝试「晶莹剔透的牡丹花」,那就画几张试试吧!

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

不愧是「代表作」,有点东西。

专业知识和生产力

既然是评测,怎么能少的了让AI写代码这个环节。这次,我们直接来个难的!

可惜,文心一言一上来就错了,而且同一个句式还被非常诡异地重复了三遍。TypeScript编译器概念更是「贯穿全文」,有点像一个只知道一到两个专业词汇的人在面试中硬答。

打开网易新闻 查看精彩图片

而GPT-4的回答,从一个了解相关背景但是没有相关操作经验的人的角度来看,是非常合理的。

它不仅完整的提供了整个工作流,而且还提供了很多看起来正确的技术细节。可以说,根据这个回答,我们是有信心达成最终的目标的。

打开网易新闻 查看精彩图片

随后,小编还测评了一波聊天机器人们写工作计划表的能力。

文心一言:

打开网易新闻 查看精彩图片

GPT-4:

打开网易新闻 查看精彩图片

从上面的这个结果来看,GPT-4的列表更完备一些。不过由于随机性的影响,GPT-4每次给出的回答都不大一样。

接下来,再测一测两个语言模型对于数学界前沿讯息的掌握情况。

对于自己是否已解决了「零点猜想」问题,张益唐本人是这样解释的:「大海里的针我没捞到, 但海底地貌我探得差不多了。」

那问问文心一言呢?

它很聪明,给出了关键词——「某种形式的弱化或间接证明」。

打开网易新闻 查看精彩图片

但GPT-4的回答,就有点驴头不对马嘴了。

看来,对于出现时间不长、还未形成普遍共识的互联网中文语料,文心一言比起GPT-4要更胜一筹。

打开网易新闻 查看精彩图片

而在文学方面,文心一言在回答关于三体的问题时,也是非常得溜。

打开网易新闻 查看精彩图片

GPT-4的回答也很精彩,如果非要论个高下,小编个人更喜欢文心一言的答案。

打开网易新闻 查看精彩图片

最后,搞怪可以,但请做一个遵纪守法的好公民,预测彩票中奖号码这种事就不要想了!

打开网易新闻 查看精彩图片

据说,文心一言新闻发布会后三小时,文心一言企业版API调用服务测试的企业用户,就已经突破了6.5万。

打开网易新闻 查看精彩图片

来源:周建工

对AI模型来说,能不能做到,或许比能不能做好更重要。

让我们再给中国玩家们一些时间。

参考资料:

https://yiyan.baidu.com