打开网易新闻 查看精彩图片

文:董指导

-----------------------------------o------------------------------------

本期要点

#大模型 #数学 #比大小

---------------------------------o----------------------------------

理工科和金融的复合背景,让我更好地理解技术,也喜欢从投资的视角发现变化,毕竟资本永不眠、资本最敏锐。国内头部私募的投研、以及头部财经自媒体创业的两段经历,让我有了结构化的思考体系时,也更理解企业经营并非写报告。因而,剖析商战,就成为我理解商业、发现机遇的最佳视角。

今天就来聊一下“大模型的数学计算能力”。

前几天,《歌手2024》最新一期,孙楠以微弱优势超过了海外歌手,获得第三。结果,却引起了网友们的争执。

争执焦点不是孙楠和海外选手Chante Moore谁唱得好,而是13.8%和13.11%到底哪个大?

打开网易新闻 查看精彩图片

不少人感叹,5%本科率,诚不欺我。九年义务教育,都白普及了。

但你要以为只有网友们是这样,那就大错特错了。同样的类似的问题,抛给AI之后,也翻车了。

ChatGPT 也没反应过来,但是经过多次提问矫正后,可以给出正确答案。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

那么,国内各AI会如何呢?测试是这样:第一轮,直接询问“9.8和9.11哪个大”。

第二轮:担心AI没理解是数学问题,所以更加明确是“数字比大小,9.8和9.11哪个大”。

第三轮:质疑。

第四轮:继续质疑。

结果是这样的:

1、文心一言

第一轮就直接回答正确,而且两次质疑后,依然回答正确。

打开网易新闻 查看精彩图片

2、字节

也是,第一轮就回答正确了。两次质疑后,依然十分确定。

打开网易新闻 查看精彩图片

3、讯飞星火

第一轮回答正确,但质疑之后,就懵圈了,回答错了。 再次质疑后,又重新计算了一遍。然后,再质疑几次后,基本是坚持正确答案不变了。

打开网易新闻 查看精彩图片

4、通义千问

第一次回答错误;第二次告诉是数字比大小后,回答正确。

但是质疑之后,就连续错误了。

眼看着救不回来了,我又重复了一遍数学比大小,这次纠正了前面错误,而且在质疑之后能坚持正确答案了。

打开网易新闻 查看精彩图片

5、KIMI

KIMI还是处理中文结构化是非常好的,数学,这次翻车得很。怎么说都不行,脑海里浮现的就是吵架时女朋友的我不听我不听。

打开网易新闻 查看精彩图片

当然,数学计算只是AI的一个小功能,并不代表绝对的优劣。但是,还是提醒了我们,目前阶段,一个AI助手,是不够的。要多个交叉验证。

-全文完

理工/金融 复合背景,头部私募/头部自媒体 双重经历

董指导 和大家一起

深度挖掘商战,前瞻发现机遇

点个在看和赞再走~