文:董指导
-----------------------------------o------------------------------------
本期要点
#大模型 #数学 #比大小
---------------------------------o----------------------------------
理工科和金融的复合背景,让我更好地理解技术,也喜欢从投资的视角发现变化,毕竟资本永不眠、资本最敏锐。国内头部私募的投研、以及头部财经自媒体创业的两段经历,让我有了结构化的思考体系时,也更理解企业经营并非写报告。因而,剖析商战,就成为我理解商业、发现机遇的最佳视角。
今天就来聊一下“大模型的数学计算能力”。
前几天,《歌手2024》最新一期,孙楠以微弱优势超过了海外歌手,获得第三。结果,却引起了网友们的争执。
争执焦点不是孙楠和海外选手Chante Moore谁唱得好,而是13.8%和13.11%到底哪个大?
不少人感叹,5%本科率,诚不欺我。九年义务教育,都白普及了。
但你要以为只有网友们是这样,那就大错特错了。同样的类似的问题,抛给AI之后,也翻车了。
ChatGPT 也没反应过来,但是经过多次提问矫正后,可以给出正确答案。
那么,国内各AI会如何呢?测试是这样:第一轮,直接询问“9.8和9.11哪个大”。
第二轮:担心AI没理解是数学问题,所以更加明确是“数字比大小,9.8和9.11哪个大”。
第三轮:质疑。
第四轮:继续质疑。
结果是这样的:
1、文心一言
第一轮就直接回答正确,而且两次质疑后,依然回答正确。
2、字节
也是,第一轮就回答正确了。两次质疑后,依然十分确定。
3、讯飞星火
第一轮回答正确,但质疑之后,就懵圈了,回答错了。 再次质疑后,又重新计算了一遍。然后,再质疑几次后,基本是坚持正确答案不变了。
4、通义千问
第一次回答错误;第二次告诉是数字比大小后,回答正确。
但是质疑之后,就连续错误了。
眼看着救不回来了,我又重复了一遍数学比大小,这次纠正了前面错误,而且在质疑之后能坚持正确答案了。
5、KIMI
KIMI还是处理中文结构化是非常好的,数学,这次翻车得很。怎么说都不行,脑海里浮现的就是吵架时女朋友的我不听我不听。
当然,数学计算只是AI的一个小功能,并不代表绝对的优劣。但是,还是提醒了我们,目前阶段,一个AI助手,是不够的。要多个交叉验证。
-全文完
理工/金融 复合背景,头部私募/头部自媒体 双重经历
董指导 和大家一起
深度挖掘商战,前瞻发现机遇
点个在看和赞再走~
热门跟贴