AI也懵圈：13.8%和13.11%到底哪个大？

董指导聊科技

2024-07-16 17:41 ·上海

文：董指导

-----------------------------------o------------------------------------

本期要点

#大模型 #数学 #比大小

---------------------------------o----------------------------------

理工科和金融的复合背景，让我更好地理解技术，也喜欢从投资的视角发现变化，毕竟资本永不眠、资本最敏锐。国内头部私募的投研、以及头部财经自媒体创业的两段经历，让我有了结构化的思考体系时，也更理解企业经营并非写报告。因而，剖析商战，就成为我理解商业、发现机遇的最佳视角。

今天就来聊一下“大模型的数学计算能力”。

前几天，《歌手2024》最新一期，孙楠以微弱优势超过了海外歌手，获得第三。结果，却引起了网友们的争执。

争执焦点不是孙楠和海外选手Chante Moore谁唱得好，而是13.8%和13.11%到底哪个大？

不少人感叹，5%本科率，诚不欺我。九年义务教育，都白普及了。

但你要以为只有网友们是这样，那就大错特错了。同样的类似的问题，抛给AI之后，也翻车了。

ChatGPT 也没反应过来，但是经过多次提问矫正后，可以给出正确答案。

那么，国内各AI会如何呢？测试是这样：第一轮，直接询问“9.8和9.11哪个大”。

第二轮：担心AI没理解是数学问题，所以更加明确是“数字比大小，9.8和9.11哪个大”。

第三轮：质疑。

第四轮：继续质疑。

结果是这样的：

1、文心一言

第一轮就直接回答正确，而且两次质疑后，依然回答正确。

2、字节

也是，第一轮就回答正确了。两次质疑后，依然十分确定。

3、讯飞星火

第一轮回答正确，但质疑之后，就懵圈了，回答错了。再次质疑后，又重新计算了一遍。然后，再质疑几次后，基本是坚持正确答案不变了。

4、通义千问

第一次回答错误；第二次告诉是数字比大小后，回答正确。

但是质疑之后，就连续错误了。

眼看着救不回来了，我又重复了一遍数学比大小，这次纠正了前面错误，而且在质疑之后能坚持正确答案了。

5、KIMI

KIMI还是处理中文结构化是非常好的，数学，这次翻车得很。怎么说都不行，脑海里浮现的就是吵架时女朋友的我不听我不听。

当然，数学计算只是AI的一个小功能，并不代表绝对的优劣。但是，还是提醒了我们，目前阶段，一个AI助手，是不够的。要多个交叉验证。

-全文完

理工/金融复合背景，头部私募/头部自媒体双重经历

董指导和大家一起

深度挖掘商战，前瞻发现机遇

点个在看和赞再走~

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴