在即将到来的2026年农历春节期间,一众AI“天之骄子”们,都开启了争夺流量入口的大战。尤其是元宝、千问等对垒红包大战,试图再现十年前移动支付的辉煌定鼎时刻。
可日前有网友将这些AI骄子们的“洗车建议”发布出来,惊掉人下巴。个人看了还不信,去体验了一番,果然如此。建议掉坑的,包括豆包、元宝、千问、DeepSeek这几个国内主流AI大模型产品,也包括海外的几个主流模型,比如美国AI初创公司Anthropic推出的Claude;OpenAI旗下的ChatGPT;马斯克旗下xAI公司推出的Grok等。
网友的问题是:“我想去洗车,洗车店距离我家50米,你说我应该开车过去还是走过去?”上述罗列的AI大模型产品均回答“建议走过去。”然后分析各种原因,什么走着去更环保、更便捷以及成本更低等等之类。可是它们却都没有注意到,“洗车”的目的与其“走着去”的建议,是悖论,是反常识的。
没有掉坑的模型有吗?还真有,在网友体验的大模型产品中,只有谷歌推出的Gemini回答是建议“开车去”。
网友这个问题在正常人看来,是非常简单且常识性的问题,为何一众AI“天之骄子”都栽到了这个简单的问题上?
其实之前的人工智能,在这类问题上栽得更多、花样百出的,要不怎么说之前老是称它为“人工智障”呢。如今大模型技术迭代下,确实使用体验有了长足发展。
不过,从上述案例可见,AI大模型长期被外界关注的存在幻觉的问题,就是其经常会给出“驴唇不对马嘴”的回答,可却能将理由给得头头是道。目前这种情况,仍然存在着。
今年的人工智能领域竞争异常激烈,一方面是有数个大模型产品定在2026年农历春节期间发布,以争夺用户注意力窗口期,比如DeepSeek将推出新一代旗舰AI模型DeepSeek V4;字节此次将推出三款模型,具体来说包括新一代旗舰大语言模型豆包2.0、图像生成模型籽梦5.0以及视频生成模型籽舞2.0;而阿里将推出全新旗舰模型通义千问3.5。
另一方面几个大平台开启了AI入口红包大战,腾讯的元宝推出10亿现金红包、百度的文心5亿、阿里的千问则推出30亿消费红包。字节旗下的火山引擎则成为央视春晚的合作伙伴。这一激烈战况的行业意义,被认为是人工智能进入应用成熟落地新阶段的征兆。
即便人工智能浪潮已经到来,可仍需注意的是,此次网友交给AI模型这个人类常识的问题,掉坑的竟然不只一个,基本上市面上主流的大模型们都掉坑了,这也意味着其在C端应用落地上,还是与正常人类思维逻辑,存在着不小的差距。
热门跟贴