支付宝AI 仍然算不清账
2026年6月16日,AI版支付宝「阿宝」正式开启邀测。
一位扎着麻花辫的AI女孩头像,被塞进了支付宝底部导航栏的左下角。点击它,原本拥挤的五栏tab被压缩,整个界面切换成一个干净的对话框。这是蚂蚁集团押注AI的全力一搏。
据蚂蚁集团副总裁、支付宝事业群总裁李俊介绍,支付宝拥有海量工具和服务,但用户对支付宝「百宝箱」的使用率不足10%。「阿宝」的使命,就是让用户「只说需求,剩下的让AI办」。
但实测结果一再告诉我们:这个麻花辫女孩,账都算不太准……
01
不再道歉了,但是依然不会算账
6月16号,据刺猬公社报道,在实测中,给阿宝出了一道看似简单的问题:「2026年我在淘宝系花了多少钱?」
几秒后,阿宝给出了答案:2760.23元。数字精确到小数点后两位,还附赠了一张饼图,贴心地提醒餐饮消费占比过高。分析得头头是道,专业感十足。
但数据经不起核对。
实测者2026年在盒马鲜生累计消费386.93元,而阿宝的统计中,这个数字只有110元,71.58%的支出被生生吞掉。当实测者提出质疑,阿宝迅速道歉,宣称将「重新进行严谨计算」。
第二轮计算的结果更加荒诞:在阿宝的统计宇宙里,山姆会员店、小红书和天鹅到家似乎都已被阿里收购,被一并纳入了「淘宝系」支出。
人们讽刺说,针对AI幻觉,AI的固定路径是:犯错、被指出、道歉、再犯错、再道歉。支付宝精准走了这一路径。
但十天后,情况变了。
6月26日,奇点湃再次测验同一个问题时,结果同样出错。对于并不复杂的账单,抖音钻石消费被归为淘系支出。区别是,当我指出后,阿宝表现得十分淡定,没有再道歉,而仅仅是告诉我「你说得对」,然后理直气壮地修复回答。即使继续追问「你是不是算错了」,仍然如此。
从「迅速道歉」到「淡定承认」,阿宝虽然不再道歉了……但依然算错。作为一个涉及金融服务的支付产品,是不是应该满足算账的基本需求?
如果用户因为信任阿宝而造成损失,谁来负责呢?这个倒是提前做了责任切割。
02
会调页面,但不会办事
账单之外,阿宝的核心功能是什么?
答案是:大医院的分诊台。
和阿宝对话主要能实现两类功能。一是分析账号的收支和理财数据,也就是前文那笔算不清的账。二是在对话框里输入想做的事,阿宝会调起对应页面。
输入「我想点外卖」,阿宝调起淘宝闪购页面。输入「北京挂号」,调起医疗健康页面。输入「打车去三里屯」,调起高德打车卡片。
「调起页面」,这是阿宝服务的本质。支付宝原来就有的服务,她帮用户一键导航;支付宝原来没有的服务,她也不能凭空变出来。
但「调起页面」和「办好事情」之间,隔着整整一个操作距离。
当我问和阿宝说「帮我点外卖,我想吃素食」时,阿宝推送了三个外卖入口,我选了淘宝闪购点进去后,里面甚至还需要重新搜索素食。不仅没让服务变得更简单,而是更复杂了。
更值得注意的是,实测发现阿宝目前无法办理自主交易、理财等金融业务。当记者尝试让它每月定投银行积存金时,阿宝仅推送了黄金ETF定投组件,未能提供正确的积存金入口。蚂蚁的解释是「安全考量」,涉及资金变动或支付环节必须本人确认。但实测者的感受是:「完成度不高」。
03
不是新问题,是基因问题
阿宝的问题,其实不是新问题。
要理解这一点,需要回头看一年前的支小宝。
2024年9月,蚂蚁集团在外滩大会上发布了独立AI生活管家App「支小宝」,国内首个服务型AI独立应用。基于蚂蚁百灵大模型,承载着「说话就能办事」的愿景。
结果呢?
发布当天,支小宝登上App Store生活榜第5名,免费总榜第76名。此后排名一路下跌,截至2024年10月中旬,已滑落到生活榜400名开外,总榜彻底消失。
App Store综合评分3.8分。用户评价集中在几个关键词:「不够智能」「功能没实现」「回答太慢」「小城市体验差」。
「宣传的很多功能都没有实现,这个月花了多少钱可以回答,上个月花了多少钱回答不了,和想象中的差距太大了。」App Store用户评论
当时多家媒体的测评发现了更多细节。在对话框发送「我要坐地铁」,得到的回复是「绍兴暂时还不支持刷码乘车服务哦」,现实是绍兴早已支持支付宝乘车码。对于「哪里吃粤菜」的问题,推荐的「阿国饭店」实际上是绍兴本地菜馆。
智能体数量方面,支小宝仅有26个,覆盖杭州城市旅行、航空、英语、星座等有限领域。同期对比,讯飞星火超过11000个,字节豆包超过5000个。
支小宝团队当时坦承:「在服务串联上或服务极致呈现上,今天还有非常多的细节需要打磨。」
从支小宝到阿宝,产品形态变了,从独立App变成了支付宝内置的AI入口。但核心体验并没有本质改变:
依然是在调页面而非真办事,依然是在涉及资金的场景中不够严谨。
这不是某个产品的问题,这是支付宝AI的基因问题。
04
3亿笔交易,几笔是真AI?
2026年5月,有研究机构在采访中透露,支付宝AI支付已累计完成3亿笔交易,AI支付的基建建设已经完成。
3亿笔是一个漂亮的数字。但问题是:什么算「AI支付」?
如果一个用户打开支付宝,对着阿宝说「我要点外卖」,然后阿宝打开了一个外卖页面,用户自己完成了后续所有操作,这算一笔AI支付吗?
如果用户只是点击了底部导航栏的阿宝头像,切换了一下界面,这算一笔AI交互吗?
在技术底座「跑通」的叙事下,这些细节往往被选择性忽略。但对用户来说,体验的区别恰恰在于这些细节。
有财经媒体在报道中指出,在阿宝发布之前,支付宝曾多次尝试用AI重构服务。2024年4月,曾在首页灰度测试「AI智能助理」;同年9月发布独立App「支小宝」,但都未能解决使用率难题。
换句话说,阿宝已经是支付宝的第三次AI入口尝试。第一次是灰度测试的「AI智能助理」,第二次是独立App「支小宝」,第三次就是今天内置在支付宝里的「阿宝」。
三次尝试,同一个愿景,相似的困境。
行业竞争也不等人。微信正在内测AI智能体,计划通过自然语言指令直接调用微信生态内数百万小程序、支付、公众号等所有能力。微信支付也推出了面向AI的支付接口。京东也在近日发布智能体自主支付协议A2P2。
支付宝300万小程序的生态(注:据2021年官方数据)是无可比拟的优势。但如何让这些小程序真正被AI串联起来,而不是仅仅被「调起页面」,考验的不仅是技术,更是产品哲学。
尾声
让我们回到那个账单实测的场景。
「算不清账」不仅是阿宝的问题,也是整个AI金融行业的问题。当大模型的「幻觉」遇上了用户的「钱包」,技术的不成熟就不再是一个可以被轻松调侃的Bug,而是一个可能引发真实损失的系统性风险。
从「AI智能助理」到「支小宝」再到「阿宝」,名字一直在变,但通往可靠AI金融服务的道路,依然很长。
支付宝手里握着3亿笔AI支付的底牌,也握着数以百万计的小程序生态。但在这场决定下一个十年行业格局的入口争夺战中,真正的筹码不是交易数字,不是生态规模。
而是用户敢不敢把钱包交给一个会算错账、但不为错误负责的麻花辫女孩。
这个问题,阿宝可能暂时还回答不了。
热门跟贴