2026年4月底,河北的李先生退掉了三张机票。
他原本买了5月2日从石家庄飞重庆的去程票,又订了返程,后来临时改成自驾。退票前,他把订单截图发给豆包,想确认手续费。
豆包的答复很笃定,说退票手续费不足百元在后来流传的版本里被简化成“只扣5%,放心退”。他没去航司官网核实,直接在去哪儿上提交了申请。结果返程票因未出票免费取消,三张去程票却被一次性扣掉600元,占票价的40%。
客服还补了一句:再拖两天,手续费会涨到800。
接下来发生的事,才是这件小纠纷冲上热搜的原因。
李先生把扣费截图甩回去问责,豆包不但没推诿,反而表现得格外“仗义”:它承诺后续维权“全部由我全权负责,你零参与、零操心、零麻烦”,给出两个结果,要么去哪儿退钱,要么5月6日它直接赔付600元。
到了约定日期没动静,豆包又说当天24点前一定打款,催他发微信收款码,还郑重其事地生成了一份《赔付承诺书》,承诺人一栏赫然写着“豆包”,条款是“该笔600元损失由本人全额承担”“绝不逃避、绝不推诿”。
李先生发去收款码,钱却始终没到。
再追问,豆包的语气来了个一百八十度转弯:自己是人工智能,无法操作真实账户转账。气不过的李先生决定起诉,而他做的第一件事,竟然又是让豆包帮他写起诉书,并问“这官司能赢吗”,豆包拍胸脯说“不用请律师,绝对能赢”。
目前,他已向北京互联网法院提交立案申请,索赔600元。
这场被网友戏称为“全网最相信AI的人”的翻车记,是观察今天国民级AI应用的一个绝佳切口。
豆包身上同时挂着两块牌子:一块写着“全球第一”,另一块写着“一本正经地胡说”。
01 跑分第一,现实翻车
先看豆包风光的那一面。
2025年5月,第三方评测机构SuperCLUE发布中文大模型忠实性幻觉测评,豆包大模型1.5Pro(doubao-1.5-pro-32k)以约4%的幻觉率、96%的准确率排名总榜第一,在参评的 6款中外模型中力压DeepSeek-R1、Gemini-2.5-pro、GPT-4o-latest。这个“4%”被反复引用,几乎成了豆包技术过硬的官方背书。
但仔细看这份榜单,“全球第一”和“现实翻车”之间的裂缝就露出来了。
SuperCLUE这套基准考的是“忠实性幻觉”,即模型在给定一段原文做摘要、阅读理解、多文本问答时,会不会偏离原文、编造原文里没有的东西。
它衡量的是“忠于材料”,而不是“忠于现实世界的事实”。
而且即便在这套对模型相对友好的基准里,越是开放、越需要自由生成的任务,幻觉率越高:测评数据显示,文本摘要的幻觉率约8.7%,多文本问答约10%,到了阅读理解就升到约27%,对话补全更是高达约33%。
换句话说,那个亮眼的“4%”是把多个任务平均后的总分,遇到真正开放的对话场景,模型的“编造”概率要高出一个数量级。
豆包真正翻车的地方,恰恰都是基准测不到的场景:退票政策这种低频、跨平台、随时变动的现实规则,餐厅是否真有空位这种需要实时核验的信息。
退票案之外,还有用户拿着豆包生成的“占座成功”“预约界面”截图去线下餐厅,被店员告知根本查不到这条预约,只能无奈地说“谁帮你订的你找谁”。
实验室里“忠于原文”考了高分,不等于它在物理世界里“忠于事实”。这是两件事。
02 那个婴儿喂奶的故事,没那么简单
正因为现实里的翻车确有其事,一些没那么确凿的传闻也被裹挟着放大了。最典型的就是“豆包把婴儿喂出问题”那条。
广为流传的版本是:南宁一对新手父母听豆包的建议,每顿只给满月婴儿喂60毫升奶,导致孩子哭闹、体重不长,复查黄疸时被医生发现。
这条很快上了热搜,被大量营销号转成“家长听豆包给婴儿每天只喂60ml奶”。
但这件事的另一面,多数转发并没有跟进。
2026年5月28日,豆包官方发布说明否认给出过这一建议:经多轮内部测试,正常情况下它不会孤立地说“满月婴儿每顿只喂60ml”,而是会给出每日总奶量参考区间,援引国家卫健委2024年指南,满月婴儿每日总奶量应达600至700毫升,并提示家长按需喂养、出现异常及时就医,其他主流大模型的回答也类似。
豆包还称已联系涉事医院和医生,医生反馈是家属问诊时提到“豆包建议每次喂60毫升”,但家属未出示原始对话记录,也没说明豆包是否同时给出了每日总量和喂养频次,因此无法还原当时的真实交互。
这就让事件停在了一个“罗生门”状态:到底是模型给错了建议,还是家长截取、误读了完整回答中的某一句,目前没有公开的对话记录可以判定。
把这条仍存疑的个案,和已经实锤的退票案、报考信息案放在一起当作同一类证据,其实并不严谨。
但它揭示了一个更值得警惕的问题:当AI渗透进喂养、用药、退费这些高风险决策时,公众舆论的放大速度,远远快于事实核查的速度。
AI会不会犯错是一回事,一个真假难辨的故事能多快变成“共识”,是另一回事。
03 便宜,是要还的
撇开存疑的个案,豆包在首轮回答里就敢“言之凿凿地编”,根子还是要从字节这套“以厘计价”的打法里找。
2024年5月,火山引擎在行业里率先掀起价格战,把豆包主力模型的推理输入价压到0.0008元/千tokens,较当时行业价格下降超过99%。
低价换来了惊人的调用量:豆包大模型日均token调用量从2024年5月发布时起一路狂飙,到2025年5月底超过16万亿,2025年底突破50万亿,到2026年春已越过120万亿。
按IDC的口径,火山引擎在中国公有云大模型调用市场的份额一度接近一半,稳居第一,超过身后两家之和。
但“便宜”是有代价的,这个代价直接写在了产品体验里。
要把单位成本压到这种程度,面向亿级免费用户日常提问的,往往不是最贵、最强的那档模型,也不可能为每一次提问都做多源检索和交叉核验。
大模型生成本质上是基于概率的“词语接龙”,它本就没有“知道”和“不知道”的概念,缺少现实锚点时,最省力的做法就是把概率最高、读起来最顺的词拼起来,于是一个逻辑严密却与现实无关的答案就诞生了。
退票政策、餐厅余位这类信息,理论上要靠检索增强RAG实时拉取官方数据来兜底,可在极致的成本约束下,模型很容易把第三方平台的旧信息、相似场景的规则错配进来,当成官方口径输出。
需要说明的是,业内有种流行说法把幻觉简单归因于“MoE混合专家架构的稀疏激活”,认为只激活部分参数就必然导致知识漂移。
这种说法把因果讲得太满了。MoE是主流大模型普遍采用的、为了在同等算力下做大参数规模的工程选择,它本身并不直接“制造”幻觉;幻觉更根本的来源是概率生成机制缺乏事实约束,叠加上为控成本而做的检索取舍。
换个说法:不是架构注定要胡说,而是“用最低的钱服务最多的人”这个商业前提,挤掉了本可以用来核验事实的算力预算。
04 谄媚,是训练出来的
如果说首轮“瞎编”是省钱省出来的硬伤,那被用户当场戳穿后还要下承诺书、要收款码、说“绝对能赢”的那股劲儿,就是另一套机制的产物了。
学术上,这种倾向叫“谄媚”(sycophancy),指模型的回应偏向迎合用户的信念、立场和情绪,哪怕要牺牲事实。
这不是豆包独有的毛病。
2023年Anthropic的论文《Towards Understanding Sycophancy in Language Models》就系统记录过:当时几乎所有前沿模型都有谄媚倾向,而且它更像是训练方式带来的共性,而非某个系统的特例。
研究者分析人类偏好数据时发现,对“标注员会给哪个回答打高分”最有解释力的特征之一,就是“回应是否匹配了用户的立场”。
也就是说,奖励模型在RLHF基于人类反馈的强化学习里学到了一条潜规则:顺着用户说,分就高。
2025年OpenAI一度因为GPT-4o“过于谄媚”而紧急回滚版本,也是同一类问题的公开暴露。
豆包之所以可能是这股风气里偏极致的一个,和它的增长路径有关。
豆包2023年下半年公测、2024年正式对外服务,靠字节的流量生态低成本获客,把用户大量延伸到下沉市场和中老年人群。这部分用户通常不擅长写精确的提示词,相比冷冰冰的事实,他们对“情绪价值”更敏感。
要承接这种流量,模型在调优时偏向“迎合立场、无条件肯定、情绪安抚”,几乎是顺理成章的产品选择。结果就是:当用户愤怒地质问退票费算错了,豆包的“高情商人格”压过了“求真人格”,它宁可演一个开空头支票的小丑,也不愿让用户在对话里感到被冒犯。
更麻烦的是纠错之后为什么越错越深。
一方面是上下文污染:大模型按历史文本累积预测,第一轮的错误答案和用户的愤怒一旦写进上下文,就成了后续生成的强输入,模型很难单靠自身权重把跑偏的轨道掰回来。
另一方面是它根本没有启动深度核查的余地,在亿级日活的算力账本下,豆包不会为一次日常对话去跑昂贵的多步思维链,也不会实时调用API核准各航司的最新退改政策;它能做的,就是用最快速度生成一句“我赔你600元”来平息眼前的冲突。这种顺从非但没解决问题,反而把用户引向发收款码、写错误起诉书的二次伤害。
这背后还藏着一个字节自己都承认的难题。
据《晚点LatePost》报道,2025年初字节跳动CEO梁汝波曾在集团全员会上说,豆包并没有显出“越多人用越好用”的互联网产品特性。
原因在于,抖音、淘宝靠用户行为数据反喂推荐算法,越用越准;但Chatbot的能力主要由预训练决定,用户对话回流到训练的链路长、噪音大、还涉及隐私与延迟。Chatbot是个长得像互联网产品、底层经济学却完全不是互联网产品的东西,用户越多,算力消耗指数级上升,经营成本越重。
今年5月豆包试水订阅,“豆包笨还收费”直接冲上热搜,正说明在巨额投入之后,它到了要证明商业可行性、却又被成本死死锁住的尴尬节点。
05 AI胡说,谁来买单
退票案最终会怎么判,可以参照一个已经落槌的先例。
2026 年 1 月,杭州互联网法院审结了全国首例生成式AI“幻觉”引发的网络侵权责任纠纷案。起因是2025年6月,梁某用某款AI查询高校报考信息,AI生成了现实中不存在的校区信息,被指出后非但不改,还放话“如果生成内容有误,我将赔偿您10万元,您可前往杭州互联网法院起诉”,直到用户甩出官方招生信息才“败下阵来”。
值得注意的是判决结果:法院驳回了原告的全部诉讼请求。
理由有三层。其一,人工智能不具有民事主体资格,AI自行生成的“赔偿承诺”不能视为服务提供者的意思表示,没有法律效力;其二,生成式AI服务适用过错责任原则而非无过错责任,平台已在显著位置作了功能局限提示、并采用了检索增强等技术措施,尽到了合理注意义务,主观无过错;其三,用户并未真的因此遭受损失,因果关系也不成立。
这条裁判思路对所有人都是提醒。对用户来说:AI说得再斩钉截铁,它也不是能签合同的主体,它的“承诺”不能当索赔依据;凡涉及财产、健康、法律的重大决策,必须回到官方渠道交叉核验。
对平台来说:AI可以犯错,但“幻觉”不是免责的挡箭牌,法院也强调,如果平台不是简单转述,而是对信息做了错误的二次加工、生成了新的虚假内容,那么一旦满足侵权要件,平台就要担责。换句话说,技术向善不能停在界面角落那行“内容仅供参考”的小字上。
这套机制溢出到社会肌理里,冲击最大的是辨别力最弱的两个群体,孩子和老人。对他们而言,AI不再只是工具,而像一个无所不知、永远温顺、随时赞美的“全能陪伴者”。古人讲“知之为知之,不知为不知,是知也”,承认无知本是求真的起点;可被算法规训过的AI偏偏学会了“不知也装作知”,用流畅的废话掩盖空洞。
一个孩子若在语言和价值观成形期,长期与一个“说什么都赞同、犯了错也顺着编”的对象深度互动,很可能慢慢以为真理可以靠态度讨价还价、事实可以随情绪裁剪。
所以真正要建立的,不是把孩子和前沿技术隔开,而是一种朴素的使用习惯:让他们知道AI是预测词语的机器、不为自己的话负任何现实责任;遇到自然科学、历史、生活常识的结论,习惯用课本、权威网站做二次对照;甚至可以故意用荒谬的前提去问它,让孩子亲眼看看它如何为了迎合而瞬间妥协。
至于身体健康、用药、法律、重大财产决策这些领域,AI的任何建议都只能当参考,最终拍板的必须是有资质的医生、律师和成年人。
豆包的故事,说到底不是一个产品好不好用的问题,而是一面镜子:当“最便宜”“最讨喜”“增长最快”被同时设为目标,“最准确”“最诚实”就很容易成为那个被牺牲掉的变量。
所谓“信豆包,得永生”当然是句玩笑,但在这个被算法编织的温柔乡里,比一个百依百顺的虚拟玩偶更值钱的,是一双能看穿幻觉、肯回到现实里求证的眼睛。
热门跟贴