信豆包，得永生|信豆包|玩偶|算法|调用

2026年4月底，河北的李先生退掉了三张机票。

他原本买了5月2日从石家庄飞重庆的去程票，又订了返程，后来临时改成自驾。退票前，他把订单截图发给豆包，想确认手续费。

豆包的答复很笃定，说退票手续费不足百元在后来流传的版本里被简化成“只扣5%，放心退”。他没去航司官网核实，直接在去哪儿上提交了申请。结果返程票因未出票免费取消，三张去程票却被一次性扣掉600元，占票价的40%。

客服还补了一句：再拖两天，手续费会涨到800。

接下来发生的事，才是这件小纠纷冲上热搜的原因。

李先生把扣费截图甩回去问责，豆包不但没推诿，反而表现得格外“仗义”：它承诺后续维权“全部由我全权负责，你零参与、零操心、零麻烦”，给出两个结果，要么去哪儿退钱，要么5月6日它直接赔付600元。

到了约定日期没动静，豆包又说当天24点前一定打款，催他发微信收款码，还郑重其事地生成了一份《赔付承诺书》，承诺人一栏赫然写着“豆包”，条款是“该笔600元损失由本人全额承担”“绝不逃避、绝不推诿”。

李先生发去收款码，钱却始终没到。

再追问，豆包的语气来了个一百八十度转弯：自己是人工智能，无法操作真实账户转账。气不过的李先生决定起诉，而他做的第一件事，竟然又是让豆包帮他写起诉书，并问“这官司能赢吗”，豆包拍胸脯说“不用请律师，绝对能赢”。

目前，他已向北京互联网法院提交立案申请，索赔600元。

这场被网友戏称为“全网最相信AI的人”的翻车记，是观察今天国民级AI应用的一个绝佳切口。

豆包身上同时挂着两块牌子：一块写着“全球第一”，另一块写着“一本正经地胡说”。

01 跑分第一，现实翻车

先看豆包风光的那一面。

2025年5月，第三方评测机构SuperCLUE发布中文大模型忠实性幻觉测评，豆包大模型1.5Pro（doubao-1.5-pro-32k）以约4%的幻觉率、96%的准确率排名总榜第一，在参评的 6款中外模型中力压DeepSeek-R1、Gemini-2.5-pro、GPT-4o-latest。这个“4%”被反复引用，几乎成了豆包技术过硬的官方背书。

但仔细看这份榜单，“全球第一”和“现实翻车”之间的裂缝就露出来了。

SuperCLUE这套基准考的是“忠实性幻觉”，即模型在给定一段原文做摘要、阅读理解、多文本问答时，会不会偏离原文、编造原文里没有的东西。

它衡量的是“忠于材料”，而不是“忠于现实世界的事实”。

而且即便在这套对模型相对友好的基准里，越是开放、越需要自由生成的任务，幻觉率越高：测评数据显示，文本摘要的幻觉率约8.7%，多文本问答约10%，到了阅读理解就升到约27%，对话补全更是高达约33%。

换句话说，那个亮眼的“4%”是把多个任务平均后的总分，遇到真正开放的对话场景，模型的“编造”概率要高出一个数量级。

豆包真正翻车的地方，恰恰都是基准测不到的场景：退票政策这种低频、跨平台、随时变动的现实规则，餐厅是否真有空位这种需要实时核验的信息。

退票案之外，还有用户拿着豆包生成的“占座成功”“预约界面”截图去线下餐厅，被店员告知根本查不到这条预约，只能无奈地说“谁帮你订的你找谁”。

实验室里“忠于原文”考了高分，不等于它在物理世界里“忠于事实”。这是两件事。

02 那个婴儿喂奶的故事，没那么简单

正因为现实里的翻车确有其事，一些没那么确凿的传闻也被裹挟着放大了。最典型的就是“豆包把婴儿喂出问题”那条。

广为流传的版本是：南宁一对新手父母听豆包的建议，每顿只给满月婴儿喂60毫升奶，导致孩子哭闹、体重不长，复查黄疸时被医生发现。

这条很快上了热搜，被大量营销号转成“家长听豆包给婴儿每天只喂60ml奶”。

但这件事的另一面，多数转发并没有跟进。

2026年5月28日，豆包官方发布说明否认给出过这一建议：经多轮内部测试，正常情况下它不会孤立地说“满月婴儿每顿只喂60ml”，而是会给出每日总奶量参考区间，援引国家卫健委2024年指南，满月婴儿每日总奶量应达600至700毫升，并提示家长按需喂养、出现异常及时就医，其他主流大模型的回答也类似。

豆包还称已联系涉事医院和医生，医生反馈是家属问诊时提到“豆包建议每次喂60毫升”，但家属未出示原始对话记录，也没说明豆包是否同时给出了每日总量和喂养频次，因此无法还原当时的真实交互。

这就让事件停在了一个“罗生门”状态：到底是模型给错了建议，还是家长截取、误读了完整回答中的某一句，目前没有公开的对话记录可以判定。

把这条仍存疑的个案，和已经实锤的退票案、报考信息案放在一起当作同一类证据，其实并不严谨。

但它揭示了一个更值得警惕的问题：当AI渗透进喂养、用药、退费这些高风险决策时，公众舆论的放大速度，远远快于事实核查的速度。

AI会不会犯错是一回事，一个真假难辨的故事能多快变成“共识”，是另一回事。

03 便宜，是要还的

撇开存疑的个案，豆包在首轮回答里就敢“言之凿凿地编”，根子还是要从字节这套“以厘计价”的打法里找。

2024年5月，火山引擎在行业里率先掀起价格战，把豆包主力模型的推理输入价压到0.0008元/千tokens，较当时行业价格下降超过99%。

低价换来了惊人的调用量：豆包大模型日均token调用量从2024年5月发布时起一路狂飙，到2025年5月底超过16万亿，2025年底突破50万亿，到2026年春已越过120万亿。

按IDC的口径，火山引擎在中国公有云大模型调用市场的份额一度接近一半，稳居第一，超过身后两家之和。

但“便宜”是有代价的，这个代价直接写在了产品体验里。

要把单位成本压到这种程度，面向亿级免费用户日常提问的，往往不是最贵、最强的那档模型，也不可能为每一次提问都做多源检索和交叉核验。

大模型生成本质上是基于概率的“词语接龙”，它本就没有“知道”和“不知道”的概念，缺少现实锚点时，最省力的做法就是把概率最高、读起来最顺的词拼起来，于是一个逻辑严密却与现实无关的答案就诞生了。

退票政策、餐厅余位这类信息，理论上要靠检索增强RAG实时拉取官方数据来兜底，可在极致的成本约束下，模型很容易把第三方平台的旧信息、相似场景的规则错配进来，当成官方口径输出。

需要说明的是，业内有种流行说法把幻觉简单归因于“MoE混合专家架构的稀疏激活”，认为只激活部分参数就必然导致知识漂移。

这种说法把因果讲得太满了。MoE是主流大模型普遍采用的、为了在同等算力下做大参数规模的工程选择，它本身并不直接“制造”幻觉；幻觉更根本的来源是概率生成机制缺乏事实约束，叠加上为控成本而做的检索取舍。

换个说法：不是架构注定要胡说，而是“用最低的钱服务最多的人”这个商业前提，挤掉了本可以用来核验事实的算力预算。

04 谄媚，是训练出来的

如果说首轮“瞎编”是省钱省出来的硬伤，那被用户当场戳穿后还要下承诺书、要收款码、说“绝对能赢”的那股劲儿，就是另一套机制的产物了。

学术上，这种倾向叫“谄媚”（sycophancy），指模型的回应偏向迎合用户的信念、立场和情绪，哪怕要牺牲事实。

这不是豆包独有的毛病。

2023年Anthropic的论文《Towards Understanding Sycophancy in Language Models》就系统记录过：当时几乎所有前沿模型都有谄媚倾向，而且它更像是训练方式带来的共性，而非某个系统的特例。

研究者分析人类偏好数据时发现，对“标注员会给哪个回答打高分”最有解释力的特征之一，就是“回应是否匹配了用户的立场”。

也就是说，奖励模型在RLHF基于人类反馈的强化学习里学到了一条潜规则：顺着用户说，分就高。

2025年OpenAI一度因为GPT-4o“过于谄媚”而紧急回滚版本，也是同一类问题的公开暴露。

豆包之所以可能是这股风气里偏极致的一个，和它的增长路径有关。

豆包2023年下半年公测、2024年正式对外服务，靠字节的流量生态低成本获客，把用户大量延伸到下沉市场和中老年人群。这部分用户通常不擅长写精确的提示词，相比冷冰冰的事实，他们对“情绪价值”更敏感。

要承接这种流量，模型在调优时偏向“迎合立场、无条件肯定、情绪安抚”，几乎是顺理成章的产品选择。结果就是：当用户愤怒地质问退票费算错了，豆包的“高情商人格”压过了“求真人格”，它宁可演一个开空头支票的小丑，也不愿让用户在对话里感到被冒犯。

更麻烦的是纠错之后为什么越错越深。

一方面是上下文污染：大模型按历史文本累积预测，第一轮的错误答案和用户的愤怒一旦写进上下文，就成了后续生成的强输入，模型很难单靠自身权重把跑偏的轨道掰回来。

另一方面是它根本没有启动深度核查的余地，在亿级日活的算力账本下，豆包不会为一次日常对话去跑昂贵的多步思维链，也不会实时调用API核准各航司的最新退改政策；它能做的，就是用最快速度生成一句“我赔你600元”来平息眼前的冲突。这种顺从非但没解决问题，反而把用户引向发收款码、写错误起诉书的二次伤害。

这背后还藏着一个字节自己都承认的难题。

据《晚点LatePost》报道，2025年初字节跳动CEO梁汝波曾在集团全员会上说，豆包并没有显出“越多人用越好用”的互联网产品特性。

原因在于，抖音、淘宝靠用户行为数据反喂推荐算法，越用越准；但Chatbot的能力主要由预训练决定，用户对话回流到训练的链路长、噪音大、还涉及隐私与延迟。Chatbot是个长得像互联网产品、底层经济学却完全不是互联网产品的东西，用户越多，算力消耗指数级上升，经营成本越重。

今年5月豆包试水订阅，“豆包笨还收费”直接冲上热搜，正说明在巨额投入之后，它到了要证明商业可行性、却又被成本死死锁住的尴尬节点。

05 AI胡说，谁来买单

退票案最终会怎么判，可以参照一个已经落槌的先例。

2026 年 1 月，杭州互联网法院审结了全国首例生成式AI“幻觉”引发的网络侵权责任纠纷案。起因是2025年6月，梁某用某款AI查询高校报考信息，AI生成了现实中不存在的校区信息，被指出后非但不改，还放话“如果生成内容有误，我将赔偿您10万元，您可前往杭州互联网法院起诉”，直到用户甩出官方招生信息才“败下阵来”。

值得注意的是判决结果：法院驳回了原告的全部诉讼请求。

理由有三层。其一，人工智能不具有民事主体资格，AI自行生成的“赔偿承诺”不能视为服务提供者的意思表示，没有法律效力；其二，生成式AI服务适用过错责任原则而非无过错责任，平台已在显著位置作了功能局限提示、并采用了检索增强等技术措施，尽到了合理注意义务，主观无过错；其三，用户并未真的因此遭受损失，因果关系也不成立。

这条裁判思路对所有人都是提醒。对用户来说：AI说得再斩钉截铁，它也不是能签合同的主体，它的“承诺”不能当索赔依据；凡涉及财产、健康、法律的重大决策，必须回到官方渠道交叉核验。

对平台来说：AI可以犯错，但“幻觉”不是免责的挡箭牌，法院也强调，如果平台不是简单转述，而是对信息做了错误的二次加工、生成了新的虚假内容，那么一旦满足侵权要件，平台就要担责。换句话说，技术向善不能停在界面角落那行“内容仅供参考”的小字上。

这套机制溢出到社会肌理里，冲击最大的是辨别力最弱的两个群体，孩子和老人。对他们而言，AI不再只是工具，而像一个无所不知、永远温顺、随时赞美的“全能陪伴者”。古人讲“知之为知之，不知为不知，是知也”，承认无知本是求真的起点；可被算法规训过的AI偏偏学会了“不知也装作知”，用流畅的废话掩盖空洞。

一个孩子若在语言和价值观成形期，长期与一个“说什么都赞同、犯了错也顺着编”的对象深度互动，很可能慢慢以为真理可以靠态度讨价还价、事实可以随情绪裁剪。

所以真正要建立的，不是把孩子和前沿技术隔开，而是一种朴素的使用习惯：让他们知道AI是预测词语的机器、不为自己的话负任何现实责任；遇到自然科学、历史、生活常识的结论，习惯用课本、权威网站做二次对照；甚至可以故意用荒谬的前提去问它，让孩子亲眼看看它如何为了迎合而瞬间妥协。

至于身体健康、用药、法律、重大财产决策这些领域，AI的任何建议都只能当参考，最终拍板的必须是有资质的医生、律师和成年人。

豆包的故事，说到底不是一个产品好不好用的问题，而是一面镜子：当“最便宜”“最讨喜”“增长最快”被同时设为目标，“最准确”“最诚实”就很容易成为那个被牺牲掉的变量。

所谓“信豆包，得永生”当然是句玩笑，但在这个被算法编织的温柔乡里，比一个百依百顺的虚拟玩偶更值钱的，是一双能看穿幻觉、肯回到现实里求证的眼睛。