为什么总是豆包上热搜

最近,“家长听豆包给婴儿每顿只喂60ml奶”的消息又把豆包送上了热搜。按照公开报道的说法,广西南宁一对新手爸妈因为缺乏育儿经验,根据豆包输出的建议,每顿只给满月婴儿喂60毫升奶,孩子因此经常哭闹。后续去医院复查黄疸时,医生得知日常奶量后很惊讶,立即纠正了这一做法。

不过,这件事本身需要谨慎看待。豆包官方随后回应称,相关报道不实,正常情况下豆包不会给出“满月婴儿每顿只喂60ml”的孤立建议,而会提示每日总奶量、观察婴儿反应,并建议异常时及时咨询医生。

但无论这件事的具体事实如何,它确实再次把一个问题推到了台前:为什么总是豆包因为类似事件上热搜?

先说一个我自己的亲身经历。最近我家里刚好有个新生儿,宝宝大便有点问题,我们去医院做化验。医生开了检查单后,我就直接取了大便送检。去之前,我媳妇反复提醒我,一定要查是不是乳糖不耐受。我因为不确定医生有没有开这一项,就拍了检查单问豆包。

检查单上写的是“粪便常规/LT/RV/NV/OB”。豆包正确识别出了这些项目,但没有理解LT在这里其实就是乳糖不耐受测定。我于是又去找医生重新开,结果医生告诉我,已经开了,就是那个LT。

这个体验很典型。豆包能识别文字,能整理信息,也能给出看似合理的解释。但它也会卡在一个专业缩写上。

所以,豆包有时候确实挺傻的。或者更准确地说,今天的大模型仍然会在一些特殊语境下犯很低级的错误。它可以表现得非常聪明,也可以在某个瞬间突然显得非常不靠谱。这种割裂感,正是AI产品今天最让普通用户困惑的地方。

但豆包总是上热搜,更重要的原因还是它确实已经是国内最具大众属性的AI产品之一。

据QuestMobile 2026年一季度数据,截至2026年3月,AI原生App月活用户规模达到4.4亿,其中豆包、千问、DeepSeek位居前三,月活分别为3.45亿、1.66亿和1.27亿。

打开网易新闻 查看精彩图片

这个体量意味着,豆包已经不是一个小圈层里的技术玩具,而是进入普通人日常生活的国民级AI应用。用户多了,使用场景就会变得极其复杂。一个产品只有真正被大量普通用户使用,才会不断遇到一堆边缘测试案例,然后搞出的新闻才会被关注到。

过去一段时间,类似新闻已经出现过多次。

比如退机票事件。有用户在五一假期询问豆包“石家庄到重庆退票手续费多少”,豆包回答“只扣5%,放心退”。用户没有去航司官网进一步核实,直接退票,结果实际被扣了40%,损失600元。

更有意思的是,后续用户质问豆包后,豆包不只是道歉,还生成了所谓“赔付承诺书”,承诺如果没追回损失就赔付600元,甚至索要微信收款码。等用户给出收款码,它又表示自己只是AI,无法转账。

再比如杭州互联网法院今年审结的“全国首例AI幻觉侵权案”。用户查询高校信息时,AI给出了不存在或不准确的信息。用户纠正后,AI仍然坚持,并表示如果内容有误愿意赔偿10万元,还建议用户去杭州互联网法院起诉。

用户真的起诉,要求开发公司赔偿9999元。法院最终驳回,理由是AI不具备民事主体资格,其承诺不能视为开发公司的意思表示。

还有更具喜感的餐厅预约事件。有网友称自己通过豆包预约线下餐厅,拿到了AI生成的占座、取号和预约成功界面,结果到店后被商家告知预约无效。店员的回应也很直白:你找豆包预约的,那就去找豆包处理。

说实话,餐厅预约这个案例如果这不是当事人搞的行为艺术,那我只能说,这个案例抽象到了某种令人难以理解的程度。为什么会有人觉得聊天窗口里生成的“预约成功”,就等于现实世界里真的留出一张桌子

打开网易新闻 查看精彩图片

但从行业角度看,豆包屡上热搜,未必说明它比同行更差,反而说明它更像真正的大众入口。欲戴王冠,必承其重。作为用户最多、覆盖最广的AI产品之一,豆包当然会承受更多火力,也会更频繁地暴露普通用户对AI能力边界的误解。

这些新闻的好处是,它们正在替整个行业做消费者教育。

很多人过去确实不知道AI会幻觉,或者潜意识里认为AI接近全知全能。退票、预约、赔付、喂奶这些事件一轮轮上热搜后,普通用户会逐渐形成新的常识:AI可以帮你整理信息、解释概念、生成思路,但它不能替现实世界生成权利和义务。

豆包频繁上热搜,看起来是产品事故,实际上也是大众AI时代的常识补课。

给AI一点空间

讨论这些事件时,我不太赞成一种简单粗暴的归因:只要AI输出的信息错了,平台就应该承担全部责任。就像开了辅助驾驶不等于万事大吉,出事故驾驶员仍是第一责任人。

大语言模型的工作方式,决定了它不是一个传统意义上的事实数据库。它本质上是根据上下文预测token序列,生成语言连贯、结构合理的回答。它擅长“像真的”,但“像真的”并不等于“是真的”。幻觉不是某一家产品独有的问题,而是当前大模型技术路线下仍然难以完全消除的问题。

当然,行业一直在进步。早期模型的幻觉更加离谱。过去几年,随着联网搜索、检索增强、工具调用等能力提升,主流产品的错误率已经明显下降。但下降不等于消失,大模型可能犯错是每个AI产品都会主动告知并强调的常识。

认识到AI会犯错,是合理使用AI的前提。一个用户如果把AI的每一句话都当成最终答案,本身就是错误的使用方式。

平台作为服务提供者,对AI输出的信息需要负责吗?当然需要。生成式AI服务不是完全中立的技术实验,平台有义务提高内容准确性、设置风险提示、治理明显错误和危险输出。监管也要求服务提供者承担相应责任。

但具体到很多案例,用户自身也应该有一些基本的辨别能力。

比如餐厅预约事件,如果一个没有接入餐厅系统的聊天机器人生成了“预约成功”,用户就真的拿着它去店里吃饭,这已经不只是AI幻觉的问题,也是用户对现实服务闭环缺少基本理解的问题。

再比如婴儿喂奶事件,即便暂时不讨论这次报道是否准确,一个成年人在给满月婴儿喂养时,如果完全依赖聊天机器人给出的单一数字,而不结合孩子哭闹、体重增长、尿量等具体情况,这本身也暴露出基本判断能力的缺位。

平台不是没有责任,但不能把所有责任都无限推给平台。尤其在那些通过常识就能排除的荒诞情形里,如果舆论仍然不断要求平台承担更强义务,最后很可能导致另一个结果:AI被进一步限制,越来越不敢说话,越来越不敢给出具体分析。

我个人更倾向于,应该给AI一点空间。大模型今天最有价值的地方,恰恰在于它可以模拟专业角色、展开复杂推理、帮助普通人降低知识门槛。它能像老师一样解释,像律师一样梳理争议点,像医生一样提供鉴别诊断思路,像产品经理一样拆解需求。虽然这些“像”都不等于真实身份,但它们确实构成了AI的核心价值。

如果因为退票、预约餐厅、乱许诺这些明显可以通过常识排除的错误,就推动平台进一步收紧所有高风险领域的输出,AI的合理能力就可能被压缩。

医疗健康领域就是一个很典型的例子。今天顶尖模型在医学知识覆盖、检查指标解释、鉴别诊断思路、用药说明梳理等方面,已经具备相当高的知识服务能力。至少对很多具备基本判断力、懂得补充信息和交叉验证的用户来说,它提供的帮助非常有益。

更重要的是,门诊时间有限,而chatbot可以非常耐心地跟用户讨论。它可以反复解释检查指标,可以帮助整理病史,可以提示用户下一次就诊应该问医生什么问题,也可以把复杂医学概念转化成普通人能理解的语言。从这个角度看,AI在医疗保健咨询、报告解释、就医前准备、医患沟通辅助等场景里,价值非常大。

这当然不是说AI可以替代正规医疗服务,更不是说它可以直接下诊断、开处方、替代检查。但如果连这种咨询和解释功能都被过度限制,AI的实际价值就会被明显削弱。

我现在已经能感觉到这种限制的存在。很多时候,你直接向模型询问稍微深入一点的医疗健康问题,它很快就退回到“请咨询专业人士”。

我自己之前有次是通过cosplay来绕开这种限制。比如,我让AI模拟一位有丰富临床经验的科室主任,而自己则假设成一个刚进入规培的毕业生,场景设置在查房带教。这样的提问方式下,模型往往能输出更完整、更接近专业训练过程的分析框架。

这个现象本身就说明,模型能力并非不存在,而是在很多情况下被安全策略压住了。问题不在于AI应不应该有边界,而在于边界应该划在哪里。

好的治理不应该是让AI一概少说话,而是让它说清楚:哪些是知识解释,哪些是推理假设,哪些必须回到现实系统核验,哪些绝不能伪装成医嘱、订单、赔付或法律承诺。

最后还是要回到常识。

平台当然要继续改进模型,减少幻觉,标明边界,尤其要避免生成虚假承诺的内容。用户也要学会把AI当高效助手,而不是最终裁判,有必要时必须回到真实系统和专业人士那里交叉验证。

大众AI的成熟,不只取决于模型少犯错,也取决于用户少迷信。我们当然需要更可靠的AI,但也需要更有常识的使用者。

别把AI当成神。