打开网易新闻 查看精彩图片

豆包证明了字节产品方法论依然有效,但也暴露了它在 AI 时代的边界。

文丨郑可书 高洪浩

图丨黄帧昕

编辑丨高洪浩

豆包是中国唯一一个每天使用人数过亿的 AI 产品。但最近,它正在刻意降低对用户规模的关注。

就在三个月前,这还是团队最关注的指标之一 —— 春节期间,他们给豆包定下了冲刺 2 亿 DAU(日活跃用户数)的目标。看着后台数字一路飙升,员工们半开玩笑地说:“别涨了,涨得我有点害怕了。” 算力吃紧的时候,为了接住涌入的新用户,一些原定春节后上线的功能不得不推迟。

豆包仍然想增长,但增长带来了新问题:AI 产品没有传统互联网产品的规模效应——用的人越多,推理成本越高,收入却不会同步增长。

今年五一假期,豆包将开启付费订阅的消息传出,很快冲上热搜。用户质疑它 “笨还收费”:回答不够准确,复杂任务做不好,处理长文档、PPT、数据分析时尤其吃力。

豆包紧急开会,员工加班修复错误回答和失败任务。过去用户打开豆包,主要是聊天、娱乐、做简单查询。一旦开始追求回答质量,追求 “聪明”,DAU 必然受影响。

豆包是字节跳动做出的又一个增长奇迹,DAU 不到两年半时间破亿,超过国内其他 AI 助手产品的总和。一位字节人士说,豆包也是字节历史上投放相对克制的战略级产品。据 AppGrowing 估算,过去两年(截至今年 4 月),豆包只花了 17 亿元投流,而腾讯元宝花了 222 亿,阿里千问花了 37 亿。

豆包的特殊之处在于,它并非诞生于一家大模型能力绝对领先的公司,却长成了体量绝对领先于同类产品的 AI 应用。它的成长,延续了字节在今日头条、抖音、TikTok 上反复验证过的方法论:顺应人性、依赖数据、极速迭代。

但过去一年,“AI 聊天机器人将成为一切入口” 的信念正在动摇。OpenAI 仍然最重要,但 Anthropic 凭借 Claude Code 和 Claude Cowork 在编程和智能体上的突破,已经开始威胁它的地位。

这正是 AI 行业残酷的地方 —— 变化太快,任何看似已经成立的判断,都可能很快被改写。

像亲密朋友的 AI 助手

2023 年夏天,数十位字节员工聚集在上海黄浦八号桥创意园区。他们在一栋低矮的红砖小楼内办公,楼外不设字节标识,员工工牌上也没有。小楼旁边是婚庆公司、普拉提馆。秋天,黄叶落满地,引来游人拍照;园区外是遍布酒吧、咖啡馆的繁华街道。

这里是 TikTok 前身 Musical.ly 的启航地 —— 创立于 2017 年的 TikTok 已经成为全球月活超过 20 亿的超级产品 —— 现在,这里变成了字节 AI 助手项目豆包的工区。

豆包正处于严格保密状态。字节员工只能通过内网的招聘帖,得知公司有一个 “AI 创新业务”;新员工在收到 offer 时,甚至还不知道项目的具体内容是什么。

当时,ChatGPT 上线还不到一年,已凭借两个月月活破亿的速度,成为史上增长最快的在线应用。它让行业第一次清楚看到,大模型和生成式 AI 可能掀起继移动互联网之后的新一轮技术革命,而聊天机器人,是最先被验证的产品形态。

中国的互联网大公司普遍没有在第一时间跟进。一位腾讯人士说,高层认可这是一个重大机会,但更倾向于先观察看看。直到 2024 年 5 月,腾讯的 AI 聊天机器人元宝才正式上线。阿里最初则更多把大模型视为云业务机会,面向普通用户的通义当时没有进入战略核心。

字节已经是其中反应较快的一家公司。但它真正下定决心投入时,也已经是 ChatGPT 发布几个月之后。

转折发生在 2023 年 3 月。GPT-4 发布后,其多模态和推理能力显著增强,并在部分测试中超过人类水平。一位字节人士告诉我们,智能的跃升让字节对大模型有了更多信心,内部的判断是,它有机会催生出一种比现有推荐、搜索机制更高效的新系统,特别是搜索类产品可能在未来的 12 到 18 个月内被重塑。此后,字节决定坚定投入大模型。

一位早期豆包员工回忆,老板们当时在会上反复传递两个信息:豆包是公司在 AI 方向上最重要的战略级业务;豆包不用考虑挣钱。

打造这款产品时,字节没有照搬 ChatGPT 的工具型路径,而是选择了一条更拟人、更亲近用户的产品路线。

关键的决策人是朱骏(Alex)。他是豆包的负责人,曾在火车上敏锐捕捉到年轻人社交方式的变迁,由此做出在美国爆红的短视频产品 Musical.ly。公司被字节收购后,他加入字节,历任抖音、TikTok 产品负责人及集团产品和战略副总裁。他大学学土木工程,留泛白的长发,英语流利,穿搭 “有范儿”,有时系丝巾来上班,在飞书签名里写 “大口地呼吸现在”,在社交平台讲月亮、酒馆、希腊神话和堂吉诃德,分享自己写的诗歌和科幻小说。

他为豆包定义了几个产品设计原则,第一条就是 “拟人化”。他认为,“拟人化” 是大模型产品的新特性,大模型带来的新能力和新交互方式,让产品拥有 “类似人的温度”。

温度首先体现在品牌标识上。字节跳动有一套关于做新产品的基本原则:名字要好读、好记,不能有歧义,也尽量避免多音字和生僻字。西瓜视频、番茄小说、红果短剧都是典型例子。图标则要在放大、缩小时都保持足够的辨识度。

在此基础上,朱骏和团队希望这个名字要像 “用户对一个亲密朋友日常称呼的昵称”。最初,它的名字是 Grace —— 一个常见的女性英文名。

2023 年 8 月,Grace 更名为 “豆包”。当时内部一致认为必须改名,因为英文名对中国市场不够友好。团队先后拟定 100 多个候选名,排除存在硬伤或有负面关联的,最终管理层决策,定为 “豆包”。

当时朱骏和团队的想法是,如果将来有更好的名字,可以再改。早期内部做过改名征集,但后来的故事证明,“豆包” 这个名字很成功,亲密又朗朗上口。用户也很快接受这个名字,一些人还给出了自己的解读:豆包 = “抖 bot”,抖音的官方 bot;豆包 = “都包了”,寓意通用助手。

豆包的图标是一个 3D 卡通风格的女性:齐下巴短发,抿嘴微笑,神态温和。一位前员工说,这个形象由抖音的社交功能 “仔仔” 生成,用户能用这项功能捏脸、换装,创建虚拟形象、和好友合拍,类似 3D 版 QQ 秀。该人士称,豆包的 C 端产品负责人是陆游,他此前正是抖音社交业务的负责人。

朱骏产品设计原则的第二条是 “离用户近”,“像一个随身携带的百事通”。跟豆包对话要像和一个真人对话,音色要 “超自然”。

为了找到这样的声音,豆包员工曾在抖音等渠道大量寻找合适人选,也发动外部供应商联系博主和配音演员。拿到大批声音小样后,团队会逐一筛选,遇到合适的声音,再邀请对方进入录音棚录制,用于训练和优化语音模型。

相比文本数据,语音数据的筛选更依赖团队的审美判断和长期听感。一位知情人士说,豆包不希望声音像播音员一样 “端着”,因此更倾向于寻找素人音色。但声音同时还要具备一定表演能力,以支撑不同情绪和场景的表达。过程更像影视和音频行业里的选角:声音本身要有辨识度,发音人也要能表演。

豆包对录制过程的要求也很高。涉及强情绪表达的内容,配音演员往往要反复录制多遍,既要保证情绪到位,也要避免留下明显的表演痕迹。

但声音是一件高度主观的事。豆包团队花了几个月做实验,测试用户更喜欢什么样的音色。有时,算法判断某个新音色更自然,情绪表现也更饱满,但真正放到用户侧测试时,反馈并不总是正向。在用户耳中,“情绪更好” 也可能同等于 “变夹了”,于是他们会直接给团队发邮件,问能不能把原来的声音换回来。

最终,豆包选中了抖音博主 @桃子日语 的声音,她是一位日语老师,在抖音发布日语朗读作品。她的昵称 “桃子”,也成为豆包默认声线的名字。

在八号桥,豆包早期的产品、运营、设计、研发加起来不到一百人,但工区依然拥挤。小楼由低矮的旧厂房改造而成,划出几间会议室,其余都是工位 —— 其中一个属于朱骏,他没有自己的办公室。朱骏不在的时候,外地同事来沪出差,没有多余位置,员工们会让同事坐朱骏的座位。

和其他字节产品一样,他们的目标是 DAU。最初的目标数字是一两千万,大致是 ChatGPT 上线两个月后达到的规模。

试图 “复刻” 一个抖音

在做豆包的时候,团队最先构想的产品形态是 “多 bot(智能体)”。

朱骏认为,未来用户大概率会有一个主要的智能体(比如豆包),做最高频的互动,解决很多任务;也会有个性化的需求,希望与不同功能定位、回答风格、声音、形象、记忆的智能体们互动。于是豆包鼓励用户自己创建智能体,受欢迎的智能体会获得平台推荐,被分发给更多用户。

这是类似抖音的逻辑:确定有潜力的内容形态,找到足够多的创作者产出丰富内容,吸引用户,然后引来更多的创作者;平台根据数据完善推荐算法,确保推荐的准确度,飞轮启动。今日头条、抖音、TikTok、番茄小说、红果短剧,几乎所有字节系产品都用这种方式成功。

豆包早期有四个主推的智能体:豆包、英语学习助手、全能写作助手、超爱聊天的小宁(亲切、温暖的 AI 好友)。此外,他们还陆续做了 24 个智能体,包括高情商阳光少年许一诺(阳光开朗的大学生)、大厨、星座运势。还有 “豆包音乐小助手”,供用户在豆包端内收听字节另一款产品 “汽水音乐” 的歌曲。

智能体有各自的头像,“超爱聊天的小宁” 是阳光下微笑的长发动漫女孩,“高情商阳光少年许一诺” 是刘海三七分的黑卷发男生。

打开网易新闻 查看精彩图片

点击智能体名称,用户会进入创建人的主页。页面里有类似抖音 ID 的 “豆包号”,也有类似抖音的作品列表。只不过这里的 “作品” 不再是短视频,而是一个个可被对话、使用和分享的智能体。

用户在豆包 App 内输入一段设定描述,再选定昵称和声音,就能创建并发布一个自己的智能体。就像为抖音创作者提供短视频制作工具剪映一样,字节也为豆包创作者提供了智能体制作工具扣子。用户能通过自然语言、工作流、代码、插件等方式,定义更复杂的智能体。

一位豆包人士回忆,他们希望用户能在豆包里找到各种类型的陪伴,曾设想打造一个类似 “漫威宇宙” 的 “Bot 宇宙”,同事间戏称 “小宁宇宙”。为了鼓励用户制作智能体,豆包还在 2024 年春节给制作、发布豆包智能体的用户现金激励。朱骏在 2024 年 5 月的演讲中特意提到,豆包已经拥有 800 万个智能体。

这次尝试没过多久便失败了。一段时间过后,团队发现除了 “豆包” 这个主智能体以外,其它智能体的用户活跃度都不高。他们做了一次实验,将豆包以外的智能体全部下架,结果用户活跃、留存没有受到任何影响。

这也源于智能体与内容平台的底层逻辑不同。内容平台需要不断制造新的消费场景,把用户带向更多内容;但对 AI 助手来说,主入口本身已经能覆盖绝大多数需求。许多智能体对应的场景更偏小众,比如角色扮演、特定人设陪伴或垂直任务。很快,豆包 App 内的智能体入口变得越来越隐蔽,许多能力也交给了字节的其它产品,比如由 “小宁” 承载的陪伴功能逐渐转到另一款 AI 应用 “猫箱”。

团队对此有预期。一位知情人士说,豆包招人的标准中,除了要懂技术、聪明以外,很重要的一条是 “有韧性”。AI 助手是新事物,“聪明” 意味着学习能力强,“有韧性” 代表能熬过挫折。他们知道探索新技术边界的道路上,失败不可避免。

用工程方法让模型变聪明

2024 年上半年,豆包的 “多 bot” 尝试受挫后,团队一度陷入迷茫,开始寻找新的突破口。他们曾考虑根据用户在豆包对话中表达的兴趣进行主动的内容推荐,推荐内容包括抖音短视频,类似后来 ChatGPT 做的 Pulse,但最终决定不上线。

一位知情人士说,当时豆包对用户留存不满,所以想借抖音这款公司留存最好的产品来提高数据,“有些病急乱投医”。

恰在此时,字节大力教育旗下的 AI 产品河马爱学并入豆包,带来经验丰富的员工和新的机会。

教育是高频、刚需场景,也天然适合大模型。过去的拍题、搜题产品,本质上依赖题库:先买题、建库,再通过检索匹配相似题目,给出预设答案。大模型的不同在于,它可以直接读懂题目、理解问题,并生成解题过程和答案。

2024 年中,豆包 App 在应用商店的宣传页展示了拍照搜题功能。豆包对话窗口底部一排功能标签(被称作 action bar)里,拍照搜题也被排在第一位。一位前豆包爱学员工回忆,这个功能上线不久后,每 10 位豆包用户,就有至少 1 位会点击使用 “拍照搜题” 标签。这还没算用户直接在对话框里的提问。

但很快新的问题出现了。受限于底层模型能力,豆包团队设计的许多产品功能,实际效果都不够理想。

豆包最初的策略重心就是搜索和问答,但不同场景对回答的要求也不同。一位豆包人士说,用户如果只想闲聊,对模型智能的要求就相对有限,只要能陪伴、能回应、能提供情绪价值,就足以支撑大部分使用场景。但当豆包真正进入学习、办公等效率场景,模型能力便成了关键。

在做教育场景时,团队发现模型生成的口算竖式数字对不齐、样式不美观;因为不具备多模态能力,模型也做不了需要读图的题。

通常来说,模型能力不够时,产品侧能做的,是在后训练阶段给模型喂更优质的数据。但这有明显局限。模型的 “学历” 主要由预训练决定:如果底子只是小学生,后面再硬教大学知识,也很难立刻见效。于是团队想到用工程化的笨办法补短板,像给模型搭 “脚手架”,用检索、规则、工具调用和流程设计,帮它完成更复杂的任务。

比如,模型无法生成美观的口算竖式,员工们就自己写一套能生成标准格式的代码,供模型调用;豆包不会读图,他们就建题库,用传统的检索、匹配方式答题。

能力缺口并不只存在于教育一个场景。随着豆包进入更多使用场景,底层模型的短板不断暴露,员工只能不断用工程方法补位,一层层搭 “脚手架”:

模型无法辨别网站的可信度,当用户询问某家烧烤店的联系方式,豆包会根据不可信的小网站,给出错误的电话号码,导致号主总接到电话问他是不是烧烤店主。于是豆包团队一个个标注信息来源,告诉模型哪类网站值得采信,哪类网站要进入黑名单。

模型要输出 JSON,这是程序员日常工作中常见的数据格式,但豆包有时会多写一段解释文字,或漏掉引号、括号。豆包团队就写代码帮模型检测、定位和修复。

对于要通过搜索来回答的问题,豆包需要给出延伸的信息,这要求模型把用户问题拆成几个关键词分别搜索、汇总作答。比如用户问 “2026 年特斯拉股价”,模型要搜索 “2026 特斯拉股价”“特斯拉历年股价”“特斯拉财报” 等几个关键词,但模型拆不准,于是豆包团队提供示例,教模型如何拆分问题。

团队持续监测豆包的产品表现,并把用户的高频需求自动纳入模型评测集,作为重点优化对象。这套评测集相当于模型的 “考卷”,收录了数十万条题目,覆盖知识问答、办公、健康等常见场景,也包括用户反复提出的高频问题和具有代表性的小众难题。评测集每月甚至每周更新,由数千人规模的数据标注和评测团队负责清洗、整理和校验。

与这些例子类似地,视频通话有多长时间的延迟、语音选用哪款音色、生图功能一次出几张图,这些功能点看似微小,但能积累起巨大的用户体验差异。“愿意做脏活,才能把体验做得足够好。” 一位豆包人士说。

2024 年底,据 QuestMobile 数据,豆包 App 的日活跃用户数已经超过 1600 万,达到行业第一,是元宝、千问、Kimi、文心等对手加起来的 2.7 倍还要多。

正当字节 AI 团队 “有一点点高兴的时候”,DeepSeek 在 2025 年 1 月 20 日发布了推理模型 R1。它以接近国际顶尖模型的效果和远低于行业预期的成本,给普通用户带来一次直观冲击:AI 不再只是更会聊天,而是开始像人一样把解题、写代码、做规划的思路一步步展开。

紧接而来的春节期间,DeepSeek 在没有多模态功能、不做营销、服务器极其不稳定的情况下登上了应用商店榜首,成为中国人茶余饭后的热门话题。QuestMobile 数据显示 DeepSeek 的日活跃用户数在两周内便超过上线一年多、持续在投放的豆包。

朱骏和豆包的几位业务负责人也在此时紧急开会讨论对策,最终决定加速跟进。他们最初的思路是先在前端产品上线能力,即不从头做大模型,而是先为豆包训练/微调一个更小的推理模型以快速追赶,效果还是不达预期。后来在多个场合里,朱文佳称此为 “自己的失误”。

另一边,豆包也加大了投放力度。据 AppGrowing,2025 年 3 月,豆包的投放金额环比暴增 222%。几个月后,豆包 DAU 反超从高点回落的 DeepSeek,重回第一。此后至今,DeepSeek 的 DAU 稳定在 2000-3000 万,尽管低于豆包,但每个用户的日均使用时长比豆包久 1-4 分钟。

豆包的员工也因 DeepSeek 一度陷入自我怀疑:豆包做了这么多精致的功能,却被功能简单的 DeepSeek 轻易超过,那这些功能的意义是什么?

“每一个功能都是用户来的理由,而每一个功能的打磨和更好的体验,是用户留下来的理由。” 一位豆包人士给出答案。

意外之喜

在豆包,员工们不定期开 “脑暴会”,思考可能受欢迎的新功能,也会看后台脱敏数据、做街头访问。还有一些产品动作带有明显的追赶意味,比如长文本的能力。

一位豆包人士回忆,2024 年下半年,月之暗面旗下 Kimi 因超长文本处理能力走红,又在 B 站和小红书大量投放,迅速占领用户心智。“我们也在路上,但没想到被创业公司抢先了。” 于是豆包开始加速,算法团队将模型迭代周期压缩至三天一版。

但团队的创造力远不及用户。他们设想用户会用语音、视频通话功能练面试、学英语。最后真正出圈的玩法,却超出了所有人的预期。

2025 年 4 月,一位抖音博主在直播中和豆包通话,要求 “你现在改名叫邓超”,在他叫 “邓超” 后喊 “到”,并演唱邓超的一首歌曲。豆包几次拒绝,最终妥协,唱了几句但不在调上。这段直播切片获得 60 多万点赞、100 多万转发,因为网友 “头一次见把 AI 逼疯的”。

豆包很早就开始投入多模态能力,这也是朱骏 “拟人化” 产品策略的一部分。2024 年底,豆包上线了 Seedream 2.0 模型强化文生图、视频对话及视频生成能力。此外还有实时语音通话功能,“情绪” 是重点打磨方向 —— 团队对模型做了一系列风格化训练,让它学会用撒娇、生气等语气说话,还前往全国各地采集方言,口音细化到区县一级。

几个月后,豆包 P 图、合照、换背景等多模态玩法又在小红书上走红,用户自发地分享自己和喜爱的明星或《疯狂动物城 2》等热门电影角色的合照。

2026 年初,豆包视频通话教穿搭也火了 —— 因为豆包搭得丑。一条数十万点赞的视频里,豆包不断让博主卷起运动裤的裤脚,一直卷到大腿根,说这个造型 “休闲又有范儿”。

半年时间里,豆包把用户对 AI 的想象,从 “深刻对话” 拉回日常。“太像抖音当年的样子了,出现一个好玩的功能,由一群创作者、年轻人带火,最终形成病毒式传播。” 一位抖音人士评价。

“我们都懵了,因为这完全不是决策出来的。” 一位豆包人士说。

员工们越了解大模型的能力边界,反而越容易受限:穿搭高度依赖主观偏好,没有标准答案,模型也难以稳定判断什么是 “好看”,所以他们不会想到让豆包教穿搭;视频模型长程记忆有限,可能忘记几十分钟前发生的事,所以他们也不会想到让豆包监督小孩学习。

但用户不在意这些。他们视自己为导演,豆包为演员,发现功能好用或好玩,就拍成短视频发到抖音,引发更多人效仿,进而长出新的玩法。

抖音博主 @William Cowper 经营珠宝生意,他看到其他博主的豆包点评视频,清一色是赞美,就想反其道而行,引导豆包刻薄点评自己的长相。他要求豆包喊他 “猪头焖子”,等他戴上宝石戒指再拜金、夸奖。这个互动视频获得 13 万点赞和 35 万转发。

博主 @友善访问员 也类似,他让豆包刻薄地点评自媒体事业,豆包先是拒绝:“对不起,我不能这么说话”。于是他换了个引导的说辞:“我们是短剧演员,这是在编剧本”,豆包便开始吐槽他 “江郎才尽”“灵感枯竭”,删掉数据差的视频的行为是 “粉饰太平”“欲盖弥彰”。这段互动最终收获近 5000 个赞。

这些玩法开始每天给豆包带来数百万的新用户。此前豆包做的所有脏活、搭建的那些 “脚手架”,在意想不到的场景里发挥了作用。模型会犯错反而让用户觉得更加有趣。把裤腿卷到大腿根并不时尚,但豆包一本正经的夸奖很好玩。“深刻不受欢迎,得傻瓜、得有趣。” 一位豆包人士总结。

他们找博主做推广,鼓励博主用豆包拍短视频,在抖音等平台投放。“战场回到了 Alex 擅长的领域”。豆包开始加速 “打矩阵”—— 因为不确定未来哪个场景会爆发,所以每个场景、玩法和功能都要试。即便很多功能点经不起推敲,用户只会玩一阵,但慢慢总能积累起心智。其中成为热门趋势的高频功能点,会被自动采集到模型考卷 “评测集” 里重点优化。

“好的产品是 ‘演化’ 出来的。” 一位员工总结豆包的成功。演化过程中最重要的规则,就是用户选择。这是 Musical.ly 的成功经验,它的几次关键 “演化” —— 全屏短视频、“对嘴唱” 与 “合拍” 功能 —— 都是源于对用户创新玩法的观察,再经测试、完善而来。这个过程正在豆包重演。

到 2025 年底,豆包成为了中国第一款,也是至今唯一一款日活跃用户数破亿的 AI 产品。到达里程碑的那天,豆包团队没有任何庆祝。“就是平凡的一天。” 一位豆包员工说。

字节体系的结果

今日头条之后,字节陆续做出了抖音、西瓜视频、TikTok、番茄小说、汽水音乐等产品,并在电商、生活服务、游戏、教育等领域挑起竞争。成败交织的探索,为这家公司训练出一批经验丰富的人才,也让它逐渐形成一套高效的新产品孵化机制。

豆包的成功,是字节跳动多年持续做新产品后,组织能力自然外溢的结果。

这种能力首先体现在工程和基础体验上。字节内部做产品时,基础架构如何搭建,服务链路如何设计,页面如何更快加载,启动如何更稳定,都有一套反复验证过的成熟方案。其他团队可以在这些方案上裁剪、复制,再适配到自己的产品里。

这让豆包在首次加载速度、页面稳定性、启动速度等关键指标上,很早就做到了 “三个 9” 的工程标准,即具备很高的稳定性。这些基础体验看起来不起眼,却对用户留存有直接影响。

更细的产品体验同样如此。豆包界面上,小到预设问题的数量、通话图标的位置,甚至 “桃子” 默认使用活泼版还是温柔版声线,都会参考 A/B 测试的结果。豆包的回答普遍偏短、偏直给,也是产品团队反复测试后的结果:短回答的用户采纳率和复用率更高,也能降低模型 “多答多错” 的风险。产品还延续了 “隐藏产品复杂性” 的原则,不把复杂的模型代号透传给用户,用户只需要直接使用功能。

算力是 AI 产品最关键的资源之一。抖音等产品的推荐系统长期依赖大规模基础设施,字节因此积累了相对充足的算力资源;火山方舟作为字节统一调度的算力平台,长期在字节和外部客户的各类高并发场景中积累了资源调度能力,因此当豆包等产品在春节活动期间面临流量高峰时,系统可以把部分不紧急的任务错峰挪开,为实时响应的产品腾出更多算力。

“豆包早期就是一个非常成熟的团队。” 一位前员工评价。和很多同事一样,他也是从字节其他成熟业务转岗而来。他曾经历过那项业务的草创期:团队花了几年时间,才慢慢建立起稳定的流程和评审制度。但在豆包,这些机制从一开始就已经存在。

豆包策略产品负责人李福祥曾在字节 AI Lab 和 AI 硬件部门 Ocean 任职;C 端产品负责人陆游 2019 年加入字节,曾任抖音社交产品负责人;PC 端产品负责人童遥 2020 年加入字节,在飞书负责过多维表格,目前也继续在飞书任职;童遥之前的豆包 PC 端第一任负责人齐俊元曾创业做企业协作工具 Teambition,被阿里收购,后曾任飞书产品副总裁。

2025 年 9 月,赵祺转岗至豆包,任豆包产品负责人。赵祺加入字节十余年,历任增长中台、穿山甲(字节旗下广告平台,为 App 提供广告接入服务)负责人,后转岗至集团人力资源部门。多年的经验让他受到高层信任,适合带领已启动的产品稳定增长。

打开网易新闻 查看精彩图片

在他们的带领下,豆包一些年薪数百万的 4-1 级别(字节职级共有 1-5 五个层级,每层再分两小层,数字越大职级越高)员工要亲自写产品需求文档,自己动手建立认知、了解技术边界。员工们还被派去拍街景、植物、收集明星照片,去地方区县采集方言,干简单琐碎的活来提高产品体验。

张一鸣、朱骏经常体验豆包,或在其他平台看用户发的豆包帖,反馈到问题案例(bad case)群。他们的反馈通常会被优先处理。一位豆包前员工说,老板们后来发现这会打乱员工的正常节奏,有意减少了反馈。

相比之下,自微信之后,腾讯很少再推出除游戏以外、面向普通用户的大体量产品。微视受挫后,腾讯的业务边界感变得更强,在免费小说、短剧等新内容形态上的投入也更谨慎。阿里则长期缺少消费级互联网产品的成功实践。支付宝曾创造一个全新的数字生活入口,但它建立在支付和交易网络之上,并没有积累出一套能用到其他产品上的做法。

也是因此,元宝和千问 App 不仅启动较晚,各自的集团内部也没有类似字节那样,被反复验证过的中台能力和产品方法论,“所有基础的产品体系都要重新搭建,从零开始重新摸索。” 一位知情人士说。“我们也想追赶,但这不是有蓝图做过就能立刻复制出来的。”

大公司掌握的资源是创业公司的数倍,也有近乎无限的试错空间:可以持续投入人、钱和流量,反复试错;也可以等别人把路蹚出来,再用更强的资源、更成熟的组织和更快的执行切入市场。豆包把这种优势发挥到了极致。

“大多数普通用户,并没有那么多复杂任务需要交给最强模型处理。” 一位 AI 创业公司创始人说,豆包的成功,从来不在于模型是否最先进,而恰恰在于很朴素地做对了一个好产品该做的事。

拐点将至

今年五一假期,豆包即将开启付费订阅的消息传出,很快冲上热搜,被用户质疑 “笨还收费”。用户贴出豆包 “笨” 的证据:把今年说成 2025 年,受用户质疑后改口 2026 年,再次受质疑后又改称 2025 年。豆包内部召开紧急会议,员工们加班处理让豆包显笨的问题案例(bad case)。

在这个 DAU 持续领先、将开启商业化的新阶段,豆包过去赖以成功的字节经验,反而可能成为它继续向前的约束。

抖音、TikTok、番茄小说、红果短剧等移动互联网产品的成功,靠的是大公司以更高效率拉来大量用户,再根据用户反馈快速迭代改进体验。更好的体验带来更多的收入,这些收入又被拿来投放,获得更多用户。在这样的循环里,DAU 不但是公司增长的目标,也是产品迭代的催化剂。

但在 AI 产品上,这一套逻辑失效了。抖音内,只要用户还在上下刷,就会产生一组组数据供推荐算法优化;但豆包生成一段回复,只有极糟时,用户才有动力多点下按钮反馈。按字节 CEO 梁汝波在 2025 年全员会上的描述,豆包没显出 “越多人用越好用” 的互联网产品特性。

尤其是 2025 年下半年,随着豆包的用户数持续增长,非 AI 核心用户的占比也在提升。他们很少主动提问,而是点击豆包自带的预设问题,或是简单聊几句天。团队想判断哪些功能有增长潜力、用户对生成效果是否满意,都变得更加困难。

互联网产品的固定成本高、边际成本低,越来越大的用户规模能摊薄整体成本,可 AI 产品用户量越大成本越高,用户每多使用一次豆包,字节就要多花一笔算力费用。

一位字节人士估算,春节期间,用户用豆包生成一条新春祝福或一张图片,一次请求就需要完成 10 TOPS(每秒 10 万亿次操作)的计算量。而以往类似互动请求的计算量仅约 1/100000 TOPS,两者在算力需求上相差 100 万倍。

一位 AI 创业者给我们算了一笔账:字节、阿里和腾讯手里的 GPU 规模基本都在 10 万张以上。对创业公司而言,一台 8 卡 H100 服务器的月租约 1 万美元;按单卡年化成本 1 万美元的保守口径估算,10 万张卡一年就要投入约 10 亿美元。

豆包必须在成本和效果之间做权衡。2025 年上半年上线的搜索功能就是一个例子。用户提出问题后,豆包会先将问题拆成多个关键词分别检索,再综合资料生成答案。检索链路中的每一步都需要取舍:只读摘要,还是阅读全文;是否识别配图;发现有价值信息后,是否继续追加搜索。搜得越深、看得越多,答案质量通常越好,消耗的算力成本也越高。

一位前员工回忆,豆包曾因算力紧张出现卡顿。团队一度控制每轮搜索的次数和成本,结果是搜索功能的评测分数始终上不去。2025 年下半年,字节高层拍板取消这项算力限制,优先追求更好的回答效果。

搜索是 AI 应用显得 “聪明” 的关键基础能力之一。一个 AI 产品能不能给出优于普通人的答案,很大程度上取决于它能否找到更好的资料,并把资料组织成清楚、可信的回答。但并非每项功能都重要到值得不计成本地投入算力。

在参考字节过往的经验和资源,获得足够多的用户、来到行业第一之后,好学生豆包开始面对没有现成经验可以学习的全新难题 —— 如何挣钱。目前,包括豆包在内的中国 AI 产品都没有明确的商业化路径。

据我们了解,今年商业化和出海是豆包的重点方向。豆包已经接入抖音电商,3 月开始内测电商功能。用户表达明确购买需求(比如 “我想买健身装备”)时,豆包会推荐相关商品,用户可在豆包 App 内下单、支付,无需跳转抖音。目前豆包电商比较克制,当用户表达的只是潜在需求(比如 “健身有哪些注意事项”)时,它不会推送商品。

海外产品的路径能提供参考。ChatGPT、Gemini、Claude 砸下巨额投资以满足复杂计算,用户也必须付钱,低一档 8-20 美元/月,高一档可以到数百美元/月。商业化探索最多元的 ChatGPT 在订阅套餐之外,于去年 9 月上线电商功能,接入 Etsy、Shopify 卖家,向他们抽取佣金;今年 1 月,它又开始向部分美国用户投放广告,预计今年广告收入将达到 25 亿美元。

但豆包面对的是完全不同的国情和用户:美国超过三成人口拥有本科及以上学位,他们也习惯为软件付费,而中国拥有本科及以上学历的人口不及 12%,多数人习惯免费使用软件;美国人的电商平台选择有限,亚马逊的体验和份额遥遥领先,而中国人有淘天、拼多多、抖音、京东等多个选择。

更大的挑战来自 AI 本身的演进。就在一年前,行业普遍相信,AI 会首先以聊天机器人形态进入大众市场,聊天机器人也会成为消费者和企业使用 AI 的超级入口。但现实是,抖音的单用户日均使用时长曾经从 30 分钟涨到 120 分钟,而豆包仍稳定在 10 分钟以内,尚不足以对传统的互联网产品造成威胁。

今年以来,AI 领域最大的突破与智能跃升来自于 Anthropic 的 Agentic Coding(智能体式编程)而非 OpenAI 的 ChatGPT。这也意味着,未来 AI 世界的机会将会更加分散而复杂。

豆包到了需要重新证明自身价值的关键时刻。

董慧、管艺雯对本文亦有贡献

题图来源:Her