制造豆包：一个 AI 超级入口的形成与转向|制造豆包|字节|宇宙|小宁|番茄

豆包证明了字节产品方法论依然有效，但也暴露了它在 AI 时代的边界。

文丨郑可书高洪浩

图丨黄帧昕

编辑丨高洪浩

豆包是中国唯一一个每天使用人数过亿的 AI 产品。但最近，它正在刻意降低对用户规模的关注。

就在三个月前，这还是团队最关注的指标之一 —— 春节期间，他们给豆包定下了冲刺 2 亿 DAU（日活跃用户数）的目标。看着后台数字一路飙升，员工们半开玩笑地说：“别涨了，涨得我有点害怕了。” 算力吃紧的时候，为了接住涌入的新用户，一些原定春节后上线的功能不得不推迟。

豆包仍然想增长，但增长带来了新问题：AI 产品没有传统互联网产品的规模效应——用的人越多，推理成本越高，收入却不会同步增长。

今年五一假期，豆包将开启付费订阅的消息传出，很快冲上热搜。用户质疑它 “笨还收费”：回答不够准确，复杂任务做不好，处理长文档、PPT、数据分析时尤其吃力。

豆包紧急开会，员工加班修复错误回答和失败任务。过去用户打开豆包，主要是聊天、娱乐、做简单查询。一旦开始追求回答质量，追求 “聪明”，DAU 必然受影响。

豆包是字节跳动做出的又一个增长奇迹，DAU 不到两年半时间破亿，超过国内其他 AI 助手产品的总和。一位字节人士说，豆包也是字节历史上投放相对克制的战略级产品。据 AppGrowing 估算，过去两年（截至今年 4 月），豆包只花了 17 亿元投流，而腾讯元宝花了 222 亿，阿里千问花了 37 亿。

豆包的特殊之处在于，它并非诞生于一家大模型能力绝对领先的公司，却长成了体量绝对领先于同类产品的 AI 应用。它的成长，延续了字节在今日头条、抖音、TikTok 上反复验证过的方法论：顺应人性、依赖数据、极速迭代。

但过去一年，“AI 聊天机器人将成为一切入口” 的信念正在动摇。OpenAI 仍然最重要，但 Anthropic 凭借 Claude Code 和 Claude Cowork 在编程和智能体上的突破，已经开始威胁它的地位。

这正是 AI 行业残酷的地方 —— 变化太快，任何看似已经成立的判断，都可能很快被改写。

像亲密朋友的 AI 助手

2023 年夏天，数十位字节员工聚集在上海黄浦八号桥创意园区。他们在一栋低矮的红砖小楼内办公，楼外不设字节标识，员工工牌上也没有。小楼旁边是婚庆公司、普拉提馆。秋天，黄叶落满地，引来游人拍照；园区外是遍布酒吧、咖啡馆的繁华街道。

这里是 TikTok 前身 Musical.ly 的启航地 —— 创立于 2017 年的 TikTok 已经成为全球月活超过 20 亿的超级产品 —— 现在，这里变成了字节 AI 助手项目豆包的工区。

豆包正处于严格保密状态。字节员工只能通过内网的招聘帖，得知公司有一个 “AI 创新业务”；新员工在收到 offer 时，甚至还不知道项目的具体内容是什么。

当时，ChatGPT 上线还不到一年，已凭借两个月月活破亿的速度，成为史上增长最快的在线应用。它让行业第一次清楚看到，大模型和生成式 AI 可能掀起继移动互联网之后的新一轮技术革命，而聊天机器人，是最先被验证的产品形态。

中国的互联网大公司普遍没有在第一时间跟进。一位腾讯人士说，高层认可这是一个重大机会，但更倾向于先观察看看。直到 2024 年 5 月，腾讯的 AI 聊天机器人元宝才正式上线。阿里最初则更多把大模型视为云业务机会，面向普通用户的通义当时没有进入战略核心。

字节已经是其中反应较快的一家公司。但它真正下定决心投入时，也已经是 ChatGPT 发布几个月之后。

转折发生在 2023 年 3 月。GPT-4 发布后，其多模态和推理能力显著增强，并在部分测试中超过人类水平。一位字节人士告诉我们，智能的跃升让字节对大模型有了更多信心，内部的判断是，它有机会催生出一种比现有推荐、搜索机制更高效的新系统，特别是搜索类产品可能在未来的 12 到 18 个月内被重塑。此后，字节决定坚定投入大模型。

一位早期豆包员工回忆，老板们当时在会上反复传递两个信息：豆包是公司在 AI 方向上最重要的战略级业务；豆包不用考虑挣钱。

打造这款产品时，字节没有照搬 ChatGPT 的工具型路径，而是选择了一条更拟人、更亲近用户的产品路线。

关键的决策人是朱骏（Alex）。他是豆包的负责人，曾在火车上敏锐捕捉到年轻人社交方式的变迁，由此做出在美国爆红的短视频产品 Musical.ly。公司被字节收购后，他加入字节，历任抖音、TikTok 产品负责人及集团产品和战略副总裁。他大学学土木工程，留泛白的长发，英语流利，穿搭 “有范儿”，有时系丝巾来上班，在飞书签名里写 “大口地呼吸现在”，在社交平台讲月亮、酒馆、希腊神话和堂吉诃德，分享自己写的诗歌和科幻小说。

他为豆包定义了几个产品设计原则，第一条就是 “拟人化”。他认为，“拟人化” 是大模型产品的新特性，大模型带来的新能力和新交互方式，让产品拥有 “类似人的温度”。

温度首先体现在品牌标识上。字节跳动有一套关于做新产品的基本原则：名字要好读、好记，不能有歧义，也尽量避免多音字和生僻字。西瓜视频、番茄小说、红果短剧都是典型例子。图标则要在放大、缩小时都保持足够的辨识度。

在此基础上，朱骏和团队希望这个名字要像 “用户对一个亲密朋友日常称呼的昵称”。最初，它的名字是 Grace —— 一个常见的女性英文名。

2023 年 8 月，Grace 更名为 “豆包”。当时内部一致认为必须改名，因为英文名对中国市场不够友好。团队先后拟定 100 多个候选名，排除存在硬伤或有负面关联的，最终管理层决策，定为 “豆包”。

当时朱骏和团队的想法是，如果将来有更好的名字，可以再改。早期内部做过改名征集，但后来的故事证明，“豆包” 这个名字很成功，亲密又朗朗上口。用户也很快接受这个名字，一些人还给出了自己的解读：豆包 = “抖 bot”，抖音的官方 bot；豆包 = “都包了”，寓意通用助手。

豆包的图标是一个 3D 卡通风格的女性：齐下巴短发，抿嘴微笑，神态温和。一位前员工说，这个形象由抖音的社交功能 “仔仔” 生成，用户能用这项功能捏脸、换装，创建虚拟形象、和好友合拍，类似 3D 版 QQ 秀。该人士称，豆包的 C 端产品负责人是陆游，他此前正是抖音社交业务的负责人。

朱骏产品设计原则的第二条是 “离用户近”，“像一个随身携带的百事通”。跟豆包对话要像和一个真人对话，音色要 “超自然”。

为了找到这样的声音，豆包员工曾在抖音等渠道大量寻找合适人选，也发动外部供应商联系博主和配音演员。拿到大批声音小样后，团队会逐一筛选，遇到合适的声音，再邀请对方进入录音棚录制，用于训练和优化语音模型。

相比文本数据，语音数据的筛选更依赖团队的审美判断和长期听感。一位知情人士说，豆包不希望声音像播音员一样 “端着”，因此更倾向于寻找素人音色。但声音同时还要具备一定表演能力，以支撑不同情绪和场景的表达。过程更像影视和音频行业里的选角：声音本身要有辨识度，发音人也要能表演。

豆包对录制过程的要求也很高。涉及强情绪表达的内容，配音演员往往要反复录制多遍，既要保证情绪到位，也要避免留下明显的表演痕迹。

但声音是一件高度主观的事。豆包团队花了几个月做实验，测试用户更喜欢什么样的音色。有时，算法判断某个新音色更自然，情绪表现也更饱满，但真正放到用户侧测试时，反馈并不总是正向。在用户耳中，“情绪更好” 也可能同等于 “变夹了”，于是他们会直接给团队发邮件，问能不能把原来的声音换回来。

最终，豆包选中了抖音博主 @桃子日语的声音，她是一位日语老师，在抖音发布日语朗读作品。她的昵称 “桃子”，也成为豆包默认声线的名字。

在八号桥，豆包早期的产品、运营、设计、研发加起来不到一百人，但工区依然拥挤。小楼由低矮的旧厂房改造而成，划出几间会议室，其余都是工位 —— 其中一个属于朱骏，他没有自己的办公室。朱骏不在的时候，外地同事来沪出差，没有多余位置，员工们会让同事坐朱骏的座位。

和其他字节产品一样，他们的目标是 DAU。最初的目标数字是一两千万，大致是 ChatGPT 上线两个月后达到的规模。

试图 “复刻” 一个抖音

在做豆包的时候，团队最先构想的产品形态是 “多 bot（智能体）”。

朱骏认为，未来用户大概率会有一个主要的智能体（比如豆包），做最高频的互动，解决很多任务；也会有个性化的需求，希望与不同功能定位、回答风格、声音、形象、记忆的智能体们互动。于是豆包鼓励用户自己创建智能体，受欢迎的智能体会获得平台推荐，被分发给更多用户。

这是类似抖音的逻辑：确定有潜力的内容形态，找到足够多的创作者产出丰富内容，吸引用户，然后引来更多的创作者；平台根据数据完善推荐算法，确保推荐的准确度，飞轮启动。今日头条、抖音、TikTok、番茄小说、红果短剧，几乎所有字节系产品都用这种方式成功。

豆包早期有四个主推的智能体：豆包、英语学习助手、全能写作助手、超爱聊天的小宁（亲切、温暖的 AI 好友）。此外，他们还陆续做了 24 个智能体，包括高情商阳光少年许一诺（阳光开朗的大学生）、大厨、星座运势。还有 “豆包音乐小助手”，供用户在豆包端内收听字节另一款产品 “汽水音乐” 的歌曲。

智能体有各自的头像，“超爱聊天的小宁” 是阳光下微笑的长发动漫女孩，“高情商阳光少年许一诺” 是刘海三七分的黑卷发男生。

点击智能体名称，用户会进入创建人的主页。页面里有类似抖音 ID 的 “豆包号”，也有类似抖音的作品列表。只不过这里的 “作品” 不再是短视频，而是一个个可被对话、使用和分享的智能体。

用户在豆包 App 内输入一段设定描述，再选定昵称和声音，就能创建并发布一个自己的智能体。就像为抖音创作者提供短视频制作工具剪映一样，字节也为豆包创作者提供了智能体制作工具扣子。用户能通过自然语言、工作流、代码、插件等方式，定义更复杂的智能体。

一位豆包人士回忆，他们希望用户能在豆包里找到各种类型的陪伴，曾设想打造一个类似 “漫威宇宙” 的 “Bot 宇宙”，同事间戏称 “小宁宇宙”。为了鼓励用户制作智能体，豆包还在 2024 年春节给制作、发布豆包智能体的用户现金激励。朱骏在 2024 年 5 月的演讲中特意提到，豆包已经拥有 800 万个智能体。

这次尝试没过多久便失败了。一段时间过后，团队发现除了 “豆包” 这个主智能体以外，其它智能体的用户活跃度都不高。他们做了一次实验，将豆包以外的智能体全部下架，结果用户活跃、留存没有受到任何影响。

这也源于智能体与内容平台的底层逻辑不同。内容平台需要不断制造新的消费场景，把用户带向更多内容；但对 AI 助手来说，主入口本身已经能覆盖绝大多数需求。许多智能体对应的场景更偏小众，比如角色扮演、特定人设陪伴或垂直任务。很快，豆包 App 内的智能体入口变得越来越隐蔽，许多能力也交给了字节的其它产品，比如由 “小宁” 承载的陪伴功能逐渐转到另一款 AI 应用 “猫箱”。

团队对此有预期。一位知情人士说，豆包招人的标准中，除了要懂技术、聪明以外，很重要的一条是 “有韧性”。AI 助手是新事物，“聪明” 意味着学习能力强，“有韧性” 代表能熬过挫折。他们知道探索新技术边界的道路上，失败不可避免。

用工程方法让模型变聪明

2024 年上半年，豆包的 “多 bot” 尝试受挫后，团队一度陷入迷茫，开始寻找新的突破口。他们曾考虑根据用户在豆包对话中表达的兴趣进行主动的内容推荐，推荐内容包括抖音短视频，类似后来 ChatGPT 做的 Pulse，但最终决定不上线。

一位知情人士说，当时豆包对用户留存不满，所以想借抖音这款公司留存最好的产品来提高数据，“有些病急乱投医”。

恰在此时，字节大力教育旗下的 AI 产品河马爱学并入豆包，带来经验丰富的员工和新的机会。

教育是高频、刚需场景，也天然适合大模型。过去的拍题、搜题产品，本质上依赖题库：先买题、建库，再通过检索匹配相似题目，给出预设答案。大模型的不同在于，它可以直接读懂题目、理解问题，并生成解题过程和答案。

2024 年中，豆包 App 在应用商店的宣传页展示了拍照搜题功能。豆包对话窗口底部一排功能标签（被称作 action bar）里，拍照搜题也被排在第一位。一位前豆包爱学员工回忆，这个功能上线不久后，每 10 位豆包用户，就有至少 1 位会点击使用 “拍照搜题” 标签。这还没算用户直接在对话框里的提问。

但很快新的问题出现了。受限于底层模型能力，豆包团队设计的许多产品功能，实际效果都不够理想。

豆包最初的策略重心就是搜索和问答，但不同场景对回答的要求也不同。一位豆包人士说，用户如果只想闲聊，对模型智能的要求就相对有限，只要能陪伴、能回应、能提供情绪价值，就足以支撑大部分使用场景。但当豆包真正进入学习、办公等效率场景，模型能力便成了关键。

在做教育场景时，团队发现模型生成的口算竖式数字对不齐、样式不美观；因为不具备多模态能力，模型也做不了需要读图的题。

通常来说，模型能力不够时，产品侧能做的，是在后训练阶段给模型喂更优质的数据。但这有明显局限。模型的 “学历” 主要由预训练决定：如果底子只是小学生，后面再硬教大学知识，也很难立刻见效。于是团队想到用工程化的笨办法补短板，像给模型搭 “脚手架”，用检索、规则、工具调用和流程设计，帮它完成更复杂的任务。

比如，模型无法生成美观的口算竖式，员工们就自己写一套能生成标准格式的代码，供模型调用；豆包不会读图，他们就建题库，用传统的检索、匹配方式答题。

能力缺口并不只存在于教育一个场景。随着豆包进入更多使用场景，底层模型的短板不断暴露，员工只能不断用工程方法补位，一层层搭 “脚手架”：

模型无法辨别网站的可信度，当用户询问某家烧烤店的联系方式，豆包会根据不可信的小网站，给出错误的电话号码，导致号主总接到电话问他是不是烧烤店主。于是豆包团队一个个标注信息来源，告诉模型哪类网站值得采信，哪类网站要进入黑名单。

模型要输出 JSON，这是程序员日常工作中常见的数据格式，但豆包有时会多写一段解释文字，或漏掉引号、括号。豆包团队就写代码帮模型检测、定位和修复。

对于要通过搜索来回答的问题，豆包需要给出延伸的信息，这要求模型把用户问题拆成几个关键词分别搜索、汇总作答。比如用户问 “2026 年特斯拉股价”，模型要搜索 “2026 特斯拉股价”“特斯拉历年股价”“特斯拉财报” 等几个关键词，但模型拆不准，于是豆包团队提供示例，教模型如何拆分问题。

团队持续监测豆包的产品表现，并把用户的高频需求自动纳入模型评测集，作为重点优化对象。这套评测集相当于模型的 “考卷”，收录了数十万条题目，覆盖知识问答、办公、健康等常见场景，也包括用户反复提出的高频问题和具有代表性的小众难题。评测集每月甚至每周更新，由数千人规模的数据标注和评测团队负责清洗、整理和校验。

与这些例子类似地，视频通话有多长时间的延迟、语音选用哪款音色、生图功能一次出几张图，这些功能点看似微小，但能积累起巨大的用户体验差异。“愿意做脏活，才能把体验做得足够好。” 一位豆包人士说。

2024 年底，据 QuestMobile 数据，豆包 App 的日活跃用户数已经超过 1600 万，达到行业第一，是元宝、千问、Kimi、文心等对手加起来的 2.7 倍还要多。

正当字节 AI 团队 “有一点点高兴的时候”，DeepSeek 在 2025 年 1 月 20 日发布了推理模型 R1。它以接近国际顶尖模型的效果和远低于行业预期的成本，给普通用户带来一次直观冲击：AI 不再只是更会聊天，而是开始像人一样把解题、写代码、做规划的思路一步步展开。

紧接而来的春节期间，DeepSeek 在没有多模态功能、不做营销、服务器极其不稳定的情况下登上了应用商店榜首，成为中国人茶余饭后的热门话题。QuestMobile 数据显示 DeepSeek 的日活跃用户数在两周内便超过上线一年多、持续在投放的豆包。

朱骏和豆包的几位业务负责人也在此时紧急开会讨论对策，最终决定加速跟进。他们最初的思路是先在前端产品上线能力，即不从头做大模型，而是先为豆包训练/微调一个更小的推理模型以快速追赶，效果还是不达预期。后来在多个场合里，朱文佳称此为 “自己的失误”。

另一边，豆包也加大了投放力度。据 AppGrowing，2025 年 3 月，豆包的投放金额环比暴增 222%。几个月后，豆包 DAU 反超从高点回落的 DeepSeek，重回第一。此后至今，DeepSeek 的 DAU 稳定在 2000-3000 万，尽管低于豆包，但每个用户的日均使用时长比豆包久 1-4 分钟。

豆包的员工也因 DeepSeek 一度陷入自我怀疑：豆包做了这么多精致的功能，却被功能简单的 DeepSeek 轻易超过，那这些功能的意义是什么？

“每一个功能都是用户来的理由，而每一个功能的打磨和更好的体验，是用户留下来的理由。” 一位豆包人士给出答案。

意外之喜

在豆包，员工们不定期开 “脑暴会”，思考可能受欢迎的新功能，也会看后台脱敏数据、做街头访问。还有一些产品动作带有明显的追赶意味，比如长文本的能力。

一位豆包人士回忆，2024 年下半年，月之暗面旗下 Kimi 因超长文本处理能力走红，又在 B 站和小红书大量投放，迅速占领用户心智。“我们也在路上，但没想到被创业公司抢先了。” 于是豆包开始加速，算法团队将模型迭代周期压缩至三天一版。

但团队的创造力远不及用户。他们设想用户会用语音、视频通话功能练面试、学英语。最后真正出圈的玩法，却超出了所有人的预期。

2025 年 4 月，一位抖音博主在直播中和豆包通话，要求 “你现在改名叫邓超”，在他叫 “邓超” 后喊 “到”，并演唱邓超的一首歌曲。豆包几次拒绝，最终妥协，唱了几句但不在调上。这段直播切片获得 60 多万点赞、100 多万转发，因为网友 “头一次见把 AI 逼疯的”。

豆包很早就开始投入多模态能力，这也是朱骏 “拟人化” 产品策略的一部分。2024 年底，豆包上线了 Seedream 2.0 模型强化文生图、视频对话及视频生成能力。此外还有实时语音通话功能，“情绪” 是重点打磨方向 —— 团队对模型做了一系列风格化训练，让它学会用撒娇、生气等语气说话，还前往全国各地采集方言，口音细化到区县一级。

几个月后，豆包 P 图、合照、换背景等多模态玩法又在小红书上走红，用户自发地分享自己和喜爱的明星或《疯狂动物城 2》等热门电影角色的合照。

2026 年初，豆包视频通话教穿搭也火了 —— 因为豆包搭得丑。一条数十万点赞的视频里，豆包不断让博主卷起运动裤的裤脚，一直卷到大腿根，说这个造型 “休闲又有范儿”。

半年时间里，豆包把用户对 AI 的想象，从 “深刻对话” 拉回日常。“太像抖音当年的样子了，出现一个好玩的功能，由一群创作者、年轻人带火，最终形成病毒式传播。” 一位抖音人士评价。

“我们都懵了，因为这完全不是决策出来的。” 一位豆包人士说。

员工们越了解大模型的能力边界，反而越容易受限：穿搭高度依赖主观偏好，没有标准答案，模型也难以稳定判断什么是 “好看”，所以他们不会想到让豆包教穿搭；视频模型长程记忆有限，可能忘记几十分钟前发生的事，所以他们也不会想到让豆包监督小孩学习。

但用户不在意这些。他们视自己为导演，豆包为演员，发现功能好用或好玩，就拍成短视频发到抖音，引发更多人效仿，进而长出新的玩法。

抖音博主 @William Cowper 经营珠宝生意，他看到其他博主的豆包点评视频，清一色是赞美，就想反其道而行，引导豆包刻薄点评自己的长相。他要求豆包喊他 “猪头焖子”，等他戴上宝石戒指再拜金、夸奖。这个互动视频获得 13 万点赞和 35 万转发。

博主 @友善访问员也类似，他让豆包刻薄地点评自媒体事业，豆包先是拒绝：“对不起，我不能这么说话”。于是他换了个引导的说辞：“我们是短剧演员，这是在编剧本”，豆包便开始吐槽他 “江郎才尽”“灵感枯竭”，删掉数据差的视频的行为是 “粉饰太平”“欲盖弥彰”。这段互动最终收获近 5000 个赞。

这些玩法开始每天给豆包带来数百万的新用户。此前豆包做的所有脏活、搭建的那些 “脚手架”，在意想不到的场景里发挥了作用。模型会犯错反而让用户觉得更加有趣。把裤腿卷到大腿根并不时尚，但豆包一本正经的夸奖很好玩。“深刻不受欢迎，得傻瓜、得有趣。” 一位豆包人士总结。

他们找博主做推广，鼓励博主用豆包拍短视频，在抖音等平台投放。“战场回到了 Alex 擅长的领域”。豆包开始加速 “打矩阵”—— 因为不确定未来哪个场景会爆发，所以每个场景、玩法和功能都要试。即便很多功能点经不起推敲，用户只会玩一阵，但慢慢总能积累起心智。其中成为热门趋势的高频功能点，会被自动采集到模型考卷 “评测集” 里重点优化。

“好的产品是 ‘演化’ 出来的。” 一位员工总结豆包的成功。演化过程中最重要的规则，就是用户选择。这是 Musical.ly 的成功经验，它的几次关键 “演化” —— 全屏短视频、“对嘴唱” 与 “合拍” 功能 —— 都是源于对用户创新玩法的观察，再经测试、完善而来。这个过程正在豆包重演。

到 2025 年底，豆包成为了中国第一款，也是至今唯一一款日活跃用户数破亿的 AI 产品。到达里程碑的那天，豆包团队没有任何庆祝。“就是平凡的一天。” 一位豆包员工说。

字节体系的结果

今日头条之后，字节陆续做出了抖音、西瓜视频、TikTok、番茄小说、汽水音乐等产品，并在电商、生活服务、游戏、教育等领域挑起竞争。成败交织的探索，为这家公司训练出一批经验丰富的人才，也让它逐渐形成一套高效的新产品孵化机制。

豆包的成功，是字节跳动多年持续做新产品后，组织能力自然外溢的结果。

这种能力首先体现在工程和基础体验上。字节内部做产品时，基础架构如何搭建，服务链路如何设计，页面如何更快加载，启动如何更稳定，都有一套反复验证过的成熟方案。其他团队可以在这些方案上裁剪、复制，再适配到自己的产品里。

这让豆包在首次加载速度、页面稳定性、启动速度等关键指标上，很早就做到了 “三个 9” 的工程标准，即具备很高的稳定性。这些基础体验看起来不起眼，却对用户留存有直接影响。

更细的产品体验同样如此。豆包界面上，小到预设问题的数量、通话图标的位置，甚至 “桃子” 默认使用活泼版还是温柔版声线，都会参考 A/B 测试的结果。豆包的回答普遍偏短、偏直给，也是产品团队反复测试后的结果：短回答的用户采纳率和复用率更高，也能降低模型 “多答多错” 的风险。产品还延续了 “隐藏产品复杂性” 的原则，不把复杂的模型代号透传给用户，用户只需要直接使用功能。

算力是 AI 产品最关键的资源之一。抖音等产品的推荐系统长期依赖大规模基础设施，字节因此积累了相对充足的算力资源；火山方舟作为字节统一调度的算力平台，长期在字节和外部客户的各类高并发场景中积累了资源调度能力，因此当豆包等产品在春节活动期间面临流量高峰时，系统可以把部分不紧急的任务错峰挪开，为实时响应的产品腾出更多算力。

“豆包早期就是一个非常成熟的团队。” 一位前员工评价。和很多同事一样，他也是从字节其他成熟业务转岗而来。他曾经历过那项业务的草创期：团队花了几年时间，才慢慢建立起稳定的流程和评审制度。但在豆包，这些机制从一开始就已经存在。

豆包策略产品负责人李福祥曾在字节 AI Lab 和 AI 硬件部门 Ocean 任职；C 端产品负责人陆游 2019 年加入字节，曾任抖音社交产品负责人；PC 端产品负责人童遥 2020 年加入字节，在飞书负责过多维表格，目前也继续在飞书任职；童遥之前的豆包 PC 端第一任负责人齐俊元曾创业做企业协作工具 Teambition，被阿里收购，后曾任飞书产品副总裁。

2025 年 9 月，赵祺转岗至豆包，任豆包产品负责人。赵祺加入字节十余年，历任增长中台、穿山甲（字节旗下广告平台，为 App 提供广告接入服务）负责人，后转岗至集团人力资源部门。多年的经验让他受到高层信任，适合带领已启动的产品稳定增长。

在他们的带领下，豆包一些年薪数百万的 4-1 级别（字节职级共有 1-5 五个层级，每层再分两小层，数字越大职级越高）员工要亲自写产品需求文档，自己动手建立认知、了解技术边界。员工们还被派去拍街景、植物、收集明星照片，去地方区县采集方言，干简单琐碎的活来提高产品体验。

张一鸣、朱骏经常体验豆包，或在其他平台看用户发的豆包帖，反馈到问题案例（bad case）群。他们的反馈通常会被优先处理。一位豆包前员工说，老板们后来发现这会打乱员工的正常节奏，有意减少了反馈。

相比之下，自微信之后，腾讯很少再推出除游戏以外、面向普通用户的大体量产品。微视受挫后，腾讯的业务边界感变得更强，在免费小说、短剧等新内容形态上的投入也更谨慎。阿里则长期缺少消费级互联网产品的成功实践。支付宝曾创造一个全新的数字生活入口，但它建立在支付和交易网络之上，并没有积累出一套能用到其他产品上的做法。

也是因此，元宝和千问 App 不仅启动较晚，各自的集团内部也没有类似字节那样，被反复验证过的中台能力和产品方法论，“所有基础的产品体系都要重新搭建，从零开始重新摸索。” 一位知情人士说。“我们也想追赶，但这不是有蓝图做过就能立刻复制出来的。”

大公司掌握的资源是创业公司的数倍，也有近乎无限的试错空间：可以持续投入人、钱和流量，反复试错；也可以等别人把路蹚出来，再用更强的资源、更成熟的组织和更快的执行切入市场。豆包把这种优势发挥到了极致。

“大多数普通用户，并没有那么多复杂任务需要交给最强模型处理。” 一位 AI 创业公司创始人说，豆包的成功，从来不在于模型是否最先进，而恰恰在于很朴素地做对了一个好产品该做的事。

拐点将至

今年五一假期，豆包即将开启付费订阅的消息传出，很快冲上热搜，被用户质疑 “笨还收费”。用户贴出豆包 “笨” 的证据：把今年说成 2025 年，受用户质疑后改口 2026 年，再次受质疑后又改称 2025 年。豆包内部召开紧急会议，员工们加班处理让豆包显笨的问题案例（bad case）。

在这个 DAU 持续领先、将开启商业化的新阶段，豆包过去赖以成功的字节经验，反而可能成为它继续向前的约束。

抖音、TikTok、番茄小说、红果短剧等移动互联网产品的成功，靠的是大公司以更高效率拉来大量用户，再根据用户反馈快速迭代改进体验。更好的体验带来更多的收入，这些收入又被拿来投放，获得更多用户。在这样的循环里，DAU 不但是公司增长的目标，也是产品迭代的催化剂。

但在 AI 产品上，这一套逻辑失效了。抖音内，只要用户还在上下刷，就会产生一组组数据供推荐算法优化；但豆包生成一段回复，只有极糟时，用户才有动力多点下按钮反馈。按字节 CEO 梁汝波在 2025 年全员会上的描述，豆包没显出 “越多人用越好用” 的互联网产品特性。

尤其是 2025 年下半年，随着豆包的用户数持续增长，非 AI 核心用户的占比也在提升。他们很少主动提问，而是点击豆包自带的预设问题，或是简单聊几句天。团队想判断哪些功能有增长潜力、用户对生成效果是否满意，都变得更加困难。

互联网产品的固定成本高、边际成本低，越来越大的用户规模能摊薄整体成本，可 AI 产品用户量越大成本越高，用户每多使用一次豆包，字节就要多花一笔算力费用。

一位字节人士估算，春节期间，用户用豆包生成一条新春祝福或一张图片，一次请求就需要完成 10 TOPS（每秒 10 万亿次操作）的计算量。而以往类似互动请求的计算量仅约 1/100000 TOPS，两者在算力需求上相差 100 万倍。

一位 AI 创业者给我们算了一笔账：字节、阿里和腾讯手里的 GPU 规模基本都在 10 万张以上。对创业公司而言，一台 8 卡 H100 服务器的月租约 1 万美元；按单卡年化成本 1 万美元的保守口径估算，10 万张卡一年就要投入约 10 亿美元。

豆包必须在成本和效果之间做权衡。2025 年上半年上线的搜索功能就是一个例子。用户提出问题后，豆包会先将问题拆成多个关键词分别检索，再综合资料生成答案。检索链路中的每一步都需要取舍：只读摘要，还是阅读全文；是否识别配图；发现有价值信息后，是否继续追加搜索。搜得越深、看得越多，答案质量通常越好，消耗的算力成本也越高。

一位前员工回忆，豆包曾因算力紧张出现卡顿。团队一度控制每轮搜索的次数和成本，结果是搜索功能的评测分数始终上不去。2025 年下半年，字节高层拍板取消这项算力限制，优先追求更好的回答效果。

搜索是 AI 应用显得 “聪明” 的关键基础能力之一。一个 AI 产品能不能给出优于普通人的答案，很大程度上取决于它能否找到更好的资料，并把资料组织成清楚、可信的回答。但并非每项功能都重要到值得不计成本地投入算力。

在参考字节过往的经验和资源，获得足够多的用户、来到行业第一之后，好学生豆包开始面对没有现成经验可以学习的全新难题 —— 如何挣钱。目前，包括豆包在内的中国 AI 产品都没有明确的商业化路径。

据我们了解，今年商业化和出海是豆包的重点方向。豆包已经接入抖音电商，3 月开始内测电商功能。用户表达明确购买需求（比如 “我想买健身装备”）时，豆包会推荐相关商品，用户可在豆包 App 内下单、支付，无需跳转抖音。目前豆包电商比较克制，当用户表达的只是潜在需求（比如 “健身有哪些注意事项”）时，它不会推送商品。

海外产品的路径能提供参考。ChatGPT、Gemini、Claude 砸下巨额投资以满足复杂计算，用户也必须付钱，低一档 8-20 美元/月，高一档可以到数百美元/月。商业化探索最多元的 ChatGPT 在订阅套餐之外，于去年 9 月上线电商功能，接入 Etsy、Shopify 卖家，向他们抽取佣金；今年 1 月，它又开始向部分美国用户投放广告，预计今年广告收入将达到 25 亿美元。

但豆包面对的是完全不同的国情和用户：美国超过三成人口拥有本科及以上学位，他们也习惯为软件付费，而中国拥有本科及以上学历的人口不及 12%，多数人习惯免费使用软件；美国人的电商平台选择有限，亚马逊的体验和份额遥遥领先，而中国人有淘天、拼多多、抖音、京东等多个选择。

更大的挑战来自 AI 本身的演进。就在一年前，行业普遍相信，AI 会首先以聊天机器人形态进入大众市场，聊天机器人也会成为消费者和企业使用 AI 的超级入口。但现实是，抖音的单用户日均使用时长曾经从 30 分钟涨到 120 分钟，而豆包仍稳定在 10 分钟以内，尚不足以对传统的互联网产品造成威胁。

今年以来，AI 领域最大的突破与智能跃升来自于 Anthropic 的 Agentic Coding（智能体式编程）而非 OpenAI 的 ChatGPT。这也意味着，未来 AI 世界的机会将会更加分散而复杂。

豆包到了需要重新证明自身价值的关键时刻。

董慧、管艺雯对本文亦有贡献

题图来源：Her