90万人次围观，Agent进入真实直播现场|agent|张力|直播间|贝果|飞轮

编辑｜Youli

6 月 30 日晚，抖音主播「女流 66」直播间里，一场有些「特殊」的直播拉开帷幕。

清北学霸姐「女流 66」、电竞冠军姐夫「YJJ」与整活之王弟弟「壮壮」三人罕见同框，共同进入一个由 AI 驱动的真实空间游戏：「女流 66」需要以「过去之人」身份独走一条只有她能走通的单线，而弟弟「壮壮」和姐夫「YJJ」则在「未来」侧隔着一堵墙配合，只有通过重重关卡，三人才能实现重聚。

过程中，手机镜头、麦克风、房间物件以及观众互动都被纳入了同一套游戏逻辑，而 AI 则完美承担了编剧、主持、场控、任务调度和内容反馈等多重角色。

比如，直播中观众打赏的礼物会化作「金币雨」，玩家需要抢夺更多的金币来用作后面的游戏情节：

随着游戏推进，玩家需要亲自为对方 Vibe Coding 接下来要闯的关卡，而从玩家到观众，没人知道接下来做出的游戏关卡长啥样，这些都是随着「实战」的进行而「实时」推进的。

从这个角度来看，这场直播打破了传统直播「观看主播完成内容」的单向模式，而是彻底推进到「主播、AI 和观众共同参与、生成内容」的全新范式：玩家在真实房间里移动、观察、表达和行动；观众通过直播间互动改变场内事件；AI 则持续把这些输入组织成关卡、剧情、任务反馈和节目效果。

正如在游戏结束后「壮壮」的体验感受，以前观众可能通过弹幕带来一些夸赞和奖赏，但这是第一次，自己在弹幕的帮助下完成游戏。

看着这「魔法」般的游戏，直播弹幕纷纷猜测这背后到底是哪家游戏公司或是 AI 大厂？

答案是「整点贝果 Bagelive」团队，而这场直播，正是AI 互动内容产品「整点贝果 Bagelive」的首秀。但如果只把它作为一次 AI 新玩法展示，可能就低估了它的意义，这更像是一次极具野心的AI 原生互动娱乐「实验」。

过去，大模型行业更多比拼单点能力：能不能生成图片和视频、能不能推理、能不能写代码…… 可随着 Agent 时代到来，AI 开始进入直播、游戏、社交和数字员工等真实场景，问题也随之变化：一次请求、回答，已无法覆盖这些场景的复杂度。AI 需要连续运行数小时，实时理解多人输入，维护状态一致性，调度内容节奏，还要在高并发环境下保持稳定和安全。

这时，真正决定 Agent 产品竞争力的，已经不只是模型能力，而是AI 如何在真实生产环境中持续、稳定、可靠运行。背后的关键能力，也从 Prompt Engineering 转向如何控制复杂度的系统工程能力（Complexity Engineering）。

围绕这一点，业界也开始了多种尝试与探索。而贝果团队认为，多人实时互动直播，是目前最复杂、也最能验证这类能力的绝佳环境，在这场长达近两小时的直播首秀中，贝果团队给出了第一版解法。

最直观的效果来自数字。数据显示，这场直播总曝光人数达到93.5 万，最高在线人数高达2.9 万，约为近 7 场均值的 3.2 倍。而互动和商业化表现同样突出：评论人数约为近 7 场均值的 6.5 倍，送礼人数约为近 7 场均值的 7 倍……

这意味着，整点贝果带来的不只是观看热度提升，还把观众卷入内容现场，从「围观者」转化为「参与者」，并进一步撬动真实付费行为。可以说，这次「实验」，在真实流量、互动和商业化场景中，初步验证了 AI 互动内容的成立。

运行长时长程的直播任务，

为何需要一整套 Agent Runtime 能力？

从直播切片中可以看出，整点贝果把直播间体验推到了一个新维度：主播、AI 和观众共同生成内容，但实际上，这并不是最难的部分。

更大的挑战，是在多人、多内容、长时间实时互动的复杂环境下，让系统持续运行、维护状态、保持一致，并在异常出现时实时恢复。

比如，谁在做什么，任务进行到哪里？哪些事件已经触发？观众互动对后续游戏进程带来怎样的影响？主播说话移动、弹幕爆发、礼物触发后，系统该如何处理这些事件流，并进一步推动后续内容？以及当主播跳出预期流程、模型输出不稳定时，如何在大家没有感知的情况下快速恢复、回到可控范围？

这些问题很难只靠 Prompt 解决。

原因在于，Prompt 更适合解决单次生成问题，而直播面对的是连续运行问题。一次 Prompt 可以让模型生成一句台词、一个任务、一个反馈，但一场实时互动直播需要的是一个长时、有状态、事件驱动的底层执行环境。

这也是贝果团队强调Agent Runtime的原因。Agent Runtime 承担的是让 Agent 真正稳定跑起来的底层环境，核心是把 Agent 的决策逻辑转化为可执行的计算过程，让任务在复杂现场中安全、稳定、可控地完成。

具体到直播现场，Agent Runtime 首先要处理的就是直播现场的三重不确定性：

输入不确定：直播间输入来自多模态信号，既有主播语音、画面、动作，也有弹幕、点赞、礼物和观众情绪等，往往语义模糊、意图不明确，且随时变化；
时序不确定：多人多内容并发，时序依赖极强，比如主播前一秒的动作、观众互动或任务触发，都可能会影响后一秒的现场状态；
输出不确定：多模态输出具有概率性和方差，生成式 AI 的输出天然带有概率性和方差，而直播现场又要求低延迟、稳定、安全，不能长时间卡顿，也不能出现明显失控。

为此，整点贝果在底层构建了高强度的约束、校验、分级降级与实时审核机制，成功将不确定性「锁死」在受控范围内。

在实时一致性上，整点贝果首先依靠oLM 场景理解能力建立对现场的统一认知，oLM 即指 omni model 全模态模型，会同时输入直播画面、现场音频和当前游戏环节等上下文信息，综合判断主播动作、观众互动和游戏进度。

在此基础上，系统采用S2S（语音到语音）低延迟语音 + 旁路意图识别技术，将模糊的意图实时转化为确定的游戏事件，尽量确保主链路零阻塞、无背压。同时，面对异步、高频、乱序的事件，系统依靠 SSOT（单事实来源）、事件有序性以及重传 / 丢失补偿广播同步，让全端在毫秒级内迅速收敛到同一份节目状态，以实现极强的故障自愈与状态同步。

在异步编排上，整点贝果强调长耗时异步任务的并发控制与冲突仲裁：实时任务优先响应，长耗时任务后台并发执行；当多个结果同时返回时，系统再根据当前节目状态做冲突仲裁，判断哪些内容可以进入现场，哪些需要等待、丢弃或重算。

多模型编排则走 SLA (并发 / 重试 / 预请求) 压尾延迟：语音、文本、视觉、剧情、安全审核等能力往往由不同模型或模块承担，系统需要通过并发、重试、预请求等机制建立 SLA，把尾部延迟压下来，避免某个慢响应拖住整场直播。

此外，还有容错和安全。直播没有重来的机会，一次识别失败、模型输出跑偏、审核遗漏，都可能直接暴露在观众面前。因此，整点贝果的 Runtime 必须具备故障自愈和优雅降级能力：模型超时就切备用路径，生成不稳就回退到保守反馈，观众输入过乱就降低其对主线影响，主播跳出预期流程就重新对齐现场状态。

而这一切最好对用户「无感」。主播看到的是直播继续推进，观众看到的是节目节奏没有断，后台系统则完成了重试、替换、降级和状态修正。

结果就是，首秀当晚，最高在线人数高达 2.9 万人的直播间，延迟被死死锁在人类反应时间的秒级，全程零事故安全跑通……

不过，单纯「跑通」并不是全部。直播不是考试，完成任务只是底线，节目效果才决定观看体验。这也是为什么整点贝果要提出「节目效果 Agent」：在多人、多内容并发的实时现场，AI 要做的核心事情，是激发并维持好的情绪与关系。

它要能判断什么时候该推进任务，什么时候该制造一点冲突，什么时候该帮主播「接梗」，什么时候该放大观众情绪等。

比如此次直播三位主播同框，本身就有关系张力，他们之间的配合、吐槽、拆台和临场反应，是直播内容的重要组成部分。AI 如果只是机械地下发任务，现场会变成技术演示，可如果过度介入，又可能打断主播之间自然产生的化学反应。

所以直播 Agent 的难点并不只是「能不能给出下一步指令」，还包括「能不能做现场」。为了实现这一点，整点贝果引入面向情绪理解和心理学建模的系统能力，用来预演接下来怎样让情绪和关系往更好的方向发展。

从这个角度看，整点贝果想降低的不是「开播」的门槛，而是高质量多人互动内容的生产门槛。在贝果团队的设想中，如果这套「节目效果 Agent」能持续优化，未来 KOC 也有机会做出综艺级的直播效果。

但更大的意义在于，整点贝果以直播为切口，跑通了一种新的 AI 互动内容形态，AI 不只是帮主播生成素材，而是能够实时理解现场，调度任务，帮助内容创作者掌控互动节奏、情绪张力和现场关系。

这也是整点贝果想重新定义的方向：让 AI 互动内容从「生成一个结果」，走向「组织一个正在发生的现场」。

「Runtime + 场景智能」，

如何筑起无法复制的壁垒？

前面说了这么多整点贝果 Agent Runtime 的优势，但实际上，这只是其「跑」起来的底座，更长期的壁垒，来自于Runtime + Scene Intelligence（场景智能）+ Benchmark + Reward（奖励信号）组成的完整闭环。

原因在于，娱乐领域和代码、数学这类任务有很大不同。代码能不能跑、数学答案对不对，都有相对明确的验证标准，但直播效果没有天然 Oracle（公开标准）。如何评断一场直播效果好？是弹幕更多、互动更高、主播反应更自然、现场关系更具张力，还是任务推进更流畅？

没有公开答案，也没有现成数据和成熟模型。因此，谁先把这个领域的 Oracle 建出来，谁就有机会建立真正的壁垒。

贝果团队的做法，是把高行业认知结构化为 Benchmark。行业专家和技术团队一起定义业务问题，完成冷启动；随后通过真实场景获取独有数据，其中最高质量的数据，来自 KOC 自己对优秀动作的判断和打标。

这意味着，整点贝果的护城河并不只来自工程系统本身，还来自认知、场景和数据的叠乘：先占据场景，才能拿到真实数据；有了数据，才能建立评测标准；有了评测标准，才能构造 Reward；有了 Reward，才能反过来优化模型调用、调度策略和节目效果……

这条「飞轮」可以概括为：占场景、攒数据、建评测、反哺优化。

其中，Reward 是最难的一环。传统娱乐内容中，并没有一套现成的 Reward 可以直接拿来用。直播效果容易被表层指标误导，比如只追求弹幕数量、礼物金额或互动频率，可能会带来 Reward Hacking：系统学会刷指标，却没有真正提升观众情绪和观看体验。

因此，整点贝果需要复用现场采集的多组信号，包括弹幕语义、互动行为、现场效果、参与度，以及 KOC 对优秀动作的打标数据，从中构建更能反映情绪和关系质量的 Reward，将抽象的、不可编排的「节目效果」具像化，在每一场直播中稳定、自然地呈现出来。

只要 Reward 率先达到并超越人工水平，就能用数据闭环驱动模型与策略的离线优化，形成一条越跑越快、越滚越大的场景数据飞轮……

而对于整点贝果来说，这种打法是同行在短期内根本无法复制的壁垒。

凭什么是整点贝果先「跑」出来？

能够率先在行业里跑通如此复杂的系统工程，底气首先来自于整点贝果的核心创始团队。

资料显示，研发负责人 Johnny拥有极其硬核的 ToC 大流量与 AI Native 产品实战背景。曾任 MiniMax ToC 产品技术负责人，作为 Glow 技术负责人从 0 到 1 负责团队搭建与架构设计；随后作为 Talkie / 星野的技术负责人，立项一个月即完成初版上线。在此之前，他还是字节跳动国际化社区客户端技术专家。

算法负责人蔡达则具备深厚的学术与工业界双栖背景，他拥有 UCL（伦敦大学学院）计算机科学硕士学位，此前在腾讯担任应用研究需求建模组负责人，长期深耕于内容行业，探索供需关系、因果推断（自研 DeepCausalModel）以及多模态内容理解等前沿方向，以科学的方式量化不同内容对于平台核心指标的影响。

而这样的团队背景，对应到整点贝果的产品能力中，恰好形成一个交叉组合：兼具消费级产品、高并发工程经验，以及内容效果建模、因果分析和多模态预测能力。

但这只是基础，真正支撑整点贝果快速迭代的，是团队总结并践行的AI Native 团队方法论。

具体来看，AI Native 研发方法并不是简单用 AI 写代码，而是围绕复杂 Agent 产品的长期迭代，重构了「复杂度管理」「研发流程」和「组织协作方式」。

复杂度管理：模型越强，并不意味着复杂度消失，只是系统能堆到更高复杂度才会「崩」。因此，对于整点贝果这样需要长期迭代的多人实时互动产品，团队认为必须「把复杂度当第一公民来拆」，主动对业务做领域划分、按正确维度拆分，用拆分把整体认知复杂度降下来。
研发流程的结构性重构：当 AI 让写代码变便宜后，真正稀缺的不再是代码生产，而是验收、联调、决策和持续执行。因此，团队把大量流程转化为「AI 能自己跑的可执行物 + Gate / 契约」，人只在标准制定和关键判断处介入。
把 AI 当作组织基础设施：AI native 团队不只是用 AI 写代码，而是让 AI 系统性补上人在组织运转里的三个天然短板 ——「记不住、盯不过来、做不持续」，从而实现 AI 负责承接 Context、核对 PRD / 技术文档 / 测试 Case/ 代码之间的不一致；通过任务轨迹 benchmark 让 Agent 行为自我收敛；再把复盘结论沉淀为 Skill，让改进经验在团队内持续复用。

但这还不够，更重要的是，整点贝果在产品策略上走出了一条与基座模型能力正交演进、垂直 90 度的独特路径。

如何理解？

整点贝果明确指出：基座模型是产品的能力底座，模型能力的提升会直接抬高整点贝果的效果天花板，大模型进步对团队而言是绝对的「顺风」。但团队不是做模型本身会解决的事，而是从模型能力维度、AI 工程维度、场景理解三大正交维度，累积自身的绝对 Delta（增量壁垒），并让其互相粘合复利：

模型能力维度：全面建立从感知到决策到生成的能力栈。自建围绕情绪的实时理解与心理学建模，并在多模态实时输出上深耕，围绕直播场景系统性的构建了一套包含多个不同参数量、不同模态模型的复杂协同链路。其中包含端到端低延迟语音 S2S，以及李诞同款「言出法随」玩法背后的长时帧间一致、实时流畅的人像视频滤镜。

这里插一句，「言出法随」玩法是整点贝果首秀时推出的一个趣味功能，用户说自己要变成什么，系统就会快速把镜头里的人改写成对应形象。前段时间李诞在体验产品时，解锁了众多玩法。比如，李诞说出一句「我想变成一颗蛋。」随后镜头里就出现了一颗蛋的形象，甚至还保留了李诞带着眼镜的细节。

AI 工程维度：在万人级、不允许出错的极限生产环境中，「死磕」并跑通高并发系统的可观测性、稳定性与长程状态保持，针对不同 AI 生成场景和模态需求，动态调动资源保证生成的实时性和稳定性。
场景理解维度：把头部 KOC 级的直播效果解构、抽象为一个个可被定义的原子化模块并沉淀到系统库中。根据不同的主播特性和粉丝偏好，每场内容都进行个性化的组装和拼接，Agent 会基于直播情况实时调配，保证直播内容始终都维持在最佳的体验上。

这样做的好处在于，纯应用公司一味与底层模型同向赛跑，可当模型升级时，应用极易被内化吞噬，而整点贝果与模型垂直 90 度，别人在同向赛跑，他们在「垂直起飞」……

从数万人直播间，

走向真实世界的「互动内容引擎」

在直播的最后，主播「女流 66」成功「画」门破墙，三位主播得以重聚，在高燃、热血的 BGM 声中，回顾空间中出现的他们玩过的所有游戏……