打开网易新闻 查看精彩图片

编辑|Youli

6 月 30 日晚,抖音主播「女流 66」直播间里,一场有些「特殊」的直播拉开帷幕。

清北学霸姐「女流 66」、电竞冠军姐夫「YJJ」与整活之王弟弟「壮壮」三人罕见同框,共同进入一个由 AI 驱动的真实空间游戏:「女流 66」需要以「过去之人」身份独走一条只有她能走通的单线,而弟弟「壮壮」和姐夫「YJJ」则在「未来」侧隔着一堵墙配合,只有通过重重关卡,三人才能实现重聚。

打开网易新闻 查看精彩图片

过程中,手机镜头、麦克风、房间物件以及观众互动都被纳入了同一套游戏逻辑,而 AI 则完美承担了编剧、主持、场控、任务调度和内容反馈等多重角色。

比如,直播中观众打赏的礼物会化作「金币雨」,玩家需要抢夺更多的金币来用作后面的游戏情节:

打开网易新闻 查看精彩图片

随着游戏推进,玩家需要亲自为对方 Vibe Coding 接下来要闯的关卡,而从玩家到观众,没人知道接下来做出的游戏关卡长啥样,这些都是随着「实战」的进行而「实时」推进的。

打开网易新闻 查看精彩图片

从这个角度来看,这场直播打破了传统直播「观看主播完成内容」的单向模式,而是彻底推进到「主播、AI 和观众共同参与、生成内容」的全新范式:玩家在真实房间里移动、观察、表达和行动;观众通过直播间互动改变场内事件;AI 则持续把这些输入组织成关卡、剧情、任务反馈和节目效果。

正如在游戏结束后「壮壮」的体验感受,以前观众可能通过弹幕带来一些夸赞和奖赏,但这是第一次,自己在弹幕的帮助下完成游戏。

看着这「魔法」般的游戏,直播弹幕纷纷猜测这背后到底是哪家游戏公司或是 AI 大厂?

答案是「整点贝果 Bagelive」团队,而这场直播,正是AI 互动内容产品「整点贝果 Bagelive」的首秀。但如果只把它作为一次 AI 新玩法展示,可能就低估了它的意义,这更像是一次极具野心的AI 原生互动娱乐「实验」。

过去,大模型行业更多比拼单点能力:能不能生成图片和视频、能不能推理、能不能写代码…… 可随着 Agent 时代到来,AI 开始进入直播、游戏、社交和数字员工等真实场景,问题也随之变化:一次请求、回答,已无法覆盖这些场景的复杂度。AI 需要连续运行数小时,实时理解多人输入,维护状态一致性,调度内容节奏,还要在高并发环境下保持稳定和安全。

这时,真正决定 Agent 产品竞争力的,已经不只是模型能力,而是AI 如何在真实生产环境中持续、稳定、可靠运行。背后的关键能力,也从 Prompt Engineering 转向如何控制复杂度的系统工程能力(Complexity Engineering)。

围绕这一点,业界也开始了多种尝试与探索。而贝果团队认为,多人实时互动直播,是目前最复杂、也最能验证这类能力的绝佳环境,在这场长达近两小时的直播首秀中,贝果团队给出了第一版解法。

最直观的效果来自数字。数据显示,这场直播总曝光人数达到93.5 万,最高在线人数高达2.9 万,约为近 7 场均值的 3.2 倍。而互动和商业化表现同样突出:评论人数约为近 7 场均值的 6.5 倍,送礼人数约为近 7 场均值的 7 倍……

打开网易新闻 查看精彩图片

这意味着,整点贝果带来的不只是观看热度提升,还把观众卷入内容现场,从「围观者」转化为「参与者」,并进一步撬动真实付费行为。可以说,这次「实验」,在真实流量、互动和商业化场景中,初步验证了 AI 互动内容的成立。

运行长时长程的直播任务,

为何需要一整套 Agent Runtime 能力?

从直播切片中可以看出,整点贝果把直播间体验推到了一个新维度:主播、AI 和观众共同生成内容,但实际上,这并不是最难的部分。

更大的挑战,是在多人、多内容、长时间实时互动的复杂环境下,让系统持续运行、维护状态、保持一致,并在异常出现时实时恢复。

比如,谁在做什么,任务进行到哪里?哪些事件已经触发?观众互动对后续游戏进程带来怎样的影响?主播说话移动、弹幕爆发、礼物触发后,系统该如何处理这些事件流,并进一步推动后续内容?以及当主播跳出预期流程、模型输出不稳定时,如何在大家没有感知的情况下快速恢复、回到可控范围?

这些问题很难只靠 Prompt 解决。

原因在于,Prompt 更适合解决单次生成问题,而直播面对的是连续运行问题。一次 Prompt 可以让模型生成一句台词、一个任务、一个反馈,但一场实时互动直播需要的是一个长时、有状态、事件驱动的底层执行环境。

这也是贝果团队强调Agent Runtime的原因。Agent Runtime 承担的是让 Agent 真正稳定跑起来的底层环境,核心是把 Agent 的决策逻辑转化为可执行的计算过程,让任务在复杂现场中安全、稳定、可控地完成。

具体到直播现场,Agent Runtime 首先要处理的就是直播现场的三重不确定性:

  • 输入不确定:直播间输入来自多模态信号,既有主播语音、画面、动作,也有弹幕、点赞、礼物和观众情绪等,往往语义模糊、意图不明确,且随时变化;
  • 时序不确定:多人多内容并发,时序依赖极强,比如主播前一秒的动作、观众互动或任务触发,都可能会影响后一秒的现场状态;
  • 输出不确定:多模态输出具有概率性和方差,生成式 AI 的输出天然带有概率性和方差,而直播现场又要求低延迟、稳定、安全,不能长时间卡顿,也不能出现明显失控。

为此,整点贝果在底层构建了高强度的约束、校验、分级降级与实时审核机制,成功将不确定性「锁死」在受控范围内。

在实时一致性上,整点贝果首先依靠oLM 场景理解能力建立对现场的统一认知,oLM 即指 omni model 全模态模型,会同时输入直播画面、现场音频和当前游戏环节等上下文信息,综合判断主播动作、观众互动和游戏进度。

在此基础上,系统采用S2S(语音到语音)低延迟语音 + 旁路意图识别技术,将模糊的意图实时转化为确定的游戏事件,尽量确保主链路零阻塞、无背压。同时,面对异步、高频、乱序的事件,系统依靠 SSOT(单事实来源)、事件有序性以及重传 / 丢失补偿广播同步,让全端在毫秒级内迅速收敛到同一份节目状态,以实现极强的故障自愈与状态同步。

在异步编排上,整点贝果强调长耗时异步任务的并发控制与冲突仲裁:实时任务优先响应,长耗时任务后台并发执行;当多个结果同时返回时,系统再根据当前节目状态做冲突仲裁,判断哪些内容可以进入现场,哪些需要等待、丢弃或重算。

多模型编排则走 SLA (并发 / 重试 / 预请求) 压尾延迟:语音、文本、视觉、剧情、安全审核等能力往往由不同模型或模块承担,系统需要通过并发、重试、预请求等机制建立 SLA,把尾部延迟压下来,避免某个慢响应拖住整场直播。

此外,还有容错和安全。直播没有重来的机会,一次识别失败、模型输出跑偏、审核遗漏,都可能直接暴露在观众面前。因此,整点贝果的 Runtime 必须具备故障自愈和优雅降级能力:模型超时就切备用路径,生成不稳就回退到保守反馈,观众输入过乱就降低其对主线影响,主播跳出预期流程就重新对齐现场状态。

而这一切最好对用户「无感」。主播看到的是直播继续推进,观众看到的是节目节奏没有断,后台系统则完成了重试、替换、降级和状态修正。

结果就是,首秀当晚,最高在线人数高达 2.9 万人的直播间,延迟被死死锁在人类反应时间的秒级,全程零事故安全跑通……

不过,单纯「跑通」并不是全部。直播不是考试,完成任务只是底线,节目效果才决定观看体验。这也是为什么整点贝果要提出「节目效果 Agent」:在多人、多内容并发的实时现场,AI 要做的核心事情,是激发并维持好的情绪与关系。

它要能判断什么时候该推进任务,什么时候该制造一点冲突,什么时候该帮主播「接梗」,什么时候该放大观众情绪等。

比如此次直播三位主播同框,本身就有关系张力,他们之间的配合、吐槽、拆台和临场反应,是直播内容的重要组成部分。AI 如果只是机械地下发任务,现场会变成技术演示,可如果过度介入,又可能打断主播之间自然产生的化学反应。

所以直播 Agent 的难点并不只是「能不能给出下一步指令」,还包括「能不能做现场」。为了实现这一点,整点贝果引入面向情绪理解和心理学建模的系统能力,用来预演接下来怎样让情绪和关系往更好的方向发展。

从这个角度看,整点贝果想降低的不是「开播」的门槛,而是高质量多人互动内容的生产门槛。在贝果团队的设想中,如果这套「节目效果 Agent」能持续优化,未来 KOC 也有机会做出综艺级的直播效果。

但更大的意义在于,整点贝果以直播为切口,跑通了一种新的 AI 互动内容形态,AI 不只是帮主播生成素材,而是能够实时理解现场,调度任务,帮助内容创作者掌控互动节奏、情绪张力和现场关系。

这也是整点贝果想重新定义的方向:让 AI 互动内容从「生成一个结果」,走向「组织一个正在发生的现场」。

「Runtime + 场景智能」,

如何筑起无法复制的壁垒?

前面说了这么多整点贝果 Agent Runtime 的优势,但实际上, 这只是其「跑」起来的底座,更长期的壁垒,来自于Runtime + Scene Intelligence(场景智能)+ Benchmark + Reward(奖励信号) 组成的完整闭环。

原因在于,娱乐领域和代码、数学这类任务有很大不同。代码能不能跑、数学答案对不对,都有相对明确的验证标准,但直播效果没有天然 Oracle(公开标准)。如何评断一场直播效果好?是弹幕更多、互动更高、主播反应更自然、现场关系更具张力,还是任务推进更流畅?

没有公开答案,也没有现成数据和成熟模型。因此,谁先把这个领域的 Oracle 建出来,谁就有机会建立真正的壁垒。

贝果团队的做法,是把高行业认知结构化为 Benchmark。行业专家和技术团队一起定义业务问题,完成冷启动;随后通过真实场景获取独有数据,其中最高质量的数据,来自 KOC 自己对优秀动作的判断和打标。

这意味着,整点贝果的护城河并不只来自工程系统本身,还来自认知、场景和数据的叠乘:先占据场景,才能拿到真实数据;有了数据,才能建立评测标准;有了评测标准,才能构造 Reward;有了 Reward,才能反过来优化模型调用、调度策略和节目效果……

这条「飞轮」可以概括为:占场景、攒数据、建评测、反哺优化。

其中,Reward 是最难的一环。传统娱乐内容中,并没有一套现成的 Reward 可以直接拿来用。直播效果容易被表层指标误导,比如只追求弹幕数量、礼物金额或互动频率,可能会带来 Reward Hacking:系统学会刷指标,却没有真正提升观众情绪和观看体验。

因此,整点贝果需要复用现场采集的多组信号,包括弹幕语义、互动行为、现场效果、参与度,以及 KOC 对优秀动作的打标数据,从中构建更能反映情绪和关系质量的 Reward,将抽象的、不可编排的「节目效果」具像化,在每一场直播中稳定、自然地呈现出来。

只要 Reward 率先达到并超越人工水平,就能用数据闭环驱动模型与策略的离线优化,形成一条越跑越快、越滚越大的场景数据飞轮……

而对于整点贝果来说,这种打法是同行在短期内根本无法复制的壁垒。

凭什么是整点贝果先「跑」出来?

能够率先在行业里跑通如此复杂的系统工程,底气首先来自于整点贝果的核心创始团队。

资料显示,研发负责人 Johnny拥有极其硬核的 ToC 大流量与 AI Native 产品实战背景。曾任 MiniMax ToC 产品技术负责人,作为 Glow 技术负责人从 0 到 1 负责团队搭建与架构设计;随后作为 Talkie / 星野的技术负责人,立项一个月即完成初版上线。在此之前,他还是字节跳动国际化社区客户端技术专家。

打开网易新闻 查看精彩图片

算法负责人蔡达则具备深厚的学术与工业界双栖背景,他拥有 UCL(伦敦大学学院)计算机科学硕士学位,此前在腾讯担任应用研究需求建模组负责人,长期深耕于内容行业,探索供需关系、因果推断(自研 DeepCausalModel)以及多模态内容理解等前沿方向,以科学的方式量化不同内容对于平台核心指标的影响。

打开网易新闻 查看精彩图片

而这样的团队背景,对应到整点贝果的产品能力中,恰好形成一个交叉组合:兼具消费级产品、高并发工程经验,以及内容效果建模、因果分析和多模态预测能力。

但这只是基础,真正支撑整点贝果快速迭代的,是团队总结并践行的AI Native 团队方法论。

具体来看,AI Native 研发方法并不是简单用 AI 写代码,而是围绕复杂 Agent 产品的长期迭代,重构了「复杂度管理」「研发流程」和「组织协作方式」。

  • 复杂度管理:模型越强,并不意味着复杂度消失,只是系统能堆到更高复杂度才会「崩」。因此,对于整点贝果这样需要长期迭代的多人实时互动产品,团队认为必须「把复杂度当第一公民来拆」,主动对业务做领域划分、按正确维度拆分,用拆分把整体认知复杂度降下来。
  • 研发流程的结构性重构:当 AI 让写代码变便宜后,真正稀缺的不再是代码生产,而是验收、联调、决策和持续执行。因此,团队把大量流程转化为「AI 能自己跑的可执行物 + Gate / 契约」,人只在标准制定和关键判断处介入。
  • 把 AI 当作组织基础设施:AI native 团队不只是用 AI 写代码,而是让 AI 系统性补上人在组织运转里的三个天然短板 ——「记不住、盯不过来、做不持续」,从而实现 AI 负责承接 Context、核对 PRD / 技术文档 / 测试 Case/ 代码之间的不一致;通过任务轨迹 benchmark 让 Agent 行为自我收敛;再把复盘结论沉淀为 Skill,让改进经验在团队内持续复用。

但这还不够,更重要的是,整点贝果在产品策略上走出了一条与基座模型能力正交演进、垂直 90 度的独特路径。

如何理解?

整点贝果明确指出:基座模型是产品的能力底座,模型能力的提升会直接抬高整点贝果的效果天花板,大模型进步对团队而言是绝对的「顺风」。但团队不是做模型本身会解决的事,而是从模型能力维度、AI 工程维度、场景理解三大正交维度,累积自身的绝对 Delta(增量壁垒),并让其互相粘合复利:

  • 模型能力维度:全面建立从感知到决策到生成的能力栈。自建围绕情绪的实时理解与心理学建模,并在多模态实时输出上深耕,围绕直播场景系统性的构建了一套包含多个不同参数量、不同模态模型的复杂协同链路。其中包含端到端低延迟语音 S2S,以及李诞同款「言出法随」玩法背后的长时帧间一致、实时流畅的人像视频滤镜。

这里插一句,「言出法随」玩法是整点贝果首秀时推出的一个趣味功能,用户说自己要变成什么,系统就会快速把镜头里的人改写成对应形象。前段时间李诞在体验产品时,解锁了众多玩法。比如,李诞说出一句「我想变成一颗蛋。」随后镜头里就出现了一颗蛋的形象,甚至还保留了李诞带着眼镜的细节。

打开网易新闻 查看精彩图片

  • AI 工程维度:在万人级、不允许出错的极限生产环境中,「死磕」并跑通高并发系统的可观测性、稳定性与长程状态保持,针对不同 AI 生成场景和模态需求,动态调动资源保证生成的实时性和稳定性。
  • 场景理解维度:把头部 KOC 级的直播效果解构、抽象为一个个可被定义的原子化模块并沉淀到系统库中。根据不同的主播特性和粉丝偏好,每场内容都进行个性化的组装和拼接,Agent 会基于直播情况实时调配,保证直播内容始终都维持在最佳的体验上。

这样做的好处在于,纯应用公司一味与底层模型同向赛跑,可当模型升级时,应用极易被内化吞噬,而整点贝果与模型垂直 90 度,别人在同向赛跑,他们在「垂直起飞」……

从数万人直播间,

走向真实世界的「互动内容引擎」

在直播的最后,主播「女流 66」成功「画」门破墙,三位主播得以重聚,在高燃、热血的 BGM 声中,回顾空间中出现的他们玩过的所有游戏……

打开网易新闻 查看精彩图片

到这里, 这场多人实时互动直播首秀就结束了,但整点贝果来说,这仅仅是一次完美的兵力预演。整点贝果从来都不是为了做一个孤立的、垂直的直播 Agent,而是想向全行业展示一套可以无缝迁移、泛化到更多真实世界场景的 Agent Runtime 能力。

今天,这场直播中所出现的关键问题,或许只是真实复杂生产环境中诸多问题的「侧写」,未来,数字员工可能需要更长时间理解上下文并执行多步任务;AI 主持需要实时感知现场并调动氛围;AI 社交需要维护多人关系与长期记忆;多人游戏需要处理更复杂的实时状态、玩家行为和内容生成……

但这些场景共享同一个底层命题,即 AI 不能只会生成内容,还必须能稳定运行、实时调度、理解场景、控制风险,并持续产生有效反馈。

而整点贝果想做的,是希望这套沉淀下来的、面向「多人多内容实时交互」的系统级调度引擎,演变为下一代 AI 实时交互内容的通用引擎,未来能够在数字员工、AI 主持、AI 社交、多人游戏等复杂环境中释放出颠覆性的商业与技术价值。

从这一层面来看,整点贝果的这次直播首秀,或许正是技术范式「质变」的开始……