字节公布了自己在AI领域的最新进展。

在今天举办的火山引擎FORCE原动力大会上,最新旗舰模型豆包大模型1.8,和音视频创作模型Seedance 1.5 pro如期亮相。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这一次,字节没有选择单纯堆砌参数或炫耀跑分,而是把技能点加在了实用性上。

火山引擎总裁谭待介绍,新推出的豆包大模型1.8,强化工具调用、屏幕操控和视觉理解,致力于成为更懂真实场景的 Agent 基座。而Seedance 1.5 pro的亮点在于音画同步的突破和影视级的叙事张力。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

*豆包大模型1.8部分测评结果

*Seedance 1.5 pro实测效果

在模型实用之外,字节还想帮企业更实用地解决AI落地问题。

同样在今天,火山引擎重点发布了一系列帮助企业用好 Agent 的支持服务。

在Agent开发层面,火山升级了企业级AI Agent平台 AgentKit。

这一平台,覆盖了Agent从开发、部署到管控的全生命周期,目标是解决企业在Agent落地中面临的身份权限管理、模型确定性及系统集成等核心挑战。

打开网易新闻 查看精彩图片

在Agent运营层面,火山还推出了HiAgent智能体工作站,通过构建统一的企业AI任务调度中心、提供一系列开箱即用的通用智能体,以及支持个性化定制智能体应用,帮助企业实现Agent的规模化管理与应用。

打开网易新闻 查看精彩图片

“模型本身当然还是要继续变强。但另一方面,其实现在模型已经很强了,真正的问题在于有多少企业,能够把这种强大的能力用好。”在发布会后的媒体访谈环节,谭待解释推出AgentKit的原因。

而且,他还认为火山在Agent的企业级服务上有无可比拟的优势。

“AI时代的系统架构需要围绕Agent来设计。这些系统变化只有真正做过大规模实践的人,才能体会得非常深。豆包背后的功能和工具很复杂,本质上,它就是我们最大的Agent。”谭待认为,火山通过支持豆包这个最大的Agent,积累了真实踩坑经验。

“所以当企业来问Agent该怎么做的时候,他们第一个会想到火山。因为我们是真的做过,而不是只讲概念。”谭待说。

以下是谭待和媒体的交流实录:

Q:今年年底,能看到海内外头部模型都在密集更新多模态大模型的进展,你觉得为什么会产生这个趋势?

谭待:这代表着AI应用开始进入到更深的领域。最早的时候大家聊天用文字就可以了,但现在让模型帮忙处理事情,第一,用户的输入可能就会带有视觉信息,比如车里、线下摄像头、餐饮场景的信息。而且模型处理事情要调用工具,工具返回的结果很多也是视觉化的。所以模型需要有视觉理解,才能理解这些动作的结构。

如果模型能理解视觉的话,它就可以更像人一样来做这些事情,不一定需要每一个工具都一定要做一个MCP的server,或者用某一种API 。

我们去年12月份已经在讲多模态了。因为我们很早就意识到,这才是模型真正做完复杂AI解决方案的前提。

特别是在企业场景里,需求会更加复杂。就像今天演示的案例,你让它去分析一份报告,生成结果,中间可能要经历几十轮这样的处理过程。

现在大家都在强调多模态,恰恰说明,用户提的问题已经变得更深了。

Q:这个需求是一直在的,但多模态方向的效果还不足够好。

谭待:得耐心。和去年比起来,现在其实已经解决了非常多的问题。模型的发展一直是这样:它会在一段时间内进步,解锁一个领域,这个领域会迅速爆发,然后又暴露出新的问题。

这就像人一样,小学、初中、高中,每一次考试都越来越难,但能力也在成长。这是一个同样的过程。所以我觉得模型的进化速度是非常快的。

Q:今天你密集提到了一些Agent面临的挑战。可以再展开吗?

谭待:豆包对外表现出来是对话,但它有很多很复杂的功能,也是Agent。举个例子,就算只是搜索功能,都有不同领域的搜索、垂直搜索、开放式问题、闭环的问题等等,它们背后都是完全不同的实现。所以在我们内部的实现豆包这个Agent的过程中,也会发现在不同的地方要解决的问题是不一样的。

比如说做出一个视频模型,模型本身的能力已经很好了,接下来怎么把它放到一个真实系统里?有一部分问题,我们可以通过火山内部的一些机制来解决,比如MaaS这样的能力,但还有一些问题是绕不过去的。因为Agent最终是要跑在真实系统上的,所以它对系统的鉴权、对运行时(Runtime)的稳定性、对弹性、对数据安全,都会提出非常高的要求。

对企业来说,Agent的价值其实是非常直接的。一个企业可能每做一个这样的Agent,就能省下几千行代码,也可能节省几周的开发时间。我们提供的这些底层服务能力,大家再去做Agent应用这件事情,整体就会顺很多。

所以回到刚才问的问题,我觉得有两点。第一,模型本身当然还是要继续变强。但第二点,其实现在模型已经很强了,真正的问题在于有多少企业,能够把这种“强”用好。

而要把模型用好,其实需要一整套新的东西,也就是一套为Agent的开发和运行而设计的架构。我们一般把它称为AI云原生架构。这个概念我们其实很早就开始讲了,只是到今天,我们把它拆得更细了,变成了一整套可以落地的AgentKit、工具和流程。

相信通过这种方式,等大家下次再来大会的时候,会看到非常多的Agent,已经是真正在生产环境里跑起来的样子。

Q:有观点认为,Agent时代和App时代会产生冲突。你怎么看Agent与App的关系

谭待:我觉得现在谈冲突还太早了。从用户角度来看,用户的需求才是核心。用户是通过和机器人说一句话,还是点App,还是打电话,本质上都是在满足同一个需求。

如果AI让这件事变得更方便、成本更低,需求本身就会被放大。因为以前人们可能觉得太麻烦就不做了。现在变得很容易,就会多做几次。所以需求变大了,形态并不是关键。未来可能Web、App、Agent都会并存。

Q:你提到豆包大模型已实现超过10倍的数据增长,临近年底,你怎么评价今年豆包大模型的整体成绩,以及如何看待明年大模型赛道的整体竞争?

谭待:今年整体成绩还可以,在国内肯定处在比较领先的位置,但放到全球看,OpenAI等海外厂商都已发布新一代模型,所以我们还要继续努力。字节在全球市场相较于国内还有更多提升空间,我们会持续投入,把模型做得更好。

不过我觉得模型之间的竞争不是最重要的,最重要的是把整个市场做大。如果明年整个市场能再涨10倍,大家面对的就是增量市场而非存量竞争,就不是零和博弈了。

回头看火山引擎,我们在国内是最早讲模型、讲Token、讲模型成本、讲通过技术手段大幅降价的。当时我们把价格降到很低还能保持毛利,很多人一开始不信,觉得我们在亏钱,现在大家都在降价,也就慢慢接受这个事实了。越来越多厂商加入是好事,大家一起把市场做大,才有可能真正推动各行业的AI落地。

Q:今年7月有报告提到,企业使用AI工具后,不同产业生产力提升差距大,结构性变化明显,传统行业相对落后,而且企业只有看到回报才会继续投入。想请问你在客户扩展和销售过程中,有没有观察到类似的差距?它会不会影响到市场拓展?

谭待:这是个挺好的问题,这取决于怎么看这件事。有些行业起量非常快,但天花板不高,有些行业起量很慢,但天花板非常高。

比如最早模型起量最快的是陪伴型聊天,但这个场景天花板不高,因为一个人一天能聊天的时间有限。而起量慢、天花板高的比如深度研究,可能一个董事长一天只需要用一次,比如问“豆包,你告诉我,现在什么行业更好?”,这个问题一天问一次就够了,但为了回答好它,背后的Agent可能要跑几个小时甚至一整天,要做大量的搜索、数据清洗、分析、提出假设、扩展推理,甚至处理视频内容。

这种需求产生的算力和资源消耗非常大,是价值很高但推进很慢的方向。

Q:怎么形容现在豆包等字节系应用和火山引擎MaaS业务之间的关系?当下外部应用层面竞争愈发激烈,这种变化会不会对它们之间的关系带来新影响?

谭待:豆包等字节内部产品也在使用火山,火山的技术底座是内外一体的。

这有很大好处。方舟上包括强化学习在内的几乎所有能力,都经过内部大规模、高频次的真实用户使用,我们的产品能保持领先,很重要的原因就是我们自己先用、先实践。

至于外部竞争我觉得还好,我们的外部客户之间本身就存在竞争关系,比如几十家短剧公司之间既有竞争也有合作。火山会保持中立角色,不管是内部还是外部客户,都会按ToB服务的最高标准做好隔离、安全和合规。

Q:今天提到会对豆包API做更多扩展,请问这一方向的整体思路是什么?

谭待:这是个很自然的过程。大家觉得豆包APP很多功能好用,而这些功能背后不是简单的API调用,本质是一整套带业务逻辑且不断迭代的Agent系统。

很多企业客户在用豆包时,都希望能直接使用这些好用的功能,他们觉得即便知道有模型API,自己用模型再搭建一套系统也很难。

有些场景有必要用模型API定制,有些场景可以直接复用成熟能力,这两种方式属于不同维度,并非互相替代,而是面向不同需求的形态。不过基本原则还是通过技术和产品的持续创新以及成本的不断优化,把产品真正做好。

Q:之前有观点提到未来MaaS平台带来的收入可能会和传统云业务处在一个量级,你怎么看?如何处理好存量业务,一步一步过渡到增量业务?

谭待:我整体是比较认同这个趋势的。因为这本质上是一个业务转型的问题。存量业务现在还是比较大的,但如果从芯片出货量来看,其实两年前GPU的出货量就已经发生了很大的变化。以前GPU更多是用来训练,现在越来越多是用来推理。我们很早就意识到了,也一直在强调这件事情的重要性。

如何过渡首先是一个战略问题。因为所有策略,最终都是服务于战略目标的。

战略本质上就是取舍,以及时间维度上的选择。你是看短期,还是看长期?我们一直比较强调从长期去倒推。比如先想清楚三年后你希望自己处在什么位置,再倒推就会知道今年、明年什么事情是最重要的。如果一家公司的战略是正确的,但它明年做的事情却和这个战略不一致,那问题就会很大。

所以我们一直鼓励大家先把“大图景”看清楚。只要大方向清楚了,会发现可以有很多策略去支撑这个方向,可以组建专门的团队,也可以调整激励机制。

还有一点我觉得非常重要,就是在技术变革期,一定要让技术能力强的人来负责业务。如果是在一个相对平稳的阶段,可以让销售能力更强的人来主导。但如果是在像现在这样快速变化的技术周期里,技术能力就非常关键。

Q:现在很多云公司的核心收入还是计算资源、存储等传统云业务。但今天提到的多模态、Agent、数据库等产品,增长速度都非常快。你觉得接下来哪些类型的产品会率先到达一个新规模?

谭待:还是要回到技术变化的内核。过去几次大的技术浪潮。第一次是PC,然后是互联网,那个时代的核心是网站。围绕网站,诞生了数据库、搜索等一系列基础设施。后来进入移动时代,核心变成了App。App的使用频率相比网站提升了一个数量级,很多技术也随之重构。而现在进入AI时代,最大的变化是——主体发生了变化。App和Web仍然存在,但背后的逻辑会越来越多围绕Agent来构建。

系统架构,需要围绕Agent来设计。要考虑Agent需要什么样的数据、什么样的运行环境、什么样的工具调用能力。这也会带来数据库形态的变化,因为Agent是按需生成内容的,和传统应用是完全不同的模式。

所以,Sandbox、单体体验、实时数据等需求都会变得更加重要。这本质上是开发范式的变化。而这些变化,只有真正做过大规模实践的人,才能体会得非常深。这也是为什么我们一直强调,要用实践来反哺产品。

豆包本身就是一个非常大规模的实践。我们在真实环境中跑过这些Agent,踩过坑,也积累了经验。所以当企业来问“Agent该怎么做”的时候,他们第一个会想到我们。因为我们是真的做过,而不是只讲概念。

Q:有观点认为,短期内大家会通过价格战快速放大收入规模,但竞争也会非常激烈。你怎么看?

谭待:我一直觉得,竞争本身不是关键问题。假设明年整个市场还能增长10倍,那增长3倍还是5倍,其实差别没有那么大。更重要的是,有更多的人参与进来,会让整个事情做得更快。更多的人、更多的想法,会加速AI落地,市场的天花板本身就非常高。

其他云厂加大投入是一件好事,大家一起把市场做大。

Q:今天发布了豆包1.8,谷歌那边也在差不多的时间发布了Gemini 3 Flash。目前业界普遍认为,Gemini 3在全球范围内属于非常领先的一代模型。如何看待模型之间的差距?

谭待:这个问题我们肯定要正视。

如果你问我,那肯定是要努力追赶的。但追赶这件事也可以从不同维度去看。可以看“距离”,也可以看“速度”,还可以看“加速度”。如果只看距离,那确实是有差距的。如果看速度,在某些阶段,我们未必比对方慢。但我更关心的是加速度。

在这一段时间里,我们的加速度是在提升的。所以从这个角度来看,我对最终能够不断接近有信心。

实际上大家也能看到,在一些具体能力上,大家是交替领先的。比如说今天发布的Seedance 1.5 pro的语音和画面同步,之前是Veo 3较早做出来的,后来也有Sora2。但要把音画同步真正做好,其实并不容易。经常会出现嘴型对不上,或者突然吞音的情况。

在整个音画同步上,我们认为现在Seedance 1.5 pro的效果最好。尤其是对中文、对方言的支持,音画同步,这是一个非常难的点。再比如Seedream 4.5,我个人感觉整体效果上处在比较领先的位置。

当然,整体Google在一些方面还是领先的,我们在追赶。但更重要的,还是看长期。

Q:以前大家更多会觉得火山是字节技术能力的外溢。2022、2023年左右会感觉这种外溢在商业价值上的体现还不是特别明显。但在这一轮AI浪潮里,火山明显获得了更多客户的认可。这种变化背后的原因是什么?

谭待:你刚才提到的几个点,其实可以回到“距离、速度、加速度”这个框架来看。你现在看到的,都是已经显性的结果。但在内部,很多积累其实是很早就开始了。

首先,现在能做得比较好的厂商,基本都有一个共同点。那就是,它们本身就有非常大的业务规模作为支撑。因为大模型这件事情,技术投入是非常大的。没有一个能够产生万亿级现金流的业务,是很难长期在这个方向上持续投入的。

第二点,就是外溢的路径问题。最早外溢出去的,其实是工具类能力。因为工具最容易标准化,也最容易对外复制。最早大家想要的,就是“抖音同款”。这个其实不是2023年才开始的,而是更早,大概在2020年左右。

再往后是规模优势。抖音的服务器规模,在国内是最大的。这些基础设施能力,被逐步抽象出来,形成了现在的云服务。

在2021年底,我们正式推出了云服务。而在AI这条线上,我们其实一直非常坚持。从最早做推荐算法开始,推荐本身就是AI的一种形式。包括内容创作、内容分发,背后其实都是AI能力。

到了2023年,大模型开始真正成熟,大家才看到应用层面的爆发。但AI从来都不是一步就能做成的事情,要先解决训练问题,再解决推理问题,最后才是应用问题。所以在2023年,几乎所有AI创业公司,都是在火山上训练模型。等训练结束之后才真正进入应用阶段,也正是在这个阶段,火山引擎的价值才被更多客户真实感知到。

这几年能被客户认可的最核心原因,还是遇到了一个真正的技术风口。如果没有风口,做的更多是20%到30%的效率提升。但一旦遇到风口,一两年内就可能发生非常大的变化。但从本质上讲,技术积累本身并没有变。

Q:豆包大模型日均处理token量超过 50 万亿,想请问豆包token的消耗比例是怎样分布的?个人和企业的比例又是怎样的?

谭待:早期阶段,整体上还是偏C端一些。比如互联网、零售,包括手机、汽车,这些行业增长都比较快。但我们也看到,在企业侧有些客户已经在内部部署了上百个Agent。这些Agent每天的token消耗也能达到几十亿量级。现在看到的“1万亿token俱乐部”,已经不止一百家。

简单算一下会发现很多企业客户在AI上的消耗,已经超过了它们在传统云上的消耗。

至于个人和企业的比例,我觉得还是符合所谓的“二八规律”。大概可以理解为,个人用户数量多,企业用户数量少,但企业的单体消耗更大。如果用一个非常粗略的比例来讲,云时代大概是8.5比1.5,现在可能是7.5比2.5,我觉得可能未来个人占比还会再高一点。

Q:那在行业侧,你们接下来会重点投入哪些行业?

谭待:我们是这样做的。首先,客户的层级不同,需求也会不一样。有些客户,通过开发者社区,或者生态伙伴,就可以很好地服务。有些客户我们会通过直销团队来服务。还有一些行业,因为客户高度集中,需求也比较类似,我们会按行业来做解决方案。比如汽车行业,就是一个非常典型的例子。

Q:按Token收费,你之前说觉得还是一种比较原始的模式。现在怎么看这种模式?以及你们是否在探索新的商业形态?

谭待:是的,按token收费确实是比较原始的。但“原始”并不代表不好。它对应的是一个比较底层的抽象层级。API就像原材料,你用多少,就付多少钱。当然,不同模型版本,因为能产生的价值不同,定价也会不一样。但对企业来说,它最终关心的,不是token,而是问题能不能被解决。所以再往上走,一定是Agent。

Agent可以是以API的形式提供,也可以是一个完整的产品形态。

比如客服Agent,客户直接把它当客服用就行。或者Coding,让Trae和工程师一起写代码。

当抽象层级变高之后,商业逻辑也会发生变化,就不再只是在IT预算里去看这件事,而是看全球客服市场有多大,开发者市场还有多少缺口。这些都是新的市场空间,也是为什么很多机构会讲“十万亿美元级”的市场。