打开网易新闻 查看精彩图片

AI视频生成这个赛道,有点像早高峰的地铁——Sora挤上去的时候门还开着,一年后车门突然关了,把一车厢人甩在站台上。

2024年春节,OpenAI扔出Sora,整个行业跟着亢奋。那年5月17日,智象未来的vivago上线,比快手可灵还早两周。创始团队从微软亚研院出来,技术嗅觉不算差。

一年后,Sora的独立服务没了,视频生成被收进ChatGPT的付费墙里。OpenAI没解释太多,但问题摆在那儿:多模态大模型往哪儿走?创业公司怎么在窗口关上前找到自己的位置?

智象CTO姚霆的答案是"轮回"——不是佛系,是他对世界模型终局的判断。这家公司ARR已经做到数千万美元,B轮融资正在收尾,看起来找到了一条能走的路。

姚霆把Sora的"失败"拆成三块。第一,太通用。OpenAI没有视频业务,也没有生态,做出来的东西跟垂直场景是脱节的。第二,成本。GPU在后台烧着,每一代模型迭代都得先算推理账。第三,没地方落地。字节和快手的视频生成能喂给主营业务,OpenAI没这个承接场景。

国内外路线也因此分岔。国外爱折腾架构创新,国内喜欢搭大而全的平台。智象两边都沾一点——技术基因是微软研院带的,但在中国做,商业化是硬指标,"不是为了炫技"。

从Unet到DiT,再到自回归+DiT融合,到现在的新架构,智象每次迭代都踩在技术转折点上。但姚霆更在意的是,这些东西能不能变成收入。

世界模型的概念过去一年收敛得厉害。姚霆把它分成三级:静态复刻(一张图)、视频(三维+时间)、交互、物理规律,最后一级他叫"轮回"——完美的因果关系,蝴蝶扇翅膀,远处起海啸。再往上,才是真正的推理。

听起来玄,但他很快拽回地面。Agent是另一个维度:平台×Harness(管理底层skills)+ skills本身。用户说一句"我想赚钱",Agent自动搜、调、编排,从脚本到成片全包。这需要全模态底座,文本、视频、图像、语音全打通,才知道谁跟谁怎么组合。

快手可灵月收入破两千万美元,即梦背靠字节过亿的日活。双寡头格局下,创业公司怎么活?

姚霆的打法是"1+1+3":一个全模态底座大模型,一个HiHarness中间层,三个优先Agent(专业创作者、商业营销、AI影视)。逻辑从"分而治之"变成"并而治之"——底座统一,上面按场景实例化。

他拿搜索引擎打比方:以前是抓网页,现在是抓skills,核心问题变成怎么在海量里找、定位、编排。全模态的价值就在这里,建一套索引,不管用户输入什么、想要什么,都能给结果。

姚霆提了个细节:智象的产品经理现在必须会用vibe-coding。AI产品的稳定版本,不是没bug,是用户用两次能成功一次。让用户用、反馈、迭代,壁垒就这么长出来。

"有点像打牌,上手一副牌很难改变,但出牌方式可以调整,有些'王炸'是要拆掉的。"