打开网易新闻 查看精彩图片

赚钱比冲榜优先级更高。

文丨祝颖丽

编辑丨赵磊

年前,Seedance 2.0 通过音画同步、镜头语言的能力提升,实现了导演级的视频效果;这个月,GPT-Image 2 生成的图片,又让真实与虚构的边界几乎被完全抹除。

在整个多模态模型赛道里,技术不断突破边界的同时,商业化和资本化也在加速:到今年 1 月,快手的可灵 AI ,ARR 超过 3 亿美元,全球用户超过 6000 万;推出海螺 AI 的 MiniMax 于港股上市,市值最高时接近 4000 亿港元,超过百度;创业公司爱诗科技、生数科技近期都刚完成 20 多亿的巨额融资,2025 年的 ARR 分别达到 4000 万和 2000 万美元。

相比之下,刚完成了 5 亿人民币的 B 轮融资的 “智象未来” 在市场上显得有些 “隐形”。

智象的创始人梅涛是国内少有的身兼加拿大工程院外籍院士、ACM、IEEE、IAPR 和 CAAI 四会 Fellow 的学者。他毕业于中科大,在微软研究院工作多年后加入京东,负责过拍照购、AI 自动导播等项目。梅涛说,自己过去几年信奉 “科学家用事实说话,要先做出东西再出来说”。

作为一家以 To B 业务为主的公司,智象称,2025 年他们全年收入 1 亿元,而 2026 年第一季度收入已经超过去年全年,To C 产品近期也突破 3000 万用户。他们觉得是时候对外讲讲他们的故事了。

以下是我们与智象未来 CEO 梅涛及 CTO 姚霆的对话。

“双模” 架构,成本低于行业的五分之一

晚点:横向对比,智象在视频生成的赛道的公众感知度不太强,其他竞品比如爱诗科技、生数科技,乃至大厂的产品,都曾经在公众层面引发了一些创作者的惊叹,为什么你们比较 “隐形”?

梅涛:这方面我们要反思,我们与市场的沟通确实不够。当然这里面有认知的问题,2025 年,我们认为应该好好的做商业化,所以我们做了很多产品,还有商业生态的建设,反而忽略了模型的 branding,现在忙着去补这一课。

跟同行比的话,他们很多是以 to C 为主的,我们是以 to B 为主的,所以我们会显得低调一点。

晚点:完全是 branding 本身的问题,还是可能在产品上或者模型的能力上也有差距?

梅涛:模型能力我觉得大家没有说谁与谁有很大差距,而且我们的技术架构是领先的。我们唯一一次冲榜,图片生成是到了第一(注:2025 年 4 月,智象发布开源图像生成大模型 HiDream-I1 ,24 小时内登顶 Artificial Analysis 榜单)。你很快会看到,图片生成、视频生成模型后续都会有新的迭代发布。

只不过我们当时觉得到了 2025 年创业第三年的时候还是做模型冲榜这件事,要花费大量的时间和开支,而不考虑商业化,有点不符合我们当时的想法,还是要积极探索商业化闭环。

姚霆:我们可能会特别在意模型架构上的创新,对模型架构本身的痴迷甚至到了癫狂的状态。其实我不太愿意去做大规模的训练,也不想去 follow 别人,那样大家就是纯比谁资源多,说直接点,就看谁的卡多,因为它架构没什么变化,那就看谁拥有的数据多,谁用的卡更多,谁的模型能够撑的更大一点。基本上是这样一个逻辑。

这样创业公司就会掉入大厂的陷阱,你永远 PK 不过他。所以早期,我们更加注重在模型架构上是不是能够比别人快半步。

晚点:像最近的 GPT-Image-2 这个模型,从技术上,为什么他们能够做到如此仿真?主要还是数据层面的训练结果吗?

姚霆:GPT-Image-2 的仿真程度某种意义上属于一种风格,大概率还是归功于数据层面,但在空间层次感、立体感等方面,GPT-Image-2 的表现并没有那么出色。

晚点:你们这个差异化优势总结一下是什么?

梅涛:我们是这波公司里面少有的 “双模”,图片生成和视频生成是两个模型。我们把图片作为切入口,因为制作视频一定会先遇到一个问题,怎么把构图做好。

在制作视频的过程中,60% 的时间是花在跟导演、设计师沟通构图——光照、空间、逻辑结构等等,这个问题不解决,视频质量会受影响。

姚霆:很多人是通过图像去做视频的。我们发现,做视频失败或者效果不太好的案例,百分之八九十的问题来自图像,不来自视频。图像生成的九宫格也好、分镜也好,一开始就出问题了。比如每个宫格是什么景别?是远景、近景还是俯视、仰视,它生成错了,后面就没办法做成一个很好的视频。我们是把视频或者图像一起去做,一套架构。

晚点: 效果是会更好一点吗?

姚霆:举个例子,比如让一个人戴帽子,很简单的视频。在训练图像的过程,我会做一个编辑任务,把视频里的人从没帽子变成有帽子。比如第一帧是没有帽子,最后编辑完有帽子。训练视频的时候,整个的 sequence 都有了,效果天然就把这些信息都融进去了。

晚点:“双模” 还有别的优势吗?

梅涛:除了让图片成为流量入口,我们在训练模型的过程中,也是先从图片模型入手,这样成本会控制的比较低。先拿图片来试错,如果做好的话,我们会把这个图片模型迁移到视频上面。所以我们的训练成本只有行业的大概五分之一到十分之一。

姚霆:图像是世界建模的空间基底,定格了现实世界瞬时时刻的完整状态信息。因此,图像并非独立于视频之外的单点能力,而是视频生成乃至通向原生全模态世界模型的关键入口。在 UiT 原生统一架构下,图像与视频训练能够协同进行、相互增强,为模型进一步走向全模态奠定基础。

三次试错,三条路径

晚点:为什么商业化上主要选择 to B 而不是 to C ?

梅涛:我们是坚定的做视觉领域,或者说动画领域的企业服务公司。目前看,AI to C 的产品很难实现持续的商业闭环。对普通用户,它并不是一个高频刚需的场景。

在 AI 当前发展的阶段,AIGC 视频内容创作还是有专业门槛,产品要给专业的设计师、自媒体、导演,特别是专业的机构和公司来使用。

第二,视频生成要给别人创造价值才能走得远。如果只是提供情绪价值,从创业的角度来说,是走不远的。Sora 的战略性关停也证明了美国硅谷对这方面的判断。

晚点:但也有其他的公司是以 To C 为主的,选择 To B 跟团队基因有关系吗?

梅涛:我们团队确实有这样的基因。其次,我们觉得创业公司很难通过 To C 来证明商业价值。我们其实没有想明白,包括今天很多公司也没想到。第三,我觉得 To C 会面临平台公司的竞争,大厂有压倒性优势,这样的商业模式在当下难以闭环。起码我们的判断是觉得很难。

晚点:就 To B 而言,大家的打法也不太一样。你们自己总结是 1+1+3(注:1 模型 + 1Maas 平台 + 3 场景),这个框架是怎么形成的?

梅涛:中间那个 “1” 是平台化的逻辑,Model as a Service,里面有很多 API 和技能模块,能支撑很多场景,没有边界。

“3” 是我们找到的三个垂直场景,自己下场去做的三个智能体。这三个场景也是我们花了三年多时间摸爬滚打探索出来的,高频刚需,价值比较高,符合我们自己的模型特点。

第一个是短视频营销,线上线下都有;第二个是 AI 短剧;第三个是为 OPC 专业个人用户提供社媒平台创作的智能体应用。

晚点:现在这几块的商业化贡献比例如何?哪一块增长得最快?

梅涛:从今年 Q1 的收入结构来看,MaaS 平台大概占了小一半,其他 3 个业务线都比较均衡。

增长比较快的是短视频营销的 RaaS(Result as a Service,按效果付费)服务。这块我们做了很多创新,比如第一个真正把线上线下营销结合的硬件终端,一个低成本硬件(3D 全息风扇屏)加上极简的软件操作(手机一键生成 AI 广告),再加持续的内容付费(Token 消耗),帮线下门店实现引流。现在这个营销终端已经开始起量了,进入超过一万家商家。

OPC 操作平台那一块,今年 Q1 有 1000 万新增用户。

晚点:是怎么探索出这几条商业化路径的?

梅涛:我们其实探索了很久。最早是 2023 年年底,当时想做货架电商的图片,卖工具。后来发现互联网电商对图片需求的频率没有那么高,而且当时模型能力还有缺陷。再者,客户那边没有多少人愿意去学习使用,每个人做出来效果不一样,很难定价。

后来我们开始做素材交付,把商品素材都做好交给你。但这个素材也很难定价,是按他之前请人拍摄的人力成本,还是按他消耗的算力成本?

最后我们想,那就跟客户共创,你付一些基础费用,我帮你去运营账号,你投放的效果好,我从中抽成。这样价值就可以量化了。

晚点:但这样人力投入不会增加吗?

梅涛:其实不会,很多事都是通过 Agent 来做的。另外,我们是跟平台合作的,很多生意都是触达大 B 再跟小 B 合作,包括跟 Tiktok 的合作、跟运营商的合作都是这样。

晚点:那这 3 个领域大概是多大的市场规模?

梅涛:我们的目标是将来服务全球 100 万商家,中国有 8000 万门店,线上电商那就更多了,跨境电商单 TiKtok 一个平台可能就有 100 万商家。所以我觉得我们五年之内服务 100 万企业客户是完全没问题的,空间是足够大的。

晚点:这只是指短视频营销业务是吗?100 万的客户,商业价值是多大?

梅涛:一个线上电商客户一个月可能需要几千条商品短视频,因为他需要大量投放,一个 sku 就需要几十条,一年下来需要几万个小时的视频。

这么多视频不可能都通过实拍来做,肯定是加 AI,如果按照一条短视频一美金算,我觉得也是一个百亿美金的生意。

晚点:AI 短剧这个场景当时是怎么选定的?市场规模多大?

梅涛:我们从 24 年就开始探索 AIGC 影视创作,在与客户合作的过程中,我们就感觉到这个市场很快就要爆发,于是很快发布了给专业内容团队使用的 AI 影视创作与协作平台帧赞。最近用帧赞制作的奇幻悬疑 AI 仿真人短剧《秦岭青铜诡事录》登顶了腾讯视频竖屏热播榜。

晚点:我们之前也聊过漫剧的 To B 创业者,他觉得这个市场也就一两年的光景就赚不到钱了,你们怎么看?

梅涛:整个内容行业分为三个板块。有点像供应链,第一是 IP 内容,第二是中间的承制(以前叫实拍,现在 AI 做的多一点),第三就是发行。

我们是科技公司,做不了 IP,也不懂发行,目前我们只能做中间的制作环节,就是卖铲子的,提供 AI 工具,行业是亏还是赚跟你没有直接关系。

晚点:最近爱奇艺的 CEO,出来说做 AI 影视,态度挺激进的。从你们的角度看,技术成熟度和可行性怎么样?

梅涛:我们会把多模态创作按质量要求分层。金字塔最上层是具身智能的训练视频,要求动作的精细度;第二层是颗粒感很强的影视作品;往下是 15 秒 30 秒的广告短视频;再往下是大家娱乐的特效、搞笑视频。

影视级的作品,AI 还是不能取代的。我也在北京电影学院上过导演课,我觉得要尊重这个行业和专业,因为里面有很多原创。AI 可以模仿,但要用 AI 原创出一个表演,这很难。但是到下一层,比如漫剧、绘本、短视频广告,现在是比较成熟了。

晚点:你们已经能做到给具身智能生成训练视频了,人类表演的精细度没有那么高吧?

梅涛:现在单个人微表情控制的真实性已经可以了。但人多的情况下,多个 IP 的一致性还需要提升,特别是复杂动作、有很强的逻辑关系和因果关系时,还是会出错。

晚点:“3” 里面的另外一块,To OPC 的业务,其实还是 ToC 的市场,竞争仍然激烈,你们的策略是什么?

梅涛:一是通过产品创新,不断迭代产生新场景、刺激新需求;二是不只做一款产品,可能会在 C 端做好几款。

创业的节奏要越来越快

晚点:在京东工作了五年,是什么条件成熟后觉得可以创业了?

梅涛:我最早从微软研究院出来时就想创业,但有一些 gap——产品经验、商业化经验、公司管理经验都缺。所以先去了京东。

我在京东做过战略分析、产品线研发、客户体系建设、交付。京东的行业属性对我最重要的影响是对成本、效率、体验的控制。这也是为什么到现在投资人问我们有多少人,我说一百多人,他们会觉得惊讶。

晚点:做高管其实资源是非常充足的,创业对你来说,新的挑战是什么?

梅涛:最大的挑战是认知的转变。原来最大的问题是,我觉得 AI 做得好就会有人来。现在我意识到一个公司要成功有很多因素,资本的力量不可忽视。所以我现在也花很多时间在提高公司知名度和融资节奏上。

晚点:往前复盘,哪些你做对了?哪些是想要推翻或者后悔的决策?

梅涛:做对的就不说了,不然我们也走不到现在。我觉得做得不太好的,就是公司的发展节奏应该更快一点,产品迭代,模型迭代,认知迭代都应该更快一点。

AI 时代的创业或者 AI 时代的产品,你不卷是不行的,要把节奏拉起来。我经常跟他们说要把节奏拉起来,要唯快不破。以前做产品布局或公司战略,我们按年或半年来。现在改了,按季度来,有些产品的迭代按月。最难的一点,就是我要更新认知,越快越好。

题图来源:智象未来 CEO 梅涛