一家视觉模型公司决定不再 “低调”丨100 个 AI 创业者|创业者|大模型|模态|短视频|视觉模型

赚钱比冲榜优先级更高。

文丨祝颖丽

编辑丨赵磊

年前，Seedance 2.0 通过音画同步、镜头语言的能力提升，实现了导演级的视频效果；这个月，GPT-Image 2 生成的图片，又让真实与虚构的边界几乎被完全抹除。

在整个多模态模型赛道里，技术不断突破边界的同时，商业化和资本化也在加速：到今年 1 月，快手的可灵 AI ，ARR 超过 3 亿美元，全球用户超过 6000 万；推出海螺 AI 的 MiniMax 于港股上市，市值最高时接近 4000 亿港元，超过百度；创业公司爱诗科技、生数科技近期都刚完成 20 多亿的巨额融资，2025 年的 ARR 分别达到 4000 万和 2000 万美元。

相比之下，刚完成了 5 亿人民币的 B 轮融资的 “智象未来” 在市场上显得有些 “隐形”。

智象的创始人梅涛是国内少有的身兼加拿大工程院外籍院士、ACM、IEEE、IAPR 和 CAAI 四会 Fellow 的学者。他毕业于中科大，在微软研究院工作多年后加入京东，负责过拍照购、AI 自动导播等项目。梅涛说，自己过去几年信奉 “科学家用事实说话，要先做出东西再出来说”。

作为一家以 To B 业务为主的公司，智象称，2025 年他们全年收入 1 亿元，而 2026 年第一季度收入已经超过去年全年，To C 产品近期也突破 3000 万用户。他们觉得是时候对外讲讲他们的故事了。

以下是我们与智象未来 CEO 梅涛及 CTO 姚霆的对话。

“双模” 架构，成本低于行业的五分之一

晚点：横向对比，智象在视频生成的赛道的公众感知度不太强，其他竞品比如爱诗科技、生数科技，乃至大厂的产品，都曾经在公众层面引发了一些创作者的惊叹，为什么你们比较 “隐形”？

梅涛：这方面我们要反思，我们与市场的沟通确实不够。当然这里面有认知的问题，2025 年，我们认为应该好好的做商业化，所以我们做了很多产品，还有商业生态的建设，反而忽略了模型的 branding，现在忙着去补这一课。

跟同行比的话，他们很多是以 to C 为主的，我们是以 to B 为主的，所以我们会显得低调一点。

晚点：完全是 branding 本身的问题，还是可能在产品上或者模型的能力上也有差距？

梅涛：模型能力我觉得大家没有说谁与谁有很大差距，而且我们的技术架构是领先的。我们唯一一次冲榜，图片生成是到了第一（注：2025 年 4 月，智象发布开源图像生成大模型 HiDream-I1 ，24 小时内登顶 Artificial Analysis 榜单）。你很快会看到，图片生成、视频生成模型后续都会有新的迭代发布。

只不过我们当时觉得到了 2025 年创业第三年的时候还是做模型冲榜这件事，要花费大量的时间和开支，而不考虑商业化，有点不符合我们当时的想法，还是要积极探索商业化闭环。

姚霆：我们可能会特别在意模型架构上的创新，对模型架构本身的痴迷甚至到了癫狂的状态。其实我不太愿意去做大规模的训练，也不想去 follow 别人，那样大家就是纯比谁资源多，说直接点，就看谁的卡多，因为它架构没什么变化，那就看谁拥有的数据多，谁用的卡更多，谁的模型能够撑的更大一点。基本上是这样一个逻辑。

这样创业公司就会掉入大厂的陷阱，你永远 PK 不过他。所以早期，我们更加注重在模型架构上是不是能够比别人快半步。

晚点：像最近的 GPT-Image-2 这个模型，从技术上，为什么他们能够做到如此仿真？主要还是数据层面的训练结果吗？

姚霆：GPT-Image-2 的仿真程度某种意义上属于一种风格，大概率还是归功于数据层面，但在空间层次感、立体感等方面，GPT-Image-2 的表现并没有那么出色。

晚点：你们这个差异化优势总结一下是什么？

梅涛：我们是这波公司里面少有的 “双模”，图片生成和视频生成是两个模型。我们把图片作为切入口，因为制作视频一定会先遇到一个问题，怎么把构图做好。

在制作视频的过程中，60% 的时间是花在跟导演、设计师沟通构图——光照、空间、逻辑结构等等，这个问题不解决，视频质量会受影响。

姚霆：很多人是通过图像去做视频的。我们发现，做视频失败或者效果不太好的案例，百分之八九十的问题来自图像，不来自视频。图像生成的九宫格也好、分镜也好，一开始就出问题了。比如每个宫格是什么景别？是远景、近景还是俯视、仰视，它生成错了，后面就没办法做成一个很好的视频。我们是把视频或者图像一起去做，一套架构。

晚点：效果是会更好一点吗？

姚霆：举个例子，比如让一个人戴帽子，很简单的视频。在训练图像的过程，我会做一个编辑任务，把视频里的人从没帽子变成有帽子。比如第一帧是没有帽子，最后编辑完有帽子。训练视频的时候，整个的 sequence 都有了，效果天然就把这些信息都融进去了。

晚点：“双模” 还有别的优势吗？

梅涛：除了让图片成为流量入口，我们在训练模型的过程中，也是先从图片模型入手，这样成本会控制的比较低。先拿图片来试错，如果做好的话，我们会把这个图片模型迁移到视频上面。所以我们的训练成本只有行业的大概五分之一到十分之一。

姚霆：图像是世界建模的空间基底，定格了现实世界瞬时时刻的完整状态信息。因此，图像并非独立于视频之外的单点能力，而是视频生成乃至通向原生全模态世界模型的关键入口。在 UiT 原生统一架构下，图像与视频训练能够协同进行、相互增强，为模型进一步走向全模态奠定基础。

三次试错，三条路径

晚点：为什么商业化上主要选择 to B 而不是 to C ？

梅涛：我们是坚定的做视觉领域，或者说动画领域的企业服务公司。目前看，AI to C 的产品很难实现持续的商业闭环。对普通用户，它并不是一个高频刚需的场景。

在 AI 当前发展的阶段，AIGC 视频内容创作还是有专业门槛，产品要给专业的设计师、自媒体、导演，特别是专业的机构和公司来使用。

第二，视频生成要给别人创造价值才能走得远。如果只是提供情绪价值，从创业的角度来说，是走不远的。Sora 的战略性关停也证明了美国硅谷对这方面的判断。

晚点：但也有其他的公司是以 To C 为主的，选择 To B 跟团队基因有关系吗？

梅涛：我们团队确实有这样的基因。其次，我们觉得创业公司很难通过 To C 来证明商业价值。我们其实没有想明白，包括今天很多公司也没想到。第三，我觉得 To C 会面临平台公司的竞争，大厂有压倒性优势，这样的商业模式在当下难以闭环。起码我们的判断是觉得很难。

晚点：就 To B 而言，大家的打法也不太一样。你们自己总结是 1+1+3（注：1 模型 + 1Maas 平台 + 3 场景），这个框架是怎么形成的？

梅涛：中间那个 “1” 是平台化的逻辑，Model as a Service，里面有很多 API 和技能模块，能支撑很多场景，没有边界。

“3” 是我们找到的三个垂直场景，自己下场去做的三个智能体。这三个场景也是我们花了三年多时间摸爬滚打探索出来的，高频刚需，价值比较高，符合我们自己的模型特点。

第一个是短视频营销，线上线下都有；第二个是 AI 短剧；第三个是为 OPC 专业个人用户提供社媒平台创作的智能体应用。

晚点：现在这几块的商业化贡献比例如何？哪一块增长得最快？

梅涛：从今年 Q1 的收入结构来看，MaaS 平台大概占了小一半，其他 3 个业务线都比较均衡。

增长比较快的是短视频营销的 RaaS（Result as a Service，按效果付费）服务。这块我们做了很多创新，比如第一个真正把线上线下营销结合的硬件终端，一个低成本硬件（3D 全息风扇屏）加上极简的软件操作（手机一键生成 AI 广告），再加持续的内容付费（Token 消耗），帮线下门店实现引流。现在这个营销终端已经开始起量了，进入超过一万家商家。

OPC 操作平台那一块，今年 Q1 有 1000 万新增用户。

晚点：是怎么探索出这几条商业化路径的？

梅涛：我们其实探索了很久。最早是 2023 年年底，当时想做货架电商的图片，卖工具。后来发现互联网电商对图片需求的频率没有那么高，而且当时模型能力还有缺陷。再者，客户那边没有多少人愿意去学习使用，每个人做出来效果不一样，很难定价。

后来我们开始做素材交付，把商品素材都做好交给你。但这个素材也很难定价，是按他之前请人拍摄的人力成本，还是按他消耗的算力成本？

最后我们想，那就跟客户共创，你付一些基础费用，我帮你去运营账号，你投放的效果好，我从中抽成。这样价值就可以量化了。

晚点：但这样人力投入不会增加吗？

梅涛：其实不会，很多事都是通过 Agent 来做的。另外，我们是跟平台合作的，很多生意都是触达大 B 再跟小 B 合作，包括跟 Tiktok 的合作、跟运营商的合作都是这样。

晚点：那这 3 个领域大概是多大的市场规模？

梅涛：我们的目标是将来服务全球 100 万商家，中国有 8000 万门店，线上电商那就更多了，跨境电商单 TiKtok 一个平台可能就有 100 万商家。所以我觉得我们五年之内服务 100 万企业客户是完全没问题的，空间是足够大的。

晚点：这只是指短视频营销业务是吗？100 万的客户，商业价值是多大？

梅涛：一个线上电商客户一个月可能需要几千条商品短视频，因为他需要大量投放，一个 sku 就需要几十条，一年下来需要几万个小时的视频。

这么多视频不可能都通过实拍来做，肯定是加 AI，如果按照一条短视频一美金算，我觉得也是一个百亿美金的生意。

晚点：AI 短剧这个场景当时是怎么选定的？市场规模多大？

梅涛：我们从 24 年就开始探索 AIGC 影视创作，在与客户合作的过程中，我们就感觉到这个市场很快就要爆发，于是很快发布了给专业内容团队使用的 AI 影视创作与协作平台帧赞。最近用帧赞制作的奇幻悬疑 AI 仿真人短剧《秦岭青铜诡事录》登顶了腾讯视频竖屏热播榜。

晚点：我们之前也聊过漫剧的 To B 创业者，他觉得这个市场也就一两年的光景就赚不到钱了，你们怎么看？

梅涛：整个内容行业分为三个板块。有点像供应链，第一是 IP 内容，第二是中间的承制（以前叫实拍，现在 AI 做的多一点），第三就是发行。

我们是科技公司，做不了 IP，也不懂发行，目前我们只能做中间的制作环节，就是卖铲子的，提供 AI 工具，行业是亏还是赚跟你没有直接关系。

晚点：最近爱奇艺的 CEO，出来说做 AI 影视，态度挺激进的。从你们的角度看，技术成熟度和可行性怎么样？

梅涛：我们会把多模态创作按质量要求分层。金字塔最上层是具身智能的训练视频，要求动作的精细度；第二层是颗粒感很强的影视作品；往下是 15 秒 30 秒的广告短视频；再往下是大家娱乐的特效、搞笑视频。

影视级的作品，AI 还是不能取代的。我也在北京电影学院上过导演课，我觉得要尊重这个行业和专业，因为里面有很多原创。AI 可以模仿，但要用 AI 原创出一个表演，这很难。但是到下一层，比如漫剧、绘本、短视频广告，现在是比较成熟了。

晚点：你们已经能做到给具身智能生成训练视频了，人类表演的精细度没有那么高吧？

梅涛：现在单个人微表情控制的真实性已经可以了。但人多的情况下，多个 IP 的一致性还需要提升，特别是复杂动作、有很强的逻辑关系和因果关系时，还是会出错。

晚点：“3” 里面的另外一块，To OPC 的业务，其实还是 ToC 的市场，竞争仍然激烈，你们的策略是什么？

梅涛：一是通过产品创新，不断迭代产生新场景、刺激新需求；二是不只做一款产品，可能会在 C 端做好几款。

创业的节奏要越来越快

晚点：在京东工作了五年，是什么条件成熟后觉得可以创业了？

梅涛：我最早从微软研究院出来时就想创业，但有一些 gap——产品经验、商业化经验、公司管理经验都缺。所以先去了京东。

我在京东做过战略分析、产品线研发、客户体系建设、交付。京东的行业属性对我最重要的影响是对成本、效率、体验的控制。这也是为什么到现在投资人问我们有多少人，我说一百多人，他们会觉得惊讶。

晚点：做高管其实资源是非常充足的，创业对你来说，新的挑战是什么？

梅涛：最大的挑战是认知的转变。原来最大的问题是，我觉得 AI 做得好就会有人来。现在我意识到一个公司要成功有很多因素，资本的力量不可忽视。所以我现在也花很多时间在提高公司知名度和融资节奏上。

晚点：往前复盘，哪些你做对了？哪些是想要推翻或者后悔的决策？

梅涛：做对的就不说了，不然我们也走不到现在。我觉得做得不太好的，就是公司的发展节奏应该更快一点，产品迭代，模型迭代，认知迭代都应该更快一点。

AI 时代的创业或者 AI 时代的产品，你不卷是不行的，要把节奏拉起来。我经常跟他们说要把节奏拉起来，要唯快不破。以前做产品布局或公司战略，我们按年或半年来。现在改了，按季度来，有些产品的迭代按月。最难的一点，就是我要更新认知，越快越好。

题图来源：智象未来 CEO 梅涛

一家视觉模型公司决定不再 “低调”丨100 个 AI 创业者

热搜

热门跟贴

热搜

热门跟贴

相关推荐

使用AI的创业者，变相成了智谱、Kimi“打工人”？

这个国产开源模型，让AI终于"看见"了屏幕

DeepSeek内测识图模式，中国头部模型公司全员“睁眼”

普通务工者之女，25岁造AI独角兽！终身教授辞职追随！

外网疯传这段采访，AI圈最不敢公开的真相被捅破了

《时代》发布全球最具影响力AI公司，阿里巴巴入选

远景死磕物理AI，又投了一家智能机器人公司

这家芯片初创企业力求打破AI领域棘手的内存墙难题

男子靠AI开一人公司年入150万，评论区炸了：他行，凭什么你行？

软件开发最后的一块儿阵地，被AI攻克了

大模型的下半场，属于拥有云+AI全栈引擎的玩家

高质量发展｜政策、算力、生态一次配齐 “单人+AI”项目涌入天府新区

通研院团队打造SceneVerse++「最大规模」真实3D场景数据

科大讯飞星光教师智能体上线，覆盖备课、教研、家校等教学场景

用 AI 写 AI 技能？我用悟空做了一份 F1 观赛避坑指南

00后小哥复刻Claude最强神话模型OpenMythos

论文一作是假人，经费来自虚构宇宙！这篇一眼假的钓鱼文，把全世界AI都给骗了

中国科学院推出“磐石100”系列，八大学科大模型，引入波谱场三大新模态

华谊王中磊夫妇进军短视频，水晶、手串、茶叶等在视频出现

刚刚，DeepSeek多模态技术范式公布，以视觉原语思考