可灵的突围之路：“无名之辈“到全球视频生成头部玩家

智通财经

2026-04-09 09:34 ·广东 ·优质财经领域创作者

全网播放量破亿的AI短片《纸手机》背后，是一个关于"敢不敢"的突围故事。

小男孩想给去世的奶奶烧一部"纸手机"。这个简单的故事，让很多人第一次在AI生成内容里看到了"人世间"。

智通财经APP获悉，近日，快手(01024)高级副总裁、可灵AI负责人盖坤接受媒体采访，讲述了产品从"无名之辈"到全球视频生成赛道头部玩家的过程。听他说完，你会发现一个有意思的结论：在大模型时代，"敢不敢"往往比"能不能"更重要。

第一次决策：从"Nobody"到全球首发

2024年初，OpenAI发布Sora Demo震动行业，但产品迟迟没有落地。盖坤做了一个让团队"炸锅"的决定——做全球第一个用户可用的视频生成模型，而且要超越Sora。

那时可灵在内部几乎没有资源优势，训练甚至依赖"非主流"算力。但他判断，OpenAI阻击完Google后会分心回归语言模型，会留出5-6月的窗口期。

"如果不搏这一把，很可能陷入"平庸—无资源—被淘汰"的负循环。"盖坤说，"我们本来就是Nobody，博输了还是Nobody，博赢了就彻底改变命运。"

他给内部定了死命令：必须在5月内完成从模型到产品的全线就绪。2024年6月6日，可灵1.0上线，成为全球第一个用户可用的DiT视频生成模型——而Sora直到当年年底才正式发布。

第二次决策：放弃"雕花"，转向多模态

第一次成功之后，更难的选择出现了。

在2.0之后，团队面临两条路：一是继续提升清晰度和稳定性，沿既有路线"精细打磨";二是转向多模态，把图像、视频甚至动作都变成AI的"语言"，重构交互方式。

前者确定性高，后者几乎没有先例。

"基座指标要保，但解决新问题才是未来的核心。"盖坤最终选择后者。

随后推出的动作控制功能(Motion Control)验证了这一方向——用户上传一段参考视频，就能让角色复刻动作。这功能几乎没依赖推广，在海外市场迅速走红。

盖坤后来打了一个比方：OpenAI就像一个高冷的女神，做出了惊人的东西大家只远观;但可灵作为"邻居"干成了，大家才惊醒——原来这事真能落地。

方法论变化：大模型时代，AB测试失效

这些决策背后，是一套正在变化的组织方法论。

过去二十年，互联网公司的核心能力经历过两次演进：从产品与运营驱动，到算法与AB测试驱动。但在大模型时代，这套逻辑开始失效——一次尝试的成本往往以千万美元计，创新是在未知空间中寻找路径。

"拼肌肉拼不过，就要像'法师'一样，通过判断力打出局部优势。"盖坤说。

在他看来，企业不再依赖大规模试错，而是依赖少数关键决策。从DiT架构，到多模态，再到一体化模型，可灵的几次关键转向，几乎都不是"试出来"的，而是靠vision(愿景)牵引，在茫茫可能性中下重注赌对方向。

方向确定之后，执行成为关键。盖坤强调"Disagree and Commit"原则：重大决策初期允许充分争论甚至反对，但一旦目标确定，所有人必须投入120%的执行力。

"很多团队是口头同意，但执行变形。我们更看重的是定方向之后的统一行动。"

终局：让更多人把脑海中的故事拍出来

盖坤判断，随着生成能力和可控性持续提升，AI视频将从工具走向基础设施。

"当高质量内容足够多、足够丰富，一个新的内容平台就会诞生。"

在他看来，技术的意义不只是提升效率，而是释放表达能力——让更多人有机会把脑海中的故事拍出来。

这也是可灵从第一天起就定下的愿景："让每个人都能成为导演，让每个人都能拍出自己心中的好故事。"

听起来很远。但盖坤说，考虑到AI正在加速进化，快则一年，慢则三年，这个愿景或许就会实现。

一个可见的信号是商业化进展。2025年第四季度，可灵AI营收达3.4亿元人民币;同年12月单月收入已突破2000万美元，对应年化收入运行率约2.4亿美元。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴