全网播放量破亿的AI短片《纸手机》背后,是一个关于"敢不敢"的突围故事。
小男孩想给去世的奶奶烧一部"纸手机"。这个简单的故事,让很多人第一次在AI生成内容里看到了"人世间"。
智通财经APP获悉,近日,快手(01024)高级副总裁、可灵AI负责人盖坤接受媒体采访,讲述了产品从"无名之辈"到全球视频生成赛道头部玩家的过程。听他说完,你会发现一个有意思的结论:在大模型时代,"敢不敢"往往比"能不能"更重要。
第一次决策:从"Nobody"到全球首发
2024年初,OpenAI发布Sora Demo震动行业,但产品迟迟没有落地。盖坤做了一个让团队"炸锅"的决定——做全球第一个用户可用的视频生成模型,而且要超越Sora。
那时可灵在内部几乎没有资源优势,训练甚至依赖"非主流"算力。但他判断,OpenAI阻击完Google后会分心回归语言模型,会留出5-6月的窗口期。
"如果不搏这一把,很可能陷入"平庸—无资源—被淘汰"的负循环。"盖坤说,"我们本来就是Nobody,博输了还是Nobody,博赢了就彻底改变命运。"
他给内部定了死命令:必须在5月内完成从模型到产品的全线就绪。2024年6月6日,可灵1.0上线,成为全球第一个用户可用的DiT视频生成模型——而Sora直到当年年底才正式发布。
第二次决策:放弃"雕花",转向多模态
第一次成功之后,更难的选择出现了。
在2.0之后,团队面临两条路:一是继续提升清晰度和稳定性,沿既有路线"精细打磨";二是转向多模态,把图像、视频甚至动作都变成AI的"语言",重构交互方式。
前者确定性高,后者几乎没有先例。
"基座指标要保,但解决新问题才是未来的核心。"盖坤最终选择后者。
随后推出的动作控制功能(Motion Control)验证了这一方向——用户上传一段参考视频,就能让角色复刻动作。这功能几乎没依赖推广,在海外市场迅速走红。
盖坤后来打了一个比方:OpenAI就像一个高冷的女神,做出了惊人的东西大家只远观;但可灵作为"邻居"干成了,大家才惊醒——原来这事真能落地。
方法论变化:大模型时代,AB测试失效
这些决策背后,是一套正在变化的组织方法论。
过去二十年,互联网公司的核心能力经历过两次演进:从产品与运营驱动,到算法与AB测试驱动。但在大模型时代,这套逻辑开始失效——一次尝试的成本往往以千万美元计,创新是在未知空间中寻找路径。
"拼肌肉拼不过,就要像'法师'一样,通过判断力打出局部优势。"盖坤说。
在他看来,企业不再依赖大规模试错,而是依赖少数关键决策。从DiT架构,到多模态,再到一体化模型,可灵的几次关键转向,几乎都不是"试出来"的,而是靠vision(愿景)牵引,在茫茫可能性中下重注赌对方向。
方向确定之后,执行成为关键。盖坤强调"Disagree and Commit"原则:重大决策初期允许充分争论甚至反对,但一旦目标确定,所有人必须投入120%的执行力。
"很多团队是口头同意,但执行变形。我们更看重的是定方向之后的统一行动。"
终局:让更多人把脑海中的故事拍出来
盖坤判断,随着生成能力和可控性持续提升,AI视频将从工具走向基础设施。
"当高质量内容足够多、足够丰富,一个新的内容平台就会诞生。"
在他看来,技术的意义不只是提升效率,而是释放表达能力——让更多人有机会把脑海中的故事拍出来。
这也是可灵从第一天起就定下的愿景:"让每个人都能成为导演,让每个人都能拍出自己心中的好故事。"
听起来很远。但盖坤说,考虑到AI正在加速进化,快则一年,慢则三年,这个愿景或许就会实现。
一个可见的信号是商业化进展。2025年第四季度,可灵AI营收达3.4亿元人民币;同年12月单月收入已突破2000万美元,对应年化收入运行率约2.4亿美元。
热门跟贴