AI视频赛道最近有点凉。Seedance 2.0陷在版权纠纷里,OpenAI干脆把Sora关了,整个行业上空飘着一层灰。

但2026年4月,一匹叫HappyHorse-1.0的黑马突然杀上Artificial Analysis榜首,文生视频和图生视频两条线同时压过字节、快手。带队的人叫张迪,2025年11月才回归阿里,满打满算也就5个月。

更关键的是,HappyHorse跟千问一样,开源,可商用。

千问现在什么地位?阿里集团级的核心底座,AI战略的绝对C位。阿里这几年所有动作,本质上都是围着千问转。HappyHorse的权重,恐怕不止"刷榜秀肌肉"这么简单。

不过在拆解阿里的算盘之前,得先搞清楚张迪是谁。

上海交大计算机本硕,2010年进阿里,在阿里妈妈干了十年。阿里妈妈做的是广告、推荐、搜索和转化——听着没有大模型性感,但这套东西后来成了中国互联网公司的AI黄埔军校。

真正能把模型落地的人,往往不是在实验室泡出来的。他们更早经历过搜索、推荐、广告、内容分发这些系统的毒打。

随便举两个例子:谷歌CEO桑达尔·皮查伊,最早做搜索栏和YouTube推荐;微软CEO萨提亚·纳德拉,起手就是必应搜索和微软广告。这些系统每天吞吐海量用户行为,逼你在延迟、成本、效果、反馈之间反复取舍,不允许你只做一个好看的demo。

张迪在阿里的十年,就是这么过来的。那时候外界还没把所有事都叫大模型,但阿里内部早有一套围绕数据、算法和工程化的训练场。

后来他去了快手,从技术副总裁干到大模型与多媒体负责人,主导了可灵的底层架构。可灵让快手从"内容分发平台"升级成"内容生产基础设施",搭起"创意生成-视频制作-一键分发-流量变现-数据迭代"的完整闭环。2025年4月,可灵AI事业部升格为一级部门,跟短视频主业务平级。

所以当他2025年9月短暂加入B站、两个月后又回阿里时,这事就很难看成普通跳槽。B站要视频技术,阿里也要,但阿里的需求复杂得多——电商、广告、直播、云服务、海外商家,全扯在一起。

张迪回归后的职位是淘天集团"未来生活实验室"负责人,P11,直接向阿里妈妈CTO郑波汇报。没把视频模型塞进纯研究部门,而是放在离交易现场更近的地方。HappyHorse从第一天起,就是绑着阿里生态长的。

他的职业路径像一根绕出去又绕回来的线:先在阿里学会大规模商业系统怎么运转,再去快手把视频生成做成产品,最后回来把这套能力塞进更大的机器里。

很多公司抢大模型人才,但真正稀缺的,是能同时理解模型、业务和组织的人。单纯会训模型的人很多,单纯会讲战略的也很多,难的是有人知道从技术路线到架构设计,到训练推理,到产品出口,再到被商家和用户用起来,中间每一步会在哪里卡住。

HappyHorse把张迪推到台前,也让阿里过去几年相对分散的AI叙事,有了一个具体的人物入口。

它真正让人意外的,是赢得太突然。

视频生成赛道,海外有Runway、Pika、Luma、Google Veo,国内有字节Seedance、快手可灵。阿里原本排不上号。HappyHorse屠榜时,大家宁愿相信这是某创业公司做的,也不信是阿里。

但它确实在文本转视频(Elo 1333)和图像转视频(Elo 1392)两条线都进了第一梯队。Artificial Analysis的榜单随用户盲测波动,后续分数也有更新,但它确实在用户偏好测试里压过一批更早成名的闭源模型。

这事反常。视频生成是最吃钱、吃数据、吃算力的方向之一。闭源大厂可以把数据、模型细节、推理系统藏在自己平台里,持续内部迭代。开源模型要公开参数、能跑起来、社区能复现、效果经得起横向比较——限制多得多。

HappyHorse之前,开源视频模型大多是玩具,输出不稳定,人物漂移是常态。

HappyHorse有150亿参数、40层统一自注意力Transformer,把文本、视频、音频三种模态的token塞进同一个序列联合建模。这跟千问的路数很像,也解释了为什么张迪5个月就能做出来——大概率沿用了千问的高质量原生多模态训练方法。

非多模态原生的模型,比如Sora,经常嘴在动、声音慢半拍,或者表情丰富但语气不对,甚至人还没说话就先动了。HappyHorse评分高,是因为它用原生多模态解决了同步问题。

它还原生支持英语、普通话、粤语、日语、韩语、德语、法语的唇形同步,词错误率也被拿来跟同类开源模型比较。

张迪为什么这么做?我的理解是,如果阿里想让视频生成进广告、电商、短剧、教育、直播,就不能只靠画面漂亮。它得能说话、能配音、让声音和画面同时成立。

生成效率上,单张H100跑5秒1080p视频约38秒,用DMD-2蒸馏把去噪步骤压到8步。这是商业化绕不开的坎——模型再好,生成一条视频等半天、成本太高,就进不了商家日常工作流。商家不会为每个商品干等,也不会为几十个测试素材付高价。

所以HappyHorse的意义不止"能生成",还在于它试图把速度和成本压到可用区间。

对开发者,开源意味着自托管、微调、接入自己的产品。对平台,开源带来更多社区反馈。闭源模型的进步靠内部团队,开源模型会被开发者拿去做各种奇怪测试,问题暴露快,改进方向也多。

Artificial Analysis的视频竞技场采用用户偏好投票,很多时候不只看技术指标,更看用户在两段视频之间更喜欢哪个。

当然,张迪还不能太飘。一次榜单登顶不等于永远领先,竞争对手不会原地踏步。HappyHorse现在赢下的只是公开测试,不是整场战争。

如果它只是一个能刷榜的模型,意义有限。但如果能成为阿里云、淘天共同使用的视频生成底座,就会变成入口。

击败闭源巨头最有意思的地方,不只是分数领先。真正值得关注的是,它让阿里找到了重新进入牌桌的方式——没先做C端APP,也没只在内网演示,而是直接拿开源模型接受全行业检验。

这场胜利未必持续很久,但张迪让外界改变了对阿里视频生成能力的判断。新的问题是:阿里准备把这项能力用到哪?

最直接的落点,是电商。

谈AI视频,大家容易想到影视、短剧、广告大片、创作者工具。这些市场确实大,但离阿里主业务有距离。阿里的优势不在自建视频社区,也不在让用户每天打开AI视频APP消磨时间。它真正的筹码,是中国最密集的商品、商家、交易和广告系统。

HappyHorse诞生于淘天"未来生活实验室",这个位置本身就说明问题。淘天每天面对的是商家怎么卖货、商品怎么被看见、用户为什么点进来又为什么下单。HappyHorse放在这里,大家自然会问:它能不能提高商品内容生产效率?能不能提高转化?能不能帮平台多做生意?

对普通商家,视频内容一直是麻烦事。拍30秒商品视频,要找场景、找模特、打光、剪辑、配音。大品牌能请团队,中小商家只能自己凑。很多商品卖点不复杂,问题是没人把卖点拍出来——白底图里都很普通,放进具体场景,用户才意识到能用来做什么。

前一阵海外有个例子:太阳能喷泉泵,原本是庭院小件,被AI视频包装成鸟浴盆、鱼池、儿童浴缸里的酷炫玩具后,直接卖爆。AI没改变商品本身,但改变了用户理解商品的方式,把"功能说明"变成了"使用场景"。

商品页写满参数,用户未必看;主播讲半天,用户未必信。但一条十几秒的视频,如果把场景讲清楚,转化效率可能高很多。更重要的是,AI视频可以批量生成——同一商品,儿童版、家庭版、节日版、户外版;不同国家,不同语言、不同人物、不同场景。

这对阿里的意义,比单纯做视频生成工具大。淘宝、天猫上有大量商家,也有大量商品数据和交易反馈。一个AI视频工具如果只知道生成漂亮画面,很快会变成素材软件;如果它能知道什么场景更容易被点击、什么文案更容易加购、什么视频前几秒更容易留住用户,就会接近电商操作系统的一部分。

阿里比其他视频生成公司多出来的,正是这个反馈闭环。商品图、详情页、评价、问答、搜索词、点击率、加购率、退款原因、直播间停留时间——看起来零碎,都是训练电商内容能力的燃料。HappyHorse如果接入这些反馈,就能从"帮商家生成一条视频",进化到"帮商家生成更可能卖货的视频"。

面向淘天,它可以做主图视频、商品场景短片、直播切片、虚拟主播、营销素材。过去商家上新,传几张图,最多再拍条粗糙短视频。以后可以把商品图、卖点、评价、人群标签交给系统,生成多条不同版本,再用真实投放和成交数据筛选更有效的。跑顺了,平台内容供给增加,中小商家内容门槛下降。

但AI视频带货也有风险。它能放大卖点,也能放大幻觉。喷泉泵在AI视频里喷得很高,现实里达不到。阿里的机会不是纵容商家用AI造梦,重点应该放在商品参数、实拍素材、买家评价、平台审核上,让生成内容有边界。

3月下旬,OpenAI关停Sora独立应用和API。原因很现实:视频生成太烧钱,用户留存撑不起成本,算力要放回编码、企业服务和机器人方向。字节也在另一头麻烦——Seedance 2.0效果猛,但版权问题导致全球发布暂停。模型越强,越容易踩进版权、肖像权、训练数据的泥潭。

这时再看HappyHorse,它有清晰的商业场景。阿里手里的商品图、商家素材、实拍视频、交易反馈,天然比影视IP更适合可控生成。

所以它的价值不只在榜单。它给AI视频找了一个更稳的落点。