0.44元/秒起！短剧们会为阿里的“欢乐马”买单么？实测HappyHorse 1.0|happyhorse|中景|人物|光影|欢乐马|运镜|镜头|阿里巴巴集团

本文来源：消费者报道作者：郭美婷

一度登顶全球AI盲测榜单的阿里“欢乐马”HappyHorse 1.0，终于揭开神秘面纱。

4月27日晚，阿里巴巴视频生成模型 HappyHorse 1.0（欢乐马）正式开启灰度测试，这款曾以匿名身份横扫国际权威AI视频榜单、被行业热议多日的“黑马”，从幕后走到了台前。

作为阿里ATH创新事业部打造的多模态生成模型，HappyHorse 1.0采用音视频联合生成方案，瞄准广告、电商、短剧、社媒创意等场景，推出AI视频生成与视频编辑服务。

当前AI视频生成赛道中，运动流畅性、人物一致性、自动分镜与自动运镜，是决定内容可用度与专业质感的几个核心指标。其中，运动流畅性关乎画面自然度，人物一致性决定角色辨识度与叙事连贯度，自动分镜与自动运镜则体现模型的创意编排与镜头语言能力，直接影响成片的叙事节奏与视觉表现力。

为此，开机实验室将从这几个维度对HappyHorse 1.0展开实测。

目前，全球专业创作者与企业客户可通过官网、阿里云百炼平台注册体验，普通用户则可通过千问App试用。

HappyHorse官网新用户注册即赠送66积分，可生成视频比例囊括了16：9、4：3、3：4、1：1、9：16共5个常规视频比例。一次可生成视频时长在3-15秒之间，调节相对灵活。据开机实验室实测，生成3秒视频需要消耗19积分，5秒需消耗32个积分，10秒则需消耗63积分。

千问APP提供的体验额度则更大，用户每日有10个额度的体验额。只要在APP内找到HappyHorse内测接口，可选择的视频比例、清晰度与网页版一致，但在时长选择上相对固定，仅有5秒、10秒、15秒三个时长选项，生成5秒视频消耗1个额度，10秒消耗2个额度。

以下视频均为使用千问APP生成，输入指令后，排队等待时长大约在2-3分钟。

为了测试HappyHorse生成视频的运动流畅性，开机实验室分别输入了人物在行走和演奏乐器两段文字指令。

第一段指令为：

黄昏的城市街道，柏油路面残留雨后水迹。一位身着米色风衣的女性在人群中穿过，手臂自然垂在身体两侧摆动，每一次跨步都是脚跟先落地，平稳向前行。身后街灯倒映在路面上光影斑驳。摄影机角度保持低位，近乎与地面齐平——仿佛一名蹲在路边的行人正在随意观看。

从实际生成效果来看，模型完整还原了脚跟到脚掌的连贯落地步态，人物手臂摆动与行走节奏匹配协调，风衣随肢体动作产生的布料褶皱真实自然，未出现脚底滑移、悬浮等常见 AI瑕疵，但细看街上的照片汉字出现了“生造字”情况。

第二段指令为：

中景镜头，一位身穿休闲衬衫的吉他手坐在木质高脚凳上，快速进行高把位和弦转换与击勾弦演奏。拨片在琴弦上细碎跳动着。运镜自动跟随按弦的手腕轨迹平移。

整体下来，画面细节贴合演奏逻辑，手指形态自然无畸形、多指问题，拨片与琴弦交互也较为写实，中景下的高把位演奏动作连贯，拨片细节、手腕跟随运镜均完整落地。

此外，强动态高速运动、瞬间撞击反馈以及极速慢镜头演绎，也是检验 AI 视频模型运动流畅度与物理还原能力的关键场景。

为此，开机实验室输入了以下指令：

傍晚的足球场，夕阳金色草地。前锋全速带球冲向禁区，右脚大力抽射，球鞋侧面与皮球在撞击瞬间产生形变。立即切换为超高速慢动作模式：鞋钉掀起的草皮碎屑缓缓飞扬；守门员飞身扑出时球衣随风沙沙作响；足球在空中高速旋转划出弧线，最后撞击球网将尼龙网格拉伸成长长的菱形。

在生成的10秒视频里，文字指令里提到的夕阳、草地、抽射、慢镜头等元素基本都被还原出来，画面氛围感也在线。但仔细观察就会发现，脚踢中足球泥土溅起那一刻画面比较假。另外，动作之间的衔接存在不够顺滑的情况，运动员整体发力、碰撞、足球的飞行的逻辑不太符合现实物理规律，AI痕迹比较重。

一直以来，AI 视频最让人头疼的问题之一就是人物的一致性，部分AI生成的视频前后会出现“换脸”情况。前一秒还是这个五官，转个头就面目全非，发型、穿搭也会莫名其妙变化。所以，人物在生成的全程画面里保持形象统一，也成为衡量一款AI视频模型好不好用的指标之一。因此，开机实验室通过文字指令不断地切换场景，来测试模型能否在动态运动、镜头切换、长时间生成中，保持人物特征，不崩脸、不跳变、不“自我修改”。

第一段指令为：

连续片段展示一位戴黑框眼镜、留三七分短发、穿樱花粉毛衣的女性室内设计师。她先在落地窗大客厅受访；接着转入暖黄灯光与木质书架共存的书房伏案改图；再进入正在装修的毛坯房工地指导施工。短发始终朝左前额自然垂落，毛衣左胸处有同色系花纹带，肤色在日光、暖光与粉尘光中自动匹配真实光影漂移。

从生成的视频来看，人物在几个场景转换中都保持了一致，未出现异常（除了扶眼镜时扶到了镜片上）。为了进一步测试，在下一个文字指令中，又增加了更多的人物特征和镜头转换。

第二段文字指令为：

视频展示一位中年亚裔男性厨师在开放式厨房连续完成动作：正面面对摄像头（近景）描述食材，向左后方转身取盐罐（过肩镜头），然后再次面向镜头进行翻勺演示（半身中景）。他左眉根部的痣在每次特写时始终处于同一位置。

在该段视频里，厨师转身再转回的过渡中并未出现“瞬间换人”感，特殊面部标识也一直都在。不过，左眉根部的痣有点像“粘”上去的。

如果是更极限的场景呢？在下面一个视频里，开机实验室设置了AB两场景交叉叙事，指令如下：

A场景：身穿藏青色夹克、佩戴工牌的企业安全主管在监控室里查看屏幕，她看着面前一整面墙的安防监控画面。随后，同一安全主管立刻在应急指挥中心下达行动指令，她手持对讲机，神情严肃。

B场景：剧情切换到应急响应小组（2-3名新配角，身着统一工作服）按指令迅速展开行动，分别跑向不同通道。

最后镜头切回安全主管的中景特写。

视频中，来回跨场景时，主管的面容始终保持稳定，发型、肤色没有出现跳变与违和，全程也没有出现配角喧宾夺主、角色面部错乱替换的情况，整体表现相对稳定。不过，开机实验室注意到一个小细节，视频中主管的工牌上的照片似乎与其本人并不相符，工牌上的文字也多为乱码，简单说就是大的逻辑关系和画面把握得比较好，但是细节的处理还不够细腻。

另外，自动分镜与自动运镜属于AI生成视频模型中的高阶动态调控能力，如果生成画面能够自主完成画面视角切换与镜头跟随，能大幅提升成片的镜头流畅度与氛围感。

为此开机实验室也设置了一组场景来检查HappyHorse1.0该项能力。以下为指令

一缕阳光穿过未完全拉开的亚麻窗帘，投射正在煮咖啡的年轻女性脸上。镜头慢慢推进展现她侧脸。当她伸手时，自动切换至低角度跟随她的手打开柜门，紧接着转为过肩视角，透过她的肩膀看到客厅里小孩在地毯上玩乐高。当咖啡机传来“叮”的一声，画面快切为一个微距大特写——一滴深褐色浓缩咖啡滴入透明玻璃杯，激起小气泡。

生成视频能在一些叙事节点自主决策切换镜头，不同景别的选择也相对合理，但存在部分镜头与剧情匹配度不高和画面不够流畅的地方。

再来一段具有悬疑气质的连续叙事：

一位穿棕色皮夹克、扎马尾的私家侦探在雨夜推开后巷废弃汽车旁的一扇铁门。全景是后巷环境、废弃汽车、铁门位置，侦探缓缓推门进入。中景跟进，侦探跨过门槛，抬手摘下墨镜，露出警惕的眼神。快速切至室内低角度镜头，画面中出现一个背对镜头的模糊人影（敌方），侦探停步，对峙感形成。

这段指令的难点在于，需精准把控“全景交代环境→中景跟拍动作→特写传递情绪”的连贯镜头叙事逻辑，同时保证各镜头间的时间衔接、空间方位无任何违和与矛盾。测试下来，模型基本复刻了这一叙事节奏，更值得肯定的是，镜头运镜的切换、角度的选择，均与悬疑氛围高度契合，精准烘托出紧张压抑的对峙张力。

总体而言，HappyHorse 1.0在当前AI视频生成模型中展现出较强的综合竞争力，尤其在人物一致性和基础运动还原上已达到较高水准，自动分镜能力也初步具备了实用价值。但在极端物理场景的真实感、画面微观细节的精确度，以及分镜节奏的稳定性上，仍存在可感知的不足。

好消息是，对于内容创作者而言，它已经是一个值得关注的生产力工具，但若要胜任高精度、强叙事的专业影视制作，还需要进一步迭代。

价格上，HappyHorse官网新用户享一定免费额度（以赠送积分方式），720P、1080P视频刊例价分别定为0.9元/秒、1.6元/秒，专业会员包月价格叠加限时折扣后为0.44元/秒和0.78元/秒，商用门槛进一步降低。

同为AI视频生成模型，字节Seedance 2.0则是按Token计费，据火山引擎官网，Seedance2.0输出分辨率为720P的情况下，包含视频输入的价格是28元/百万tokens，不含视频输入的价格是46元/百万tokens。

按照此前媒体测算，在Seedance 2.0生成15秒视频，需要消耗30.888万tokens，最终折合每秒1元。如果简单对比，HappyHorse相比Seedance2.0在视频生成价格上每秒大概有一毛钱优势。不过费用最终还是会取决于视频的复杂程度，毕竟两者计费体系完全不同。

阿里更明确的意图体现在生态卡位上。HappyHorse在移动端嵌入千问App，PC 端开放创作网页版，形成面向普通用户与创作者的双入口。同时，阿里悟空、Mulerun、JVS Claw等Agent平台率先完成接入，ZeroCut AI、巨日禄AI、LibTV-official等AI创作平台也宣布已接入HappyHorse1.0.生态扩张速度加快。

HappyHorse 1.0的亮相，与其说是一场价格革命，不如说是阿里在AI视频赛道的一次生态级入场——用模型能力敲门，用平台生态占位。至于它能否真正搅动格局，答案或许在于，接下来有多少创作者愿意把它放进自己的工作流中。