本文来源:消费者报道 作者:郭美婷
一度登顶全球AI盲测榜单的阿里“欢乐马”HappyHorse 1.0,终于揭开神秘面纱。
4月27日晚,阿里巴巴视频生成模型 HappyHorse 1.0(欢乐马)正式开启灰度测试,这款曾以匿名身份横扫国际权威AI视频榜单、被行业热议多日的“黑马”,从幕后走到了台前。
作为阿里ATH创新事业部打造的多模态生成模型,HappyHorse 1.0采用音视频联合生成方案,瞄准广告、电商、短剧、社媒创意等场景,推出AI视频生成与视频编辑服务。
当前AI视频生成赛道中,运动流畅性、人物一致性、自动分镜与自动运镜,是决定内容可用度与专业质感的几个核心指标。其中,运动流畅性关乎画面自然度,人物一致性决定角色辨识度与叙事连贯度,自动分镜与自动运镜则体现模型的创意编排与镜头语言能力,直接影响成片的叙事节奏与视觉表现力。
为此,开机实验室将从这几个维度对HappyHorse 1.0展开实测。
目前,全球专业创作者与企业客户可通过官网、阿里云百炼平台注册体验,普通用户则可通过千问App试用。
HappyHorse官网新用户注册即赠送66积分,可生成视频比例囊括了16:9、4:3、3:4、1:1、9:16共5个常规视频比例。一次可生成视频时长在3-15秒之间,调节相对灵活。据开机实验室实测,生成3秒视频需要消耗19积分,5秒需消耗32个积分,10秒则需消耗63积分。
千问APP提供的体验额度则更大,用户每日有10个额度的体验额。只要在APP内找到HappyHorse内测接口,可选择的视频比例、清晰度与网页版一致,但在时长选择上相对固定,仅有5秒、10秒、15秒三个时长选项,生成5秒视频消耗1个额度,10秒消耗2个额度。
以下视频均为使用千问APP生成,输入指令后,排队等待时长大约在2-3分钟。
为了测试HappyHorse生成视频的运动流畅性,开机实验室分别输入了人物在行走和演奏乐器两段文字指令。
第一段指令为:
黄昏的城市街道,柏油路面残留雨后水迹。一位身着米色风衣的女性在人群中穿过,手臂自然垂在身体两侧摆动,每一次跨步都是脚跟先落地,平稳向前行。身后街灯倒映在路面上光影斑驳。摄影机角度保持低位,近乎与地面齐平——仿佛一名蹲在路边的行人正在随意观看。
从实际生成效果来看,模型完整还原了脚跟到脚掌的连贯落地步态,人物手臂摆动与行走节奏匹配协调,风衣随肢体动作产生的布料褶皱真实自然,未出现脚底滑移、悬浮等常见 AI瑕疵,但细看街上的照片汉字出现了“生造字”情况。
第二段指令为:
中景镜头,一位身穿休闲衬衫的吉他手坐在木质高脚凳上,快速进行高把位和弦转换与击勾弦演奏。拨片在琴弦上细碎跳动着。运镜自动跟随按弦的手腕轨迹平移。
整体下来,画面细节贴合演奏逻辑,手指形态自然无畸形、多指问题,拨片与琴弦交互也较为写实,中景下的高把位演奏动作连贯,拨片细节、手腕跟随运镜均完整落地。
此外,强动态高速运动、瞬间撞击反馈以及极速慢镜头演绎,也是检验 AI 视频模型运动流畅度与物理还原能力的关键场景。
为此,开机实验室输入了以下指令:
傍晚的足球场,夕阳金色草地。前锋全速带球冲向禁区,右脚大力抽射,球鞋侧面与皮球在撞击瞬间产生形变。立即切换为超高速慢动作模式:鞋钉掀起的草皮碎屑缓缓飞扬;守门员飞身扑出时球衣随风沙沙作响;足球在空中高速旋转划出弧线,最后撞击球网将尼龙网格拉伸成长长的菱形。
在生成的10秒视频里,文字指令里提到的夕阳、草地、抽射、慢镜头等元素基本都被还原出来,画面氛围感也在线。但仔细观察就会发现,脚踢中足球泥土溅起那一刻画面比较假。另外,动作之间的衔接存在不够顺滑的情况,运动员整体发力、碰撞、足球的飞行的逻辑不太符合现实物理规律,AI痕迹比较重。
一直以来,AI 视频最让人头疼的问题之一就是人物的一致性,部分AI生成的视频前后会出现“换脸”情况。前一秒还是这个五官,转个头就面目全非,发型、穿搭也会莫名其妙变化。所以,人物在生成的全程画面里保持形象统一,也成为衡量一款AI视频模型好不好用的指标之一。因此,开机实验室通过文字指令不断地切换场景,来测试模型能否在动态运动、镜头切换、长时间生成中,保持人物特征,不崩脸、不跳变、不“自我修改”。
第一段指令为:
连续片段展示一位戴黑框眼镜、留三七分短发、穿樱花粉毛衣的女性室内设计师。她先在落地窗大客厅受访;接着转入暖黄灯光与木质书架共存的书房伏案改图;再进入正在装修的毛坯房工地指导施工。短发始终朝左前额自然垂落,毛衣左胸处有同色系花纹带,肤色在日光、暖光与粉尘光中自动匹配真实光影漂移。
从生成的视频来看,人物在几个场景转换中都保持了一致,未出现异常(除了扶眼镜时扶到了镜片上)。为了进一步测试,在下一个文字指令中,又增加了更多的人物特征和镜头转换。
第二段文字指令为:
视频展示一位中年亚裔男性厨师在开放式厨房连续完成动作:正面面对摄像头(近景)描述食材,向左后方转身取盐罐(过肩镜头),然后再次面向镜头进行翻勺演示(半身中景)。他左眉根部的痣在每次特写时始终处于同一位置。
在该段视频里,厨师转身再转回的过渡中并未出现“瞬间换人”感,特殊面部标识也一直都在。不过,左眉根部的痣有点像“粘”上去的。
如果是更极限的场景呢?在下面一个视频里,开机实验室设置了AB两场景交叉叙事,指令如下:
A场景:身穿藏青色夹克、佩戴工牌的企业安全主管在监控室里查看屏幕,她看着面前一整面墙的安防监控画面。随后,同一安全主管立刻在应急指挥中心下达行动指令,她手持对讲机,神情严肃。
B场景:剧情切换到应急响应小组(2-3名新配角,身着统一工作服)按指令迅速展开行动,分别跑向不同通道。
最后镜头切回安全主管的中景特写。
视频中,来回跨场景时,主管的面容始终保持稳定,发型、肤色没有出现跳变与违和,全程也没有出现配角喧宾夺主、角色面部错乱替换的情况,整体表现相对稳定。不过,开机实验室注意到一个小细节,视频中主管的工牌上的照片似乎与其本人并不相符,工牌上的文字也多为乱码,简单说就是大的逻辑关系和画面把握得比较好,但是细节的处理还不够细腻。
另外,自动分镜与自动运镜属于AI生成视频模型中的高阶动态调控能力,如果生成画面能够自主完成画面视角切换与镜头跟随,能大幅提升成片的镜头流畅度与氛围感。
为此开机实验室也设置了一组场景来检查HappyHorse1.0该项能力。以下为指令
一缕阳光穿过未完全拉开的亚麻窗帘,投射正在煮咖啡的年轻女性脸上。镜头慢慢推进展现她侧脸。当她伸手时,自动切换至低角度跟随她的手打开柜门,紧接着转为过肩视角,透过她的肩膀看到客厅里小孩在地毯上玩乐高。当咖啡机传来“叮”的一声,画面快切为一个微距大特写——一滴深褐色浓缩咖啡滴入透明玻璃杯,激起小气泡。
生成视频能在一些叙事节点自主决策切换镜头,不同景别的选择也相对合理,但存在部分镜头与剧情匹配度不高和画面不够流畅的地方。
再来一段具有悬疑气质的连续叙事:
一位穿棕色皮夹克、扎马尾的私家侦探在雨夜推开后巷废弃汽车旁的一扇铁门。全景是后巷环境、废弃汽车、铁门位置,侦探缓缓推门进入。中景跟进,侦探跨过门槛,抬手摘下墨镜,露出警惕的眼神。快速切至室内低角度镜头,画面中出现一个背对镜头的模糊人影(敌方),侦探停步,对峙感形成。
这段指令的难点在于,需精准把控“全景交代环境→中景跟拍动作→特写传递情绪”的连贯镜头叙事逻辑,同时保证各镜头间的时间衔接、空间方位无任何违和与矛盾。测试下来,模型基本复刻了这一叙事节奏,更值得肯定的是,镜头运镜的切换、角度的选择,均与悬疑氛围高度契合,精准烘托出紧张压抑的对峙张力。
总体而言,HappyHorse 1.0在当前AI视频生成模型中展现出较强的综合竞争力,尤其在人物一致性和基础运动还原上已达到较高水准,自动分镜能力也初步具备了实用价值。但在极端物理场景的真实感、画面微观细节的精确度,以及分镜节奏的稳定性上,仍存在可感知的不足。
好消息是,对于内容创作者而言,它已经是一个值得关注的生产力工具,但若要胜任高精度、强叙事的专业影视制作,还需要进一步迭代。
价格上,HappyHorse官网新用户享一定免费额度(以赠送积分方式),720P、1080P视频刊例价分别定为0.9元/秒、1.6元/秒,专业会员包月价格叠加限时折扣后为0.44元/秒和0.78元/秒,商用门槛进一步降低。
同为AI视频生成模型,字节Seedance 2.0则是按Token计费,据火山引擎官网,Seedance2.0输出分辨率为720P的情况下,包含视频输入的价格是28元/百万tokens,不含视频输入的价格是46元/百万tokens。
按照此前媒体测算,在Seedance 2.0生成15秒视频,需要消耗30.888万tokens,最终折合每秒1元。如果简单对比,HappyHorse相比Seedance2.0在视频生成价格上每秒大概有一毛钱优势。不过费用最终还是会取决于视频的复杂程度,毕竟两者计费体系完全不同。
阿里更明确的意图体现在生态卡位上。HappyHorse在移动端嵌入千问App,PC 端开放创作网页版,形成面向普通用户与创作者的双入口。同时,阿里悟空、Mulerun、JVS Claw等Agent平台率先完成接入,ZeroCut AI、巨日禄AI、LibTV-official等AI创作平台也宣布已接入HappyHorse1.0.生态扩张速度加快。
HappyHorse 1.0的亮相,与其说是一场价格革命,不如说是阿里在AI视频赛道的一次生态级入场——用模型能力敲门,用平台生态占位。至于它能否真正搅动格局,答案或许在于,接下来有多少创作者愿意把它放进自己的工作流中。
热门跟贴