4月27日,阿里巴巴ATH事业群的首款视频模型Happy Horse-1.0开启灰度测试。发布当天,它就冲上了权威盲测平台Arena的Top1和Artificial Analysis的Top2。
这个赛道早已进入深水区。当各家模型都能产出"赛博朋克城市夜景"或"古风女子执伞回眸"的画面,AI短剧、漫剧市场迅速膨胀。但一个尴尬的现实是,真正的爆款作品仍然凤毛麟角。更多时候,我们看到的是用连续短视频拼凑的动态PPT,割裂的叙事靠旁白硬凑,或者干脆交给观众脑补。
技术层面的解释是多镜头调度、人物表现力、复杂动作音画同步等细节不成熟。但对落地而言,观感粗糙、叙事无力的直接后果是,AI视频被理解为更下沉的内容,无力触及更广阔的美学或商业空间。
用画面讲故事,已经成为视频模型的技术分水岭。我们拿到了Happy Horse-1.0的体验名额,决定放弃美学展示的常规路线,转向电影工业级的极限压力测试。它有没有可能成为第一款真正能用镜头讲好故事的视频模型?
很多影史名场面都选择中近景:《教父》里刺杀索拉索前的柯里昂、《闪灵》里在门后狞笑的杰克、《杀人回忆》最后仿佛看穿镜头的刑警。这个景别自带故事感,我们决定从这里开始。
画面元素并不复杂,但呈现质感令人惊喜。大光圈、浅景深、强氛围感的中近景镜头完全没有AI视频常见的廉价感,反而有电影般的视觉冲击。
一个特写太简单,我们决定上强度。今天AI视频叙事能力的一大考验是多镜头调度及一致性,形象畸变、位置漂移必然导致叙事断裂。我们设计了一个身份一致性的极限测试:描述一名约30岁的东亚女性,要求一次性生成中景正面、近景斜侧45°跟拍和正面特写三个镜头,人物在景别切换、机位变化和光照差异下保持完全一致。
往提示词里塞了十余个可验证的视觉锚点:米白色亚麻西装套裙、浅蓝色真丝衬衫、银色细链珍珠项链、右手无名指玫瑰金戒指、豆沙色哑光口红、裸粉色指甲、带金属品牌logo的驼色托特包。
人物面部在三镜头切换下没有变形或漂移,亚麻西装的褶皱符合逻辑。真丝衬衫的光泽变化完全匹配不同机位光照,肤色在正面光与侧光间自然过渡,没有突兀色偏。
11个视觉锚点的跨镜头交叉比对:除因视角变化合理消失的少部分元素外,基本保持一致。只有右手玫瑰金戒指从一枚变成三枚,豆沙色哑光口红存在轻微色差。模型在"非面部高频细节"的维持上仍有优化空间,当景别收紧至特写时,似乎优先保全面部而"牺牲"了身体周围的道具信息。但整体仍处于"准商用"水准,人物叙事的核心连贯性已能得到保障。
多镜头调度下的一致性是视频生成模型从玩具走向工具的关键门槛。无论广告、电商展示还是电影制作,主角的脸型、服装或饰品在镜头切换中漂移,叙事连贯性都将瞬间崩塌。难点不在于生成好看的人物,而在于让AI维持角色的每一个锚点。Happy Horse-1.0完成得不错。
无实拍的AI内容面临更现实的难题:角色表现力不如真人。我们将其拆分为肢体动作自然度、微表情刻画、对白真实感三个层面。
肢体动作测试设计了一个复杂序列:25岁左右男性在舞蹈排练厅的完整表演,包含四个精确动作节点和五个明确时间参数,每个动作节点对应特定音效——衣物摩擦声、呼气声、落地闷响等。模型需要精确编排动作发生时刻与持续时长,让声音与起跳、落地等状态实现帧级对齐。
Happy Horse-1.0的动作质量接近满分。动作连贯丝滑,无卡顿跳帧,肩、膝、踝等关节无明显扭曲,结构合理。旋转腾空和重心转移完全符合人体运动规律,肌肉发力感肉眼可信。
音画同步是最大亮点。爆发力明显的动作中,大部分声音匹配瞬时状态:衣物摩擦、起跳蹬地、破风声、落地闷响,都与人物动作精准对齐。电影工业中,音效是贯穿前期筹备、拍摄和后期编辑的重投入工作,而Happy Horse-1.0将其前置到生成环节,一次性解决。
微表情和对白则体现在官方给出的另一个案例:奢华私人飞机机舱内,金红色云海落日,阳光将机舱渲染成琥珀色。左侧年长男性满头银发,身穿高定西装,手持威士忌酒杯,目光如鹰般锐利;右侧年轻男性身体微倾,眉头微皱,神情既紧张又充满野心。年长男性晃动酒杯,液体挂壁,身体逼近对方;年轻男性深吸一口气,眼神坚定回视。
对白设计为英文。年长男性低沉沙哑、充满威严:"In this world, you either hunt or you become the prey. Which one are you?"年轻男性嗓音紧绷但坚定:"I am the one who pulls the trigger."背景伴随飞机引擎轰鸣和冰块撞击玻璃杯的清脆声。
这个多角色对话镜头里,Happy Horse-1.0需要同时处理双人微表情变化、肢体语言互动、对口型语音生成,以及环境音与动作细节的同步。从生成结果看,年长男性晃动酒杯时液体的动态挂壁、冰块碰撞的清脆声响与画面完全匹配,年轻男性"深吸一口气"的胸部起伏和肩部微抬被准确呈现,两人对话时的眼神交锋和面部肌肉紧张感具有戏剧张力。
对口型是AI视频的老大难问题。Happy Horse-1.0的英文对白口型匹配度较高,但在语速较快或情绪激烈的片段中,偶尔出现口型幅度与音频能量不完全同步的情况。中文对白的测试我们尚未进行,这是后续需要验证的维度。
三个极限测试下来,Happy Horse-1.0的表现超出预期。它不是那种只能生成"好看画面"的玩具,而是在一致性、动作准确性、音画同步等工业级指标上拿出了可用成果。当然,玫瑰金戒指的增殖、口型的偶尔错位,也说明它尚未跨过"完全可靠"的门槛。
但这已经是一个关键信号:AI视频正在从"能生成"走向"能叙事"。当技术细节足够扎实,创作者才能真正把注意力放回故事本身。Happy Horse-1.0的灰度测试,可能是这个转折点的一次预演。
热门跟贴