作者 | James 尖椒
在Sora2关停之后,漫剧行业等一个“破局者”已经等了太久。近期出现的API价格持续上涨、排队时间过长等问题,正让中小AI漫剧制作团队不堪重负。
刚刚过去的周末,娱乐资本论对行业内超200名一线从业者进行的抽样调查显示,目前,国内视频生成大模型市场呈现高度集中的格局:超过95%的被调查者在日常工作中使用同样的模型。
与此同时,“生成质量不稳定需多次抽卡”“人物动态不对”“一致性差”“无法局部编辑已生成的视频”等问题成为“久治不愈”的行业痛点。
甚至小娱还通过走访得知,因为漫剧总体生成成本飙升,有些本来由真人剧转型漫剧的承制方,已经动了回归真人剧拍摄的念头……
恰在此时,4月27日晚间,阿里“HappyHorse-1.0”视频大模型在业界翘首以盼中开放公测,国内版和国际版同步上线。
这匹“欢乐马”月初曾以黑马姿态,突然空降登顶国外权威AI视频大模型竞技场,引发广泛关注,一时间还出现多个仿冒“李鬼”。它是否有信心,有实力打破视频模型当前的一超格局,引发新一轮竞争和降价,促进行业进一步优化升级?
娱乐资本论第一时间登录HappyHorse测试站,连夜测试正版“欢乐马”的实力如何。同时,与众多第一时间跟进的“超级个体”类创作者不同,我们的测试将主要着眼于这个模型对漫剧制作流水线的作用。
HappyHorse 承载了众多漫剧从业者的期待,娱乐资本论采访了多位活跃在漫剧制作一线的行业人士,倾听他们的痛点、期待,和对 HappyHorse 的第一印象。
实测真·欢乐马:一致性、镜头感、精细度“量大管饱”
一个视频模型出炉之后,最先感到兴奋和最早出结果的,是那些所谓的“超级个体”创作者。他们兴奋地探索模型的边界,使用提示词工程制作出奇观。也有一些偶然的妙手天成,就比如纯业余作者做出的酱板鸭,瞬间引爆了全网。
但是在AI漫剧领域,情况则不完全相同。漫剧使用的工作流要想接入一个新模型是容易的,但是从业者需要一段时间,去摸清楚什么样的模型适合做什么事。他们往往把最复杂的任务交给最先进的模型,而使用平价模型去完成一些基础的工作,比如变动不大的背景板。
如上所述,今年初到3月的一段时间内,行业普遍将Seedance 2.0,可灵3.0,谷歌veo及Sora2作为出复杂结果的第一梯队。然而OpenAI在毫无预警之下宣布关闭Sora 2模型,本就供不应求的Seedance 2.0还应声涨价,使得行业对HappyHorse 的期待值陡然拉高。特别是HappyHorse 还表明其是一个可以编辑现有视频的模型,抽卡之后不能修改向来是视频生成的痛点,它又如何解决这个老大难问题呢?
在与多位漫剧从业者沟通后,他们最关心的问题集中在6个方面——人物一致性、场景一致性、镜头语言理解、文本理解、细节编辑/微调能力,以及成本与可及性。
我们根据上述问题和访谈,设计了对应的测试提示词,逐项验证,确保呈现的结果能代表模型的真正实力。测试使用的提示词部分参考了受访漫剧制作团队在实际工作中使用的提示词,力求贴近真实生产场景。
简单结论是:HappyHorse 1.0的强项是一致性,镜头感和画面精细度,不过在多镜头调度,提示词遵从方面有提升空间。
正如小娱遇到的一位抢先试用者饭饭(化名)所讲:
“Seedance2.0强在导演系统,强调控制力,HappyHorse 1.0强在成片质感,主打第一眼惊艳。这匹快乐马现在的势头,大有要在 AI 视频领域和字节‘二分天下’的架势呀!”
(素材图片,使用ChatGPT Images 2.0生成)
我们根据一则在实际工作中使用的提示词,构思了一个废土世界观的场景,尽管不尽完备,但希望从“一次成型,不反复抽卡”的角度来推测多轮生成的综合成功率。同时,其中涉及到需要修改的部分,一律不重新抽,而是直接使用HappyHorse 1.0的视频编辑功能。
人物一致性是视频生成最基本的要求之一,要求面部特征、发色、体型、服装都不能出现明显变化。两个镜头中人物的面部轮廓、短发造型、深色外套的磨损细节完全一致。从正面到侧背面的转换中,身形比例没有突变,可以清晰辨认是同一个人物,而且GPT-image-2的三视图中,人物本来的“油光”特性也被完整保留。
场景一致性是指保持空间布局和视觉元素一致,不同镜头中的场景细节不能“跳变”。“小娱城”城门口,全景镜头,大量劳工和佣兵正在排队进城,随后切换到俯视视角;女主开始爬城门之后,镜头切换到腿蹬地的特写,整个场景被参考图牢牢限定,对于快速闪过的漫剧画面来说,可以一次抽卡即成型。
多位受访者反映现有模型的镜头语言理解,也就是在提示词中精确描述推、拉、摇、移等运镜方式时的依从性一般。我们为这段视频设置了4个分镜,其中镜头3和4因为提示词的描述不够准确,导致理解出了问题,在实际制作中,应该加入其他的参考图重新规划提示词。
因此,我们对这段提示词产出的视频直接做了修改:“箭楼只有一层而不是两层。镜头进入窗缝以后在房间里转一个弯,从房间里面看房门,房门本来关着,然后短发女性从通道跑进门的时候,一下把门推开。镜头迅速向前移动到短发女性面部特写的时候,她是面向房间里,背对着敞开的房门并可见她身后的城墙通道。”
结果虽仍然差强人意,但可以看到最后的镜头按要求做了修改,说明每次修改视频,以说明秒数,并每次只修改一处问题为宜。看来小娱作为初学者,似乎还应该掌握更多的提示词技巧,不过把前后两段拼到一起,应该就差不多了。
接下来的提示词包含“脸上的表情怔住,嘴唇紧抿,眼神里交织着担忧、不解和一丝难以察觉的异样情绪”,“表情仍然怔住,但似乎有眼泪要夺眶而出,然后一咬牙,转身坚毅地跑回去”等抽象提示。这个场景试图考察模型能否还原高难度的微表情和动作细节。
由于参考图的信息量大,在保持一致性的前提下,情绪感染力似乎略有折扣。不过,对稍纵即逝的漫剧画面来讲,讲清楚故事,分清楚人物仍然是所有要求中第一位的。
最后我们决定再测试一次编辑功能:把女主的头改成猫头。
提示词是在看到空房间之后改为猫头,不过成品在空房间里加了一只猫。好在如果搭配上一段内容剪到一起,并没有违和感。可以看到,当指令清晰明确时,单点修改并不会“牵连”到同镜头里的其他元素。这种“指哪改哪”的微调能力,可以说正是漫剧从业者梦寐以求的功能。
在测试准备结束时,小娱还收到有社群的从业者说,他们苦恼的是漫剧场景中人物口型可能对不上。为此我们又加测了一个口型测试,台词大家可能都很熟悉了——“我是酱板鸭”。
从结果来看,人的口型比猫的要好不少,即使是绕脸一周拍摄也没问题,不用只是过肩的“对脸打”,相信大可以放心使用。
目前HappyHorse的生成效率很高,视复杂度,每条大约1-2分钟。当然,Seedance2.0在用量剧增之前,也是挺快的。不过鉴于阿里的基础设施更完善,而且qwen其他模型也做了不少“压力测试”,相信之后排长队抽卡的情形会得到不小的缓解。
而说到价格方面,国内版网站(www.happyhorse.cn)提供标准版(Standard)和专业版(Pro)订阅方案,连同免费(Free)均支持每日登录赠送积分。并行生成方面,免费2路,标准版10路,专业版无限;付费用户可批量视频生成、优先队列、去除品牌水印及1080P高清视频生成。
720P和1080P的视频生成刊例价分别为0.9元/秒及1.6元/秒,专业会员包月价格叠加限时折扣后为0.44元/秒和0.78元/秒。
众所周知Seedance2.0的官方定价是“一元一秒”,各模型目前都对国内用户有限时优惠价格。但毫无疑问,HappyHorse 1.0在国内主流 AI 视频生成模型中极具价格竞争力。
据了解,HappyHorse 的API调用成本也是为0.9元/秒及1.6元/秒,显著低于目前市面上的头部闭源模型,且企业级客户通过阿里云调用API接口没有门槛限制,不需要一次性预缴千万级费用。这意味着中小企业和个人开发者不必受制于单一供应商的定价策略,让更多人“用得起”好模型。
调查:244个一线从业者最想要什么
娱乐资本论长期关注AI漫剧产业的发展,也同行业多个头部机构与创作者有保持密切的联系。从年初CEIS的路演专场开始,我们连续又在北京举办2场线下活动,吸引大批不同行业的观众参加,包含专业人士、在校影视艺术专业学生等。目前我们已经拥有了多达11个活跃的漫剧人微信社群,每天讨论以及资源对接十分活跃。趁着周末,小娱在群内也同步开展了一个小调查,想要问一问这些一线漫剧从业者,对一个物美价廉的新模型最期待的是什么。
截至27日上午,本次调研共回收244份有效问卷。受访者覆盖漫剧产业链各环节,在说明职业的填写人当中,导演和制作人最多,占比26.2%。接下来编剧和运营发行岗各占比14.3%。漫剧行业最近大量缺人,身兼多职的情况非常普遍,产业链上的每一个人都有机会与视频生成模型打交道。
超六成说自己是导演/制作人的受访者每天高频使用视频模型,即使是运营商务等非技术岗位也有占总受访者43%的人“偶尔”使用,以便理解模型输出的效果与局限。
超过95%的受访者将 Seedance 列为主要使用模型,几乎等同于“全员覆盖”。排名第二的可灵占31%,Vidu以19%位居第三。
辛鑫(化名)是一家头部漫剧公司的负责人,他向我们证实了这一格局:“我们现在主要在操作的模型是 Seedance 2.0,但事实上所有的模型我们都没有放弃去测试、去观察,甚至是一些C端的工具我们也在看。”
在他看来,持续关注所有模型不是“三心二意”,而是职业本能。“一些Agent我们甚至能从它呈现出什么样的效果,倒推出它用了什么模型,这对于我们去完善自己的工作流也是有帮助的。”
概括当前用大模型的核心痛点,简单说就是三个关键词:不稳、太贵、排大队。选择了“生成质量不稳定需多次抽卡”“价格贵”“排队等待时间过长”的受访者分别为76.2%、71.3%、64.3%。
几乎每一个受访者都会提到模型太贵的问题。特别是在最近大模型普遍涨价后,规模化制作漫剧的团队成本至少涨了三倍。
陈华(化名)是福州一家中小型漫剧制作团队的负责人,他对模型价格的上涨格外敏感:“早期 Seedance 2.0 的会员,最低的时候可以做到每秒0.2到0.4元,现在都要每秒1元左右了。”他补充道,不同时期注册的会员权益不同,“2月份、3月份、4月份注册的都不一样,越迟注册越接近1秒1元。”
签约用户可以通过火山引擎获得更稳定的服务和排队优先权,陈华的团队签约后“基本上都是几分钟就出来了”。但对于未签约的团队,高峰期等待数十分钟仍是常态。大量中小团队无奈地看着自己与头部模型渐行渐远。
另有57.0%的受访者选择了“无法只调整具体细节,保持其他部分锁定”。这个选项的占比虽不如前三个高,但在从业者口中的提及频率却极高。
陈华向我们描述了一个典型场景:生成一个镜头,其中90%的内容满意,只想修改某个手势或某件衣服的颜色。“这种情况很多,但经常很难做到。”
辛鑫同样期待在某个局部做微调的颗粒度。“这个和抽卡的概念不一样,抽卡依然是概率性事件,可能再抽一次依然抽不对,微调指的是98%都不变,就这2%调整。”
“生成质量不稳定需多次抽卡”成为当前最大的痛点。具体来看,当说一个模型生成质量不稳定时,大家在意的点是什么?
其中,“人物动态不对”和“一致性差”分别以68.9%和66.8%高居榜首,两者相加,几乎覆盖了所有反映质量问题的受访者。
漫剧从业者小林告诉娱乐资本论,他经常在做漫剧的过程中遇到风格一致性问题,“比如我想生成3D风格的漫剧,在生图的阶段还很好,到了图生视频的阶段,模型跑着跑着就变成真人风格了。"
辛鑫认为,解决一致性的关键在于使用“多参流”的模型,相当于是每次都固定参照物,几个锚点锚定了,理论上变化就少了。小娱在自己测试HappyHorse1.0期间也在每次提示词都配上固定参考图,使得长程稳定性有很大保证。
参考生不同于图生或者首尾帧,不需要把分镜图做出来,“我直接把几个人物的形象参考放进去,场景放进去,甚至人物站位的参考放进去——放完了之后它就能生成视频。”如此一来,省时又稳定,更有助于在工作流中批量设定提示词,自动化抽卡。
59.4%的受访者选择了“镜头运动不符合预期”。陈华告诉我们,他的团队经常遇到的难点在于“镜头语言不符合预期,经常出现镜头穿帮、人物站位不对等问题,一些镜头会出现与我们理解的有偏差”。
另有43.0%的受访者选择了汉字生成混乱。模型在招牌、字幕、书信等汉字生成上仍存在严重缺陷——字形歪斜、笔画缺失、甚至生成无意义的“伪汉字”。海外模型问题尤为突出,即便是国产模型,中文生成的稳定性也不如英文。当前,从业者一般用指定参考图的方法解决。
HappyHorse为行业带来新选择与新可能
综合以上数据,我们可以勾勒出一幅漫剧从业者的“需求画像”:他们需要的是一个价格合理、生成稳定、能理解导演意图、能在长线制作中保持人物和场景一致性的工具。这些需求并非针对某个特定模型,而是对整个行业的期望。HappyHorse 的出现,恰好站在了这些需求的交汇点上。
从一线漫剧从业者的调查问卷与采访来看,当下AI视频生成大模型的能力,与业界需求之间,仍然有极大的缺口存在。
“人物一致性非常重要”“角色一致性稳定”“无穿帮镜头”,“价格便宜”“费用低”“价格再优惠些”,“可以修改细节”“可以点选或者划区域精准修改”……在问卷最后的填空题,回答里密密麻麻的都是这类关键字。
受访者写下对下一代视频生成模型的期望,经分类统计,排名前三的改进方向为:人物一致性,降低成本,细节编辑/微调能力。
漫剧团队负责人灵茜表示,“我们希望模型价格和生成质量是匹配的。而不是价格上涨了,质量不稳定,这会造成低质和廉价的产品出现。”
同时,模型的能力也会影响新人培养的成本,“AI随机性导致抽卡试错成本高,新人需要熟手数倍的生成次数才能上手,这是必不可少的刚需费用,也给团队扩建带来了成本压力。”
辛鑫希望,视频大模型能在自然语言理解能力上持续进步,这对漫剧团队拓展规模、招募更多非影视科班出身者意义重大。
辛鑫反复对小娱强调一个观点,对于漫剧团队来说,几秒甚至一分钟的片段都测试不出真正模型的实力,“必须以剧集为单位去做测试,你才能以稳定性、制作成本为考虑,去做最终的模型选择。”
作为大型漫剧团队,还要考虑模型稳定性、并发数等关乎规模化生产的关键问题。辛鑫回忆说:“那个时候 Sora 2 出来,我们也觉得太牛了,颠覆世界。可结果真的在做剧的时候,我们发现稳定度并不能够很好地保持。当我们以100人的规模,同时生产AI漫剧时,模型的稳定性是否依然存在?”而并发数解决的则是生产效率的问题,同一模型能同时生产多条视频,才能适配漫剧极短的生产周期。
与追求极致的超级创作者不同,漫剧从业者在意的是规模化生产的效率与稳定性,在乎的是生产一整部漫剧所需要的人力、算力成本以及最后的成片效果。
所以,今日HappyHorse开启内测还只是一个开始,当它真正深入到漫剧的生产链条中时,其优势与竞争力才会逐渐显现。
陈华正准备好“第一时间去测试” HappyHorse,对他而言,测试只关乎“合不合适”,“主要是科幻类的场景我们生成量特别大,到时候用同样的提示词测一遍就知道了。”
辛鑫认为,在AI工具侧的竞争中,很难出现某个独一无二的功能,或者某个模型占据垄断地位。对从业者而言,新模型的出现不是“替代”叙事,而是“选择”叙事,各个制作团队都会选择最适合自己的大模型。
至少,漫剧从业者都很乐意看到HappyHorse的出现:“大厂出新模型的意义是挑战现有格局,我们有了更多选择,对团队、对行业来说都是好事。”
热门跟贴