新腕儿漫剧大会报道
新腕儿漫剧大会结束后,近期将陆续发布嘉宾们的演讲内容。
3月20日,在新腕儿漫剧大会上,阿里云AI解决方案专家潘奕如上台分享关于《为创意加速,阿里云短漫剧行业的解决方案分享》的主题演讲。
以下为演讲全文:
大家好,我今天分享的主题是《为创意加速,阿里云短漫剧行业的解决方案分享》,内容是比较偏干货,主要给大家讲一下阿里模型的基本情况,还有我们新模型的预告。
首先讲一下我们万相视觉模型生成的能力,第二部分会讲到短漫剧行业的一个最佳实践,第三部分主要讲我们在短漫剧行业的生态资源。
先看一下我们整个产品大图。我们基座模型第一部分做的原生多模态,支持文本、语音、图像、视频等多模态数据输入、输出;第二部分中,是我们整个模型基本迭代,能力持续进步。通过文本、音频、视频多模态数据对齐的联合训练,强化学习提升画面生成质感、视频动态和指令遵循的能力。第三个就是视频生成部分,每次都会迭代、生成领域,还有编辑领域的迭代。
在生成领域,我们主要是为了遵循优化程度、美学质感、物理规律,保持人物的一致性,包括对整体画面元素的精准控制及局部编辑。
除了视频生成模型,我们也可以迭代生图模型,我稍后会对新模型做详细介绍。
上面的第二层在各行各业都可以看到万相模型的身影,尤其在2025年,我们在短漫剧行业有了很多的头部客户,包括内容、消费电子、社交等领域,我们都有标杆客户。
视频生成的2.6版本,就是原生多模态模型,偏向专业创作者本身升级。分为三部分,我们主要是支持15秒时长,还有参考角色生视频做了创新。
图像生成方面,我们有通用的文生图、图生图、图像编辑,主要是像复杂的图文排版、构图创意这类商用生图,都用到我们的图像模型。
有了这个后,我们省去了后期配音的过程,我们直接上传人物的视频,参考人物形象、声音,所以我们整体加速了漫剧生成的流程。
下面就是我们的一些模型功能,一个是多镜头智能调度,可以看到通过分镜1、分镜2提示词这样的描述。
这个就是我们通过这个描述做的一个多镜头的效果。这个是我们用智能分镜的功能,就相当于我们的模型有一个参数可以控制是否开启智能分镜,开启后即使对于小白用户不会写专业的分镜提示词,也能够生成连贯的多镜头视频。
像这种智能多镜和多人对话的场景,在15秒的时长下,对于人物一致性和多人的口型、人脸一致性保持要求比较高,而我们在这个场景中受到各种用户的认可。
这个主要是给大家看一下我们在一些ASMR音效。因为现在这种视频模型的主流发展是音画同步的,除了这种人物的声音BGM、还有这种ASMR,比如说做这种电商带货视频,还有做这种音效生成,我们的声音特质非常逼真。
这个我们千问Image 2.0的预告,在过年前发布的模型,这个模型其实主要是几个特点:
一个是更专业的文字渲染能力,大家有一种体感是,国外的生图模型如Nano Banana在中文文字的渲染方面不足,但是国内的这些模型中,其实我们在更专业的中文文字渲染中,包括商用PPT、海报、复杂流程图,现在都有了更强的能力。
第二是我们出图分辨率是2K,之前差不多是720和1080P,现在直接就是用是商用高清2K分辨率。
第三是更强语义遵循能力,除了文生图,图生图,图像编辑,在一个模型就能做到。
我们优化的模型架构和推理加速,现在以更小的模型拥有更快的推理速度,出图速度在10秒内。
像做这种3D漫画生图,还有2D分镜生图,效果基本上在国内生图里是第一梯队。像做真人剧的时候,这种生图,人的肌肤纹理质感、表情的细腻程度、光影都达到了商用。
下面是新模型预热,我们迭代后会在这几个指标上加强。因为我们有更多的多模态数据和强化学习训练,在画质、声音、动态表现,风格化生成和一致性控制这些维度都大幅提升。
另外,模型的功能层面也有更强的能力,更适配短漫剧的创作流程,包括首尾帧生视频,还有九宫格分镜生视频、还有主体与音色参考,视频编辑支持对全局或局部元素的编辑,视频复刻是时序特征迁移,支持参考视频中动作、特效、运镜、风格的复刻。
对于整个漫剧创作来说,我们能力的提升意味着更高的可控性,还有更大的创作空间,能够让创作者做出更精彩的内容。
下一步看一下短漫剧的实践。其实这部分对于大部分漫剧公司来说,是很成熟的工作流。当大家工作流都相同的情况下,如何能在工作流中生成更好的内容?
用文本模型Qwen3-Max在整个小说内容中提取出角色、场景,并生成分镜故事板,在这个环节中,我们通过强大的文本处理能力,将小说分镜的画面描述、人物的对话,还有生图的Prompt都结构化生成,通过生成角色图、场景图作为资产,再使用图像编辑模型生成分镜图,使用好的图像编辑模型能更好的把控整个分镜环境质感。最后在用图生视频,可以用到Wan2.2或者是2.6首帧生视频、R2V,最后一步去做剪辑、合成和添加解说。
整个工作流里,如果能每个环节用到SOTA模型,整个画面内容会有更好的体验。
下一个是我们「Wan2.6万物可主演:典型创作流程」,现在不光可以参考视频生成结果,还可以多图参考。传统生成一个角色设定图、道具设定图、场景设定图,三张图生成一个分镜片段,或者三个参考视频,参考视频维度会更加立体,把声音一起作为参考。
这是一个「典型创作流程」,比如角色设定图有两个人物、道具加场景,用R2A后就能够生成一个视频。看了这么多漫剧行业客户用AI后,现阶段AI核心是剧本创作和漫剧制作,尤其剧本创作,是通过大量网文IP以文本模型进行剧本改写,包括剧本分镜生成,到漫剧制作环节,这个环节中的分镜生成部分是最为重要的,且需要由分镜师去观察整个分镜生成情况,效果不符合要求需要重新生成。
随着模型能力提升,分镜抽卡成功率越来越高,其实在后期剪辑部分,可以用到视频编辑模型,比如动作复刻、角色替换等。这样的话,我们整个工作流每个环节都能够去被AI赋能、提效,由原来只文本加视频到现在有编辑模型后,整个链路都能够让AI赋能。
现在通过视频模型,大概就是在各类平台上,从最开始的2D、3D漫剧到现在的解说漫、真人短剧,我们现在又转向AI仿真人剧。
下面是我们客户在抖音平台上一些AI仿真人短剧作品。
接下来给大家看下我们在AIGC创作领域米兰冬奥会的效果,是我们找超创联合米兰冬奥会做的AIGP主题大会:
收录一些优质的超创作品,像过年的动画:
我们超创群体不仅是中国的创作者,Wan在美国硅谷也有很多超创群体喜欢我们的模型。可以看下国外创作者的作品:
这是我们在12月份Wan2.6首发时,联合海外超创群体一起做的首发视频,现在新模型也快发布了,后面如果会场上有各位嘉宾对我们新模型感兴趣的话,可以联系我们商务同学参与新模型测试邀请。
另外就是我们短漫剧扶持活动,如果有漫剧承制方想拉IP资源,可以从书旗帮助到大家。平台资源主要是优酷漫剧、支付宝漫剧、淘宝漫剧,商务具体活动可以跟商务同学对接。
我今天的演讲就是给大家做一下新模型的预热,让大家对更强的视频模型和创作领域有进一步了解,如果对我们的Wan更感兴趣,可以去体验一下新模型。谢谢大家! (转载自新腕儿)
热门跟贴