阿里云潘奕如：为创意加速，AI 重构短漫剧全流程解决方案|大模型|工作流|漫剧|潘奕如|知名企业|阿里云

新腕儿漫剧大会报道

新腕儿漫剧大会结束后，近期将陆续发布嘉宾们的演讲内容。

3月20日，在新腕儿漫剧大会上，阿里云AI解决方案专家潘奕如上台分享关于《为创意加速，阿里云短漫剧行业的解决方案分享》的主题演讲。

以下为演讲全文：

大家好，我今天分享的主题是《为创意加速，阿里云短漫剧行业的解决方案分享》，内容是比较偏干货，主要给大家讲一下阿里模型的基本情况，还有我们新模型的预告。

首先讲一下我们万相视觉模型生成的能力，第二部分会讲到短漫剧行业的一个最佳实践，第三部分主要讲我们在短漫剧行业的生态资源。

先看一下我们整个产品大图。我们基座模型第一部分做的原生多模态，支持文本、语音、图像、视频等多模态数据输入、输出；第二部分中，是我们整个模型基本迭代，能力持续进步。通过文本、音频、视频多模态数据对齐的联合训练，强化学习提升画面生成质感、视频动态和指令遵循的能力。第三个就是视频生成部分，每次都会迭代、生成领域，还有编辑领域的迭代。

在生成领域，我们主要是为了遵循优化程度、美学质感、物理规律，保持人物的一致性，包括对整体画面元素的精准控制及局部编辑。

除了视频生成模型，我们也可以迭代生图模型，我稍后会对新模型做详细介绍。

上面的第二层在各行各业都可以看到万相模型的身影，尤其在2025年，我们在短漫剧行业有了很多的头部客户，包括内容、消费电子、社交等领域，我们都有标杆客户。

视频生成的2.6版本，就是原生多模态模型，偏向专业创作者本身升级。分为三部分，我们主要是支持15秒时长，还有参考角色生视频做了创新。

图像生成方面，我们有通用的文生图、图生图、图像编辑，主要是像复杂的图文排版、构图创意这类商用生图，都用到我们的图像模型。

有了这个后，我们省去了后期配音的过程，我们直接上传人物的视频，参考人物形象、声音，所以我们整体加速了漫剧生成的流程。

下面就是我们的一些模型功能，一个是多镜头智能调度，可以看到通过分镜1、分镜2提示词这样的描述。

这个就是我们通过这个描述做的一个多镜头的效果。这个是我们用智能分镜的功能，就相当于我们的模型有一个参数可以控制是否开启智能分镜，开启后即使对于小白用户不会写专业的分镜提示词，也能够生成连贯的多镜头视频。

像这种智能多镜和多人对话的场景，在15秒的时长下，对于人物一致性和多人的口型、人脸一致性保持要求比较高，而我们在这个场景中受到各种用户的认可。

这个主要是给大家看一下我们在一些ASMR音效。因为现在这种视频模型的主流发展是音画同步的，除了这种人物的声音BGM、还有这种ASMR，比如说做这种电商带货视频，还有做这种音效生成，我们的声音特质非常逼真。

这个我们千问Image 2.0的预告，在过年前发布的模型，这个模型其实主要是几个特点：

一个是更专业的文字渲染能力，大家有一种体感是，国外的生图模型如Nano Banana在中文文字的渲染方面不足，但是国内的这些模型中，其实我们在更专业的中文文字渲染中，包括商用PPT、海报、复杂流程图，现在都有了更强的能力。

第二是我们出图分辨率是2K，之前差不多是720和1080P，现在直接就是用是商用高清2K分辨率。

第三是更强语义遵循能力，除了文生图，图生图，图像编辑，在一个模型就能做到。

我们优化的模型架构和推理加速，现在以更小的模型拥有更快的推理速度，出图速度在10秒内。

像做这种3D漫画生图，还有2D分镜生图，效果基本上在国内生图里是第一梯队。像做真人剧的时候，这种生图，人的肌肤纹理质感、表情的细腻程度、光影都达到了商用。

下面是新模型预热，我们迭代后会在这几个指标上加强。因为我们有更多的多模态数据和强化学习训练，在画质、声音、动态表现，风格化生成和一致性控制这些维度都大幅提升。

另外，模型的功能层面也有更强的能力，更适配短漫剧的创作流程，包括首尾帧生视频，还有九宫格分镜生视频、还有主体与音色参考，视频编辑支持对全局或局部元素的编辑，视频复刻是时序特征迁移，支持参考视频中动作、特效、运镜、风格的复刻。

对于整个漫剧创作来说，我们能力的提升意味着更高的可控性，还有更大的创作空间，能够让创作者做出更精彩的内容。

下一步看一下短漫剧的实践。其实这部分对于大部分漫剧公司来说，是很成熟的工作流。当大家工作流都相同的情况下，如何能在工作流中生成更好的内容？

用文本模型Qwen3-Max在整个小说内容中提取出角色、场景，并生成分镜故事板，在这个环节中，我们通过强大的文本处理能力，将小说分镜的画面描述、人物的对话，还有生图的Prompt都结构化生成，通过生成角色图、场景图作为资产，再使用图像编辑模型生成分镜图，使用好的图像编辑模型能更好的把控整个分镜环境质感。最后在用图生视频，可以用到Wan2.2或者是2.6首帧生视频、R2V，最后一步去做剪辑、合成和添加解说。

整个工作流里，如果能每个环节用到SOTA模型，整个画面内容会有更好的体验。

下一个是我们「Wan2.6万物可主演：典型创作流程」，现在不光可以参考视频生成结果，还可以多图参考。传统生成一个角色设定图、道具设定图、场景设定图，三张图生成一个分镜片段，或者三个参考视频，参考视频维度会更加立体，把声音一起作为参考。

这是一个「典型创作流程」，比如角色设定图有两个人物、道具加场景，用R2A后就能够生成一个视频。看了这么多漫剧行业客户用AI后，现阶段AI核心是剧本创作和漫剧制作，尤其剧本创作，是通过大量网文IP以文本模型进行剧本改写，包括剧本分镜生成，到漫剧制作环节，这个环节中的分镜生成部分是最为重要的，且需要由分镜师去观察整个分镜生成情况，效果不符合要求需要重新生成。