AI视频生成的场景痛点及产品功能设想（7000字）_@Sean|ai|产品功能|工作流

本文作者是产品经理@Sean ，是咱们社群「AI产品经理大本营」成员；过去4个月，他mapping了行业内所有AI视频相关产品和公司。

Sean 最近正在求职“AI产品经理”，AI视频方向，城市不限；有相关招聘需求的公司/部门，可以加ta微信，详见文末二维码。

本文分四个部分：

一、核心用户画像、场景及痛点需求分析

二、（重点）视频生成产品的功能形态设想：从C端普通用户、C端专业用户及B端用户（以电商广告为例）三方面，分别阐述P0和P1级功能思考

三、视频生成产品中，AI产品经理的价值及核心工作是什么

四、“广告营销类”AI视频生成产品mapping汇总（含优劣势分析及优秀视频案例捕捉）

核心观点包括：

激发AI视频长期需求：目标用户应关注原本不拍、不剪视频的普通大众。在短剧、生活记录类视频的基础上，利用AI制作动效，可能是AI视频的长期需求。
Tob广告营销类视频：包含视频素材生成、端到端视频生成两类，重点在于设计好Agent工作流，并针对不同产品品类训练、调优模型。
优先将常用功能做出差异：先开发、优化常用功能，做出差异化亮点（如对口型、人物一致性），再融入其他功能，最终覆盖完整视频创作流程。
AI视频新奇玩法模块化：封装AI视频新奇玩法为单个功能，如老照片动效功能、续写梗图剧情功能。用Agent工作流来增加视频成功的概率，并在功能上增加用户引导。

一、视频生成产品的用户、使用场景及需求1.1 C端用户

普通用户

低制作门槛：无专业剪辑知识，也不愿花大量时间成本学。
满足猎奇心理：制作趣味视频（如老照片动效），分享给家人、朋友。

专业视频制作师

创意需要：对视频质量有较高要求，希望AI能激发创意。
提效需求：交付有截止日期，希望AI能在保证质量的前提下，加速视频制作。
合规性和版权问题：广告视频需遵守严格的合规要求，特别是素材版权问题。

1.2 B端用户（以电商广告用户为例）

用户画像：理解业务需求，清楚需要的内容样式。但不擅长制作精美的视频，核心关注视频的转化效果。

用户需求：

预算限制：传统视频拍摄和制作成本高，视频制作有预算额度。
内容质量高：需能展示产品卖点、符合品牌营销策略，还需具备传播性和营销效果。
快速大量生产：需要在短时间内制作、测试不同风格的视频。例如：美国的黑五期间，店家可能需要上千条视频素材，而传统视频制作流程复杂，难快速大量生产。

二、个人对AI视频产品形态的思考2.1 针对C端普通用户

普通用户对AI视频的消费需求，可能带来AIGC内容平台型机会（类抖音），但现实情况是：针对短期猎奇需求，大部分用户没用起来。很多人更愿付费购买“老照片动效成品”，而不是自己使用即梦、Runway等工具。

长期来看，用户对AI视频容易失去新鲜感。当前AI视频更多像动态PPT，镜头间不够连贯，质量不如生活实拍效果，更难与影视类的作品相比。用户更想看的是优质的、记录生活的，能引起情感共鸣的内容。

如何破局？

第一阶段：让普通用户，方便的用起来AI新奇功能（类似老照片动效），对应功能P0-1、2、3。

第二阶段：激发、满足长期需求，让用AI辅助视频创作成为长期现状，对应功能P0-4。

普通用户难用起来的原因：

（1）缺乏基础了解：不清楚AI能力，觉得复杂高深，没有很强的尝试意愿。

（2）不了解AI本质是预测和概率：有的用户试了一次效果不理想，就觉得功能不行，不再使用。

（3）现有产品功能有使用门槛：视频生成Prompt撰写，AI精准生图，视频可控性功能（如首尾帧、动态笔刷）都有一定的学习成本。产品大多也要付费、申请内测等。

解决方案

核心是给予用户引导及例子。从Prompt扩写、功能模块化、给例子促灵感三个角度考虑。

整体思路优先开发技术较为成熟，但仍需改进的功能，做出差异化亮点（如对口型和人物一致性），再融入其他功能，最终覆盖完整视频创作流程。

P0级功能设想

P0-1：Prompt模板化、提供扩写

背景：不同产品推荐的Prompt格式和支持的内容不完全一致。例如，都支持风格描述，但支持的具体风格不同，这可能是由训练视频的文本描述格式不一致导致。

具体功能：在产品里内嵌Prompt模板或提供Prompt扩写功能。用户只需填空，例如【主体】+【动作描述】+【环境背景】+【风格】+【画面质量】。每项给出产品支持的种类及含义，如风格选项及效果演示。如下实例嵌入产品中：

AI对完成prompt扩写并生成视频后，用户如不满意，可选择让AI在保持用户输入主体上，多次随机生成完整prompt，并提供视频效果。用户可再做二次加工。

作用：降低用户使用门槛。用户有时只对于画面主体有想法，但怎样演绎效果更好，可能需要AI通过多次扩写prompt给到灵感，充分挖掘视频生成能力。

P0-2：AI视频新奇玩法功能化

背景：用户对文生视频、图生视频这样的功能名词，感知不如「老照片互动」、「我来设计梗图后续剧情」这类具体能做什么的名词强。目前，用户往往需要搜索教程才会使用。

具体功能：将AI视频新奇玩法封装为一个个功能。例如老照片动效、电视剧梗图（如容嬷嬷喂小燕子吃鸡腿）。用Agent工作流来增加视频成功的概率，并在功能上做用户引导，提醒用户可能需要多试几次、有合规风险等。

以老照片互动为例，通过人像抠图、背景融合等工作流节点，提升功能效果，给予用户操作教程指导，可能介绍哪些互动关键词，能让视频效果更好。

P0-3：灵感探索站

背景：仅有产品使用教程不够，用户需要更多案例来引导创作。

具体功能：提供大量新奇，好玩的素材样例。同时提供案例背后的模板，用户可直接套用，或在此基础上做二次创作。类似Morph studio的功能（下图）。

作用：完整故事的制作依旧比较复杂，二创相对容易很多。同时灵感探索站本身也可以是AIGC视频内容消费平台。

P0-4：AI辅助视频剪辑

背景：为避免用户过了新鲜劲后，就不再看AI视频的情况。找到并激发AI视频的长期需求很重要。应关注原本不拍、不剪视频的普通大众，因AI降低了操作难度而开始使用。用AI制作动效或视频图层，是可能存在的长期需求。

具体功能：AI制作动效或者视频图层，例如视频中的AI生成彩色蝴蝶。这些功能也可用于短剧，MV制作。

作用：实现目标用户的破圈，AI（虚拟）+现实视频的结合。既用到了AI视频能力，又满足了普通用户消费“真实生活内容”的需求。

P1级功能设想

P0的需求，核心目的是让普通用户能够用起来。而P1的需求，是能让普通用户觉得AI视频生成好用，实现可能还需技术进步。关于“好用”，我理解包括：功能多样明了（对应功能P1-1）、更简便的可控（对应功能P1-2）以及流程简化（对应功能P1-3）。

P1-1 融合多种视频技术

背景：当下AI视频技术种类繁多，例如数字人、对口型、表情控制、图+人跳舞、换脸、视频生成等。不同的技术对应不同产品、模型。但对于普通用户来说，可能会觉得都是视频。

具体功能：将多种AI视频技术融合到同一产品内，统一整合，用户提出需求后，引导用户具体使用某个功能。

P1-2 视频内容定向修改

通过输入Prompt调整视频内元素。每次用户输入修改指令后，跳出详细的Prompt让用户确认，类似视频中的图像重绘功能（或是Pika视频内容修改功能的升级版）。

除修改视频内人物、物体外，还可通过Prompt修改对话脚本，加上用克隆的原声重新配音及对口型等功能，类似Vozo

现有的视频内容难以支持定向修改，往往一点效果不好就必须重新生成，导致视频抽卡的时间、算力成本高、整体体验不佳（可能受限于现用的 DIT - Diffusion Transformer 框架，视频是一次性完整生成的）

P1-3视频端到端全自动生成

用户只需输入几个关键词（如故事主题、风格、剧情特色等），系统就能生成一个故事脚本。用户调整或确认脚本内容后，扩写每一幕场景Prompt。再生成视频，视频默认风格、人脸一致，人物对话、旁白有音效，且对好口型等。真正做到山姆奥特曼所说“电影变成了游戏”，技术上可能还有距离。

2.2 针对C端专业视频制作师P0级功能设想

专业设计师、剪辑师，已有成熟的视频生产、剪辑工具，因此需要解决"专业设计师为何要用AI视频产品"的问题，在AI生成质量尚未达到非常高水平的背景下，关键词是“提效和可控”。

P0-1 更多细项常用功能：

例如风格、人脸保持一致，在当前视频制作工作流中，单个的视频只有几秒，为剧情连贯，需抽图实现人脸、风格一致。如能一键定义人脸、风格，能省不少时间。类似Pixverse V2的加场景功能（人像、风格一致性）以及MOKI的风格、角色选择功能。

其他常用功能有很多，例如视频内定向换脸，对口型功能，镜头平移但物体不变形等等，目的都是为了提效。

P0-2 更多内容元素可控：

除了上面内容元素可控外，还包括视频风格、运镜、帧率、清晰度、表情、背景、光影、图层、音频等等也可控，最终不需绿幕就能实现近似专业影视效果。

当前AI视频一大痛点是对物理世界的规律和Prompt的理解不足。增强视频的可控性，可一定程度上解决这些问题。同时也能帮助提效，避免频繁抽卡。视频各项元素越精细化可控，制作效率越高，专业制作人更可能使用。

这些常用功能看起来已有很多产品在做，但核心是做出差异化，有不同实现方法或者更好模型效果。在完成亮点功能的MVP后，再考虑其他P1级功能，逐步完善产品。例如，可控性方面，Runway做横纵斜方向的运动笔刷，Pixverse功能上支持以箭头设定运动方向，寻梦则预告实现对图层的控制。

另外，这些功能或许应从海外专业用户开始付费推广。当前AI生成视频产品有算力成本，而海外用户付费意愿较高，类似Midjourney、Pixverse等产品，优先在Discord版推出并收集用户反馈。先向海外专业用户推广，再相应调整定价策略、产品功能，更有助于实现正向ROI。

P1级功能设想

覆盖AI视频生成全流程：包括生成剧本-生成分镜表-生成图片提示词-挑选图片-图生视频-挑选视频-剪辑视频等等，用户可对每个步骤做进一步修改，例如分镜表中调整某一幕的运镜，视频效果也相应调整。
支持功能协作：允许多人对一条工作流进行加工，并提供权限控制。
素材管理、剪辑功能：便于组织和管理各类素材。支持强大的剪辑功能，类似剪映、Pr。

专业用户在生成完整视频作品时，需要大量视频相关工具（包括剧本生成、补帧、高清化等等），可以将这些功能融合进产品。

此外，一个大的作品背后是大量素材（图片、短片），以及多人的协作（P1-1、2）和专业的剪辑，需要素材管理和剪辑功能。

2.3 针对B端用户（以电商广告为例）

对于B端用户来说，视频创作效率与质量至关重要，视频需真实还原商品，体现商品卖点，符合品牌调性。然而，当前生成式视频在可控性、时长上存在短板，容易出现AI痕迹。商拍广告流量成本又较高。因此，普遍更多使用质量可控、能快速大量生成的数字人、混剪和相册类视频，较少使用Sora类视频生成。

ToB视频生成的核心内容包括“视频素材生成”以及“端到端视频生成”，核心都在于设计好Agent工作流，并针对不同产品类型训练和调优模型。

P0级功能设想

虽然视频生成技术还不成熟，但在tob领域也有应用，视频在吸引客户的效果上，很多时候比图片更好，但需要运动幅度小，时长短，效果可控。

动态微视频：将图生视频的能力固化为功能，用户可上传图片，生成动态微视频。例如在试衣视频中，用户可上传自己的照片或选择模特照片，生成试衣视频。

要实现这部分能力，需要更好的Prompt扩写功能及Agent工作流（融合好运动笔刷效果）。

端到端混剪视频生成：

通过用户提供的宣传关键点、图片、视频素材，生成相应的脚本文案、字幕、动效。工作流包括：产品亮点素材挖掘、配乐选择和模板选择等。例如试衣视频，涉及抠图、上身、更换背景、生成动效等步骤，根据商品类别提供多种混剪模板，生成凸显产品亮点的混剪视频。

需设计好Agent工作流，通过Agent来增加每个步骤的成功概率，可能需要对不同品类的商品，做定向模型训练。例如，介绍椅子时，先介绍面料、人体工学，从功能到整体，最后细节展示，而这套流程可能不适用于鞋类或衣服。

同时，需要根据用户反馈，持续迭代模型及产品。例如，针对衣服的宣传，如果褶皱飘动效果不自然，可能在调优模型时，需要补充优质的衣服褶皱、飘动数据。

P1级功能设想

后链路数据监控，记录不同视频内容带来的品牌增粉，下载，注册等。
产品能让视频附带营销关键信息，例如地理位置、留资链接等。
视频多账号管理，批量分发视频功能。

后链路数据的效果监控，以及让视频附带营销关键信息对转化非常重要。此外，商家和公司往往有多个自媒体账号，可能由不同员工负责，需有效管理这些账号，确保视频内容符合品牌调性。

三、在视频生成产品中，AI产品经理的价值及核心工作是什么

我认为核心工作是：找到在当前AI技术能力下，以前满足不了（或不够好），但今天能满足（或能更好）的功能点。具体包括：

找到限制条件下最优解

当前的一些视频功能，需要同时兼顾算力消耗、质量、用时三个维度，用户希望生成用时少的基础上，保持高质量。这需要产品经理做出取舍。

需求挖掘和功能设计

AI产品经理依旧需确定要实现什么功能，这个新的功能可能是由数据集、Agent工作流、RAG等等实现的。但更重要的是明确为什么要这个功能。一切以需求为核心，这也意味着，并不一定要完全AI来实现，更多应关注用户需求怎样能被更好的满足。

模型能力的提升

具体包括：（1）针对目标场景，清楚模型哪里还不够好（2）清楚可以给技术侧，怎样的支持帮助调优

通过专业的视频评测方法，例如VBench（），结合不同用途人群的反馈来调优模型。广告设计师、自媒体、影视设计师对视频模型能力，关注重点可能不同，包括：人物质量，动作连贯性，商品效果不佳（褶皱，摆动不自然）等。在确定最先应解决的问题后，才能针对提升模型效果。

识别到问题后，除和开发沟通算法架构的提升外，也需考虑训练数据的质量问题。比如训练数据里的Prompt没有描述清视频里的多主体，才导致多主体表现效果不佳。增补优质训练数据的同时，也考虑调优数据造、挖、洗这整一条数据加工流程。

四、“广告营销类”AI视频生成产品mapping汇总（含优劣势分析及优秀视频案例捕捉）

笔者汇总了在AI视频生成领域内的，广告营销相关的各种产品（38个），根据其核心功能和特性进行了分类，并做了优劣势分析。

这些产品的详细信息，笔者已整理成表格Excel

该资料的获取方式：添加助理乐乐微信（lelegirl721），回复“AI视频”即可

根据这些产品的核心功能，主要对以下4类：视频大模型、数字人、多种类AI视频组合、端到端解决方案，挑了部分产品在本文做简要介绍。

4.1 视频大模型

以Sora为典型代表，仅输入简单文字提示或者图片，就可通过模型生成视频，以下选取了在各项评测中，排名较高的产品。

4.1.1 Pixverse

核心功能包括：

多种生成方式：支持图生视频、文生视频、图+提示词生视频，适用于创作故事和制作广告。
动态笔刷：通过在图片上画箭头，用户可自定义物体移动方向。图生视频凭借类似功能，能实现比文生视频更好的稳定性。

风格设置：用户可选择视频风格，包括写实风格、动漫风格、3D风格等。
角色一致性控制：可通过上传角色的照片，较好的控制视频一致性。该功能对于影视类广告、剧情类广告效果很重要。

4.1.2 Pixeling千象

一款全中文、易上手的AIGC创作平台和社区。注重用户友好和简单操作，帮助用户零基础轻松使用一站式功能。核心功能包括：

文生视频、图生视频、运动幅度设置、视频横纵比设置、镜头控制等。
电商百宝箱（E象）：提供了专门为电商设计功能组，包括商品视频模板和多种实用的电商图片处理工具。

优秀视频效果

4.2 多种类AI视频组合4.2.1 布尔向量（BOOLV）

将出海、海外电商用户可能用到的许多功能，都集成到同一个产品上，提供从商品链接到视频生成，再到效果分析的全链路支持。

核心功能包括：

电商链接一键生成视频：用户可通过输入电商平台（如 Shopify、Amazon等）商品链接，快速生成相关视频。
多种视频生成方式：支持从图片、脚本、博客内容和模板生成视频，并提供视频增强功能。这里与视觉大模型不同点在于，布尔向量的成品更像是各类模板视频、移动相册图的排列组合。

提供方便简洁的视频剪辑工具。

提供视频效果分析工具，商家可凭借效果数据，更好的调整和优化视频内容。

官方功能介绍

产品优势

场景适配度高：BOOLV专门面向电商用户。模型本身对电商场景和品类做了微调，在功能上，覆盖了许多海外电商用户“生成营销内容场景”。
稳定性高：由于视频依赖于模板和图片轻微移动、镜头平移，布尔向量的视频稳定性和一致性更高。
形式多样：布尔向量和广州美院合作，制作了大量针对各类场景，有艺术气息的模板，并支持多种元素（如音乐、字幕、特效、贴纸）的组合，使得视频内容更加丰富有趣，效果不单一。

4.2.2 其他同类产品

Creatify：能够自动分析产品信息，并生成脚本。提供了多样化的语音选项和数字人。

特看：不仅提供视频制作功能，还包含视频效果数据监控和各类榜单（如达人榜、商品榜、视频榜、话题榜），商家可结合这些榜单效果，判断爆款商品、视频类型。此外，支持AI直播相关功能。

这类产品由于功能更加丰富，不局限于某一种技术路线。且覆盖了出海电商视频制作中各场景需求，使得电商视频制作效率大大提升。

4.3 数字人Heygen

核心功能包括：

数字人克隆：用户可上传自己的声音和画面，来克隆一个数字化的自己。这使得个人和企业能快速生成与自身形象相符的数字人。
允许用户通过上传照片，或选择预设模板来生成数字人。支持语言翻译，保持口型一致。

优势：

操作简单快捷：技术相比视觉大模型来说更成熟，不需要许多后期剪辑技巧，用户可轻松创建适用各种场景的商业视频。
多语言支持和本地化：提供换语言及调整口型功能，有非常大的用户群体。本地化的内容对营销效果来说，可以极大的增加可信度和营销效果。

劣势：

产品价格高：生成1分钟的视频需要2美金。与传统拍摄方案相比，价格不算高。但由于算力消耗方面的考虑，HeyGen编辑视频的过程无法预览效果，用户在制作过程中需要反复调整，会重复支付费用。
AI感比较明显：虽然Heygen的产品能力在数字人领域，已处于领先的状态，但数字人技术的局限性依旧存在，视频不够生动、声音略机械、肢体动作较少、缺乏情感等等，长时间看到同类视频后，用户容易发现不是真人。对消费者来说形式依旧偏单一。

数字人类产品非常多，包括用D-ID、Elai、奇妙元等。总体而言，通过数字人技术，可较低成本的，短时间内制作出大量营销视频，如果视频中需要人做产品介绍，而商家自己又不想出镜，是可以大体满足需求的。

4.4 端到端解决方案FancyTech

与其他同类产品的不同点在于，不提供视频生成工具，而是转向提供结果。FancyTech联合创始人Morgan表示，传统SaaS订阅费并不能免除提供商与客户持续互动的责任，这使得服务交付成为业务的重要组成部分，避免过多的产品定制化。

根据布尔向量CEO王庆描述：

“现有电商商家主要分为两类，一类用户是研发能力很弱，相对比较传统，但他们业务体量可能很大；第二类客户的话相对比较年轻，然后他们有比较好的研发能力。这两类客户商业模式不太一样。

针对第一类客户来说，他们更多是希望你能做交付。因为缺乏研发能力，做部署化 SaaS 和交付就会比较好。第二类客户会更加希望做共创。比如给到 API，在业务流的某一个环节给到支撑。

FancyTech类的服务，可以满足第一类客户的需求。我相信随着技术的不断升级，用户结合相应产品制作视频的成本不断降低，会有越来越多的第二类客户。

五、个人介绍及联系方式

3年工作经验（含2年车企数据产品运营、1年车企管培），公司2023团队内最佳（前10%），2022管培项目结业S评级（前20%）。
对AIGC视频类、图片类产品有深度研究及使用。过去4个月，mapping了行业内所有AI视频相关产品和公司，并成为《AI产品经理的实操手册》中「AI视频工具」章节的共创负责人（已在社群“AI产品经理大本营”发布，详见 https://t.zsxq.com/E4WtK），并输出本篇长文。
熟悉NLP、ML、AIGC，能与技术团队顺畅沟通。可用各类数据分析软件及方法，独立产出数据洞察报告。
海外硕士，英语能作为工作语言，托福阅读满分（30），听力 29 分。