Adobe Tri-Prompting：三指令实现AI视频场景角色动作操控突破|tri|信号|动作|操控|移动

2025年3月，来自Adobe Research和罗切斯特大学的研究团队在顶级会议上发表了一项突破性研究成果。这项发表于arXiv预印本服务器（论文编号arXiv:2603.15614v1）的研究，为视频制作领域带来了革命性的变化，让普通人也能像导演一样精确控制视频中的每一个细节。

当今的AI视频制作就像是一把只能开关的电灯——要么全亮要么全暗，缺乏精细调节的能力。虽然现在的视频生成技术已经能制作出画质精美的视频，但想要精确控制视频内容却异常困难。这就好比你想做一道精美的菜肴，但只能选择"做菜"或"不做菜"，却无法控制用什么食材、什么火候、什么调料。

Adobe研究团队发现，真正的视频制作需要解决三个核心问题：场景在哪里发生（Where）、谁是主角（Who）、以及他们如何移动（How）。这就像讲故事的三要素——地点、人物、情节。现有的技术往往只能处理其中一个方面，就像一个厨师只会切菜却不会调味，或者只会调味却不会掌握火候。

为了解决这个问题，研究团队开发了名为"Tri-Prompting"的新框架。这个名字中的"Tri"意味着"三重"，指的是三种不同类型的控制指令：场景控制、角色控制和动作控制。这就像给视频制作配备了三把钥匙，分别能打开场景设计、角色塑造和动作编排的大门。

一、场景与角色的完美融合：从单一视角到全方位立体呈现

传统的AI视频制作面临着一个根本性挑战：如何让虚拟角色在真实场景中自然地生存和移动。这就像把一个只在照片中见过的朋友请到你家里做客——你知道他长什么样，但不知道他从不同角度看起来如何，也不知道他会如何在你的客厅里走动。

Tri-Prompting的第一个创新在于解决了多视角角色一致性的难题。以往的技术只能从一个角度认识角色，就像只看过某人的正面照片。但现实中，当这个人转身、侧面、背面时，传统技术就会"认不出"他们，甚至可能生成完全不同的人。

研究团队采用了一种巧妙的解决方案：他们让AI系统同时学习一个角色的多个视角，最多可以接受三张不同角度的参考图片。这就像给AI提供了一个人的正面照、侧面照和背面照，让它对这个角色有了全方位的认知。当需要生成视频时，无论角色如何转动，AI都能保持角色外观的一致性。

更令人惊叹的是，系统还能智能地处理角色与场景的交互。当一个角色在咖啡厅里走动时，AI不仅会保持角色的外观一致，还会自动生成合理的阴影、反射，甚至让角色的衣服随着走动自然摆动。这种自然的交互效果，让虚拟生成的视频看起来就像真实拍摄的一样。

研究团队还开发了一种两阶段训练策略。第一阶段专注于让AI学习如何将不同的角色准确地放置到各种场景中，并保持角色的身份特征。第二阶段则加入了动作控制，让角色能够按照指令移动。这种分层学习的方法，就像先教孩子认字，再教他们写作文，确保每个基础能力都扎实掌握。

二、双重动作控制：背景与前景的精密协调

Tri-Prompting最具创新性的特点在于它的双重动作控制系统。传统技术在处理视频中的动作时，往往把整个画面当作一个整体来处理，这就像用一把大刷子给整幅画上色，无法精确控制细节。

研究团队意识到，视频中的动作其实分为两种截然不同的类型：背景的变化（主要来自摄像机的移动）和前景角色的动作（如走路、转身、挥手等）。这两种动作的性质完全不同，就像交响乐中的弦乐部分和打击乐部分，需要用不同的方法来指挥。

对于背景动作的控制，团队采用了3D追踪点技术。这种技术能够精确记录场景中各个位置的三维坐标变化，就像在真实世界中放置了无数个看不见的传感器，实时监测每个位置的移动轨迹。当摄像机向左移动时，画面右侧的物体就会相应地向右边移动，所有这些变化都能被精确捕捉和重现。

然而，对于前景角色的动作控制，3D追踪点就显得力不从心了。因为角色的动作往往涉及复杂的身体变形、衣物摆动、甚至情绪表达，这些都无法用简单的点坐标来描述。因此，团队开发了一种全新的控制方法：低分辨率RGB网格。

这种方法的巧妙之处在于"模糊的精确性"。团队故意将角色的控制信号降低到很低的分辨率（比如70×70像素），这样做的效果就像用马赛克来描述角色的大致位置和姿态。这种"模糊"的信号只能告诉AI角色大概在哪里、大概是什么姿势，但具体的细节（如面部表情、衣物褶皱、毛发飘动等）则完全交给AI的创造能力来补充。

这种设计理念解决了一个关键问题：如何在保持控制精度的同时，让生成的动作看起来自然流畅。如果控制信号过于详细，生成的动作会显得僵硬机械；如果控制信号过于模糊，又无法准确执行指令。低分辨率RGB网格恰好找到了这个平衡点，既能传达明确的动作意图，又给AI留下了足够的创作空间。

三、智能化的推理策略：在控制与自然度间寻找平衡

即使有了精密的控制系统，如何在实际生成过程中应用这些控制信号仍然是一个挑战。研究团队发现，如果始终以最强的控制力度来约束AI，生成的视频虽然会严格按照指令执行，但动作会显得不自然，就像木偶戏中的人物动作一样僵硬。

为了解决这个问题，团队开发了一种动态调节策略，称为"ControlNet尺度调度"。这个策略的核心思想是在视频生成的不同阶段采用不同强度的控制。在生成的早期阶段，使用较强的控制力度确保大体框架正确；随着生成过程的进行，逐渐降低控制强度，让AI有更多自由发挥的空间来添加自然的细节。

这种策略就像教孩子学骑自行车：开始时大人紧紧扶着车后座，确保方向正确不会摔倒；随着孩子逐渐掌握平衡，大人的手逐渐放松，最终完全放开让孩子自由骑行。这样训练出来的骑行技巧既安全又自然。

具体来说，系统在50个生成步骤的前10步使用完整强度的控制（强度值为1.0），然后线性递减到0.005的最小值。这种调节让角色的动作既能准确执行指令，又能表现出自然的微妙变化。比如，当指令要求角色向前走时，强控制阶段确保角色朝正确方向移动，弱控制阶段则让AI自动添加自然的步态、手臂摆动、衣物摆动等细节。

四、革命性的应用场景：从插入到操控的全方位视频制作

Tri-Prompting开启了视频制作的全新可能性，让普通人也能实现以前只有专业电影制作团队才能完成的复杂操作。这些应用可以分为两大类：角色插入和场景操控。

在角色插入应用中，用户可以将任何角色放置到任何场景中，就像拥有了一个神奇的"传送门"。想要让一只泰迪熊出现在时代广场吗？或者让一个宇航员在古代战场上漫步？这些看似不可能的组合现在都能轻松实现。更重要的是，插入的角色不会显得突兀，AI会自动处理光影、比例、交互等细节，让虚拟角色看起来就像真的属于那个场景。

在场景操控应用中，用户可以像导演一样精确控制现有视频中的元素。如果你有一张包含多个人物的照片，现在可以选择其中一个人，让他按照你的意愿移动、转身、甚至表演特定动作，而其他人物和背景保持不变。这就像拥有了时间操控的超能力，能够重新导演已经发生的场景。

团队还开发了一个直观的键盘控制界面，让用户能够像玩游戏一样实时控制角色和摄像机。用户可以用方向键控制角色移动，用其他按键控制摄像机的角度和距离。这种交互方式让视频制作变得像玩《模拟人生》游戏一样简单有趣。

更令人惊叹的是，系统能够处理极端的视角变化，比如360度旋转。传统技术在处理大角度转动时往往会产生严重的失真或者角色身份混乱，但Tri-Prompting通过多视角学习和智能插值，能够保持角色在任何角度下的身份一致性和视觉质量。

五、技术验证：全面超越现有最佳方案

为了证明Tri-Prompting的优越性，研究团队进行了大量对比实验，选择了两个代表性的竞争对手进行详细比较：DaS（专门做动作控制）和Phantom（专门做角色控制）。

在动作控制的精确性测试中，团队使用DAVIS数据集进行视频重建任务。这就像给不同的AI系统播放同一段视频的第一帧和动作轨迹，看谁能更准确地重建出原始视频。结果显示，Tri-Prompting在PSNR（峰值信噪比）指标上达到16.5130，显著超过DaS的16.4916；在LPIPS（感知图像质量）指标上达到0.2395，也明显优于DaS的0.2725。

更重要的是，在处理极端动作时，Tri-Prompting表现出了明显的优势。当人物进行大幅度转身或者身体部分被遮挡时，DaS往往会产生幻觉，凭空创造出不存在的细节或者扭曲人物形象。而Tri-Prompting通过多视角参考图像，能够准确恢复被遮挡部分的真实外观，比如背部的文字图案或者被遮挡的服装细节。

在角色身份保持方面，团队设计了多维度的评估体系。使用DINO和CLIP两种不同的特征提取方法来评估生成视频中角色与参考图像的相似度，结果显示Tri-Prompting在所有指标上都超越了Phantom。特别是在3D一致性测试中，Tri-Prompting的对齐误差为0.025，比Phantom的0.034降低了26.5%，这意味着生成的角色在三维空间中的形状和位置更加准确稳定。

团队还进行了大量的消融实验来验证各个设计选择的必要性。实验证明，使用三张多视角参考图像比使用单张图像在所有评估指标上都有显著提升。双重控制信号（3D追踪点+低分辨率RGB）比单独使用3D追踪点效果更好。两阶段训练策略也被证明是必要的，每个阶段都对最终效果有不可替代的贡献。

六、数据效率与泛化能力：小数据集实现大突破

Tri-Prompting的另一个令人惊叹的特点是其极高的数据效率。在AI领域，通常需要海量数据才能训练出高质量的模型，这就像学习一门语言需要阅读大量文章。但Tri-Prompting打破了这个常规，仅用11,000个训练样本（总计不到7小时的视频）就达到了卓越的性能。

相比之下，其他类似系统如Matrix-Game 2.0需要超过120,000个训练步骤和800小时的视频数据。这种差异就像一个学生用一本教科书就掌握了别人需要一整个图书馆才能学会的知识。这种高效性主要归功于Tri-Prompting巧妙的架构设计和分层学习策略。

训练数据主要来自两个源头：9,700个游戏视频片段（来自OmniWorld-Game数据集）和1,300个真实世界视频片段（来自CO3D数据集）。这种多样化的数据组合让系统既能处理风格化的虚拟内容，也能应对真实世界的复杂场景。

更令人印象深刻的是系统的泛化能力。虽然主要在游戏视频上训练，但Tri-Prompting能够成功处理动漫、电影、真实照片等各种不同风格的内容。这就像一个在中式厨房学会烹饪的厨师，却能成功地制作意大利菜、法国菜甚至墨西哥菜。这种跨域泛化能力表明，系统学到的不仅仅是表面的视觉特征，而是更深层的运动规律和视觉一致性原则。

在实际应用中，用户只需要提供一张场景图片、最多三张角色参考图像，以及通过简单的键盘操作录制的动作控制信号，就能生成高质量的49帧视频（分辨率832×480）。整个过程在8张A100 GPU上大约需要5分钟，虽然还不能做到实时生成，但已经比传统的专业视频制作流程快了几个数量级。

七、技术局限与未来展望：完美路上的小瑕疵

尽管Tri-Prompting取得了突破性进展，但研究团队也诚实地指出了当前技术的一些局限性。这种诚实的科学态度让这项研究更加可信和有价值。

最主要的局限在于处理高度对称的角色时可能出现的身份混淆。当一个角色的正面和背面看起来非常相似时（比如某些卡通角色或者穿着统一制服的人物），系统在处理大角度转动时偶尔会出现短暂的方向错乱。这就像一个人从背后看起来和从正面看起来一模一样，观察者很难确定他到底面向哪个方向。

不过，这种问题通常只会持续几帧，而且可以通过提供更具区分性的参考视角来缓解。比如，如果角色的侧面有明显的特征（如徽章、图案或者不对称的设计），系统就能更准确地保持方向一致性。

另一个局限是当前系统主要针对离线生成设计，还无法实现真正的实时交互。虽然5分钟的生成时间相比传统方法已经非常快，但要实现游戏级别的实时响应还需要进一步优化。研究团队提到，可以通过其他视频生成加速技术来缩短这个时间。

此外，当前的用户界面虽然比专业软件简单很多，但对于完全没有技术背景的用户来说仍然可能需要一些学习。不过，随着技术的成熟和用户界面的进一步优化，这个门槛会继续降低。

研究团队对未来的发展方向也有明确的规划。首要目标是进一步提升生成速度，朝着实时交互的方向发展。这将为游戏、虚拟现实、在线教育等领域带来革命性的变化。同时，他们也在探索支持更复杂场景的可能性，比如多个角色的同时控制、更精细的情绪表达控制等。

长远来看，Tri-Prompting代表的这种"分解控制"思路可能会成为未来AI视频生成的标准范式。通过将复杂的视频生成任务分解为场景、角色、动作三个相对独立但又相互协调的部分，不仅提高了控制精度，也为后续的技术迭代提供了清晰的优化方向。

说到底，Tri-Prompting就像是给视频制作装上了一套精密的操控系统，让普通人也能像专业导演一样精确控制视频的方方面面。虽然还有一些小瑕疵需要完善，但它已经为我们展示了未来视频制作的美好前景。无论是想要制作个人创意视频的普通用户，还是需要高效生产内容的专业团队，都能从这项技术中受益。更重要的是，它降低了视频创作的门槛，让更多人能够表达自己的创意和想法，这对整个创意产业来说都是一个积极的变化。随着技术的不断完善和普及，我们有理由相信，未来的视频制作会变得像写文字、画图画一样简单自然。对于那些对技术细节感兴趣的读者，可以通过论文编号arXiv:2603.15614v1查询完整的技术文档，深入了解这项令人兴奋的研究成果。

Q&A

Q1：Tri-Prompting需要什么样的硬件配置才能使用？

A：目前Tri-Prompting需要8张A100 GPU来生成一段49帧的视频，耗时约5分钟。这种配置主要面向专业用户和研究机构。不过研究团队提到可以通过其他加速技术降低硬件要求，未来普通用户也有望通过云服务等方式体验这项技术。

Q2：相比现有的AI视频工具，Tri-Prompting的最大优势是什么？

A：Tri-Prompting的最大优势是能够同时精确控制场景、角色和动作三个方面，就像拥有三把钥匙分别控制视频的不同元素。现有工具通常只能处理其中一个方面，比如DaS只能控制动作但容易出现角色失真，Phantom只能控制角色但缺乏动作控制。Tri-Prompting还能保持角色在360度旋转等极端动作下的身份一致性。

Q3：普通用户可以用Tri-Prompting制作什么类型的视频？

A：用户可以制作两大类视频：一是角色插入类，把任何角色放到任何场景中，比如让宠物出现在电影场景里；二是场景操控类，对现有照片中的人物进行动作控制，比如让静态照片中的人物走动或转身。整个操作过程类似玩游戏，用键盘控制角色和摄像机，不需要复杂的技术知识。