打开网易新闻 查看精彩图片

本文刊发于《现代电影技术》2025年第12期

专家点评

打开网易新闻 查看精彩图片

刘达

正高级工程师

中国电影科学技术研究所(中央宣传部电影技术质量检测所)总工程师

《现代电影技术》主编

近年来扩展现实(XR)业务发展迅猛,关键核心技术不断突破,消费级和专业级XR软硬件产品及行业应用方案持续推出。与此同时,伴随现代智能科技的迅猛发展和元宇宙(Metaverse)技术的持续深化,一方面人工智能(AI)技术与XR技术加快融合发展,人智协同(Human⁃AI Collaboration)成为研究应用热点和人机交互(HCI)演进趋势,另一方面元宇宙作为集成众多高新技术的复杂生态系统,具有虚实融合和智能交互的核心特征,与扩展现实(XR)业务特征高度契合,为XR产业创新升级提供了广阔空间。人智协同属于人工智能和人机交互的交叉领域,其通过科学有序融合人类和AI系统优势,打破人类与AI算法的信息壁垒,将AI系统无缝集成到人类现有工作流程中,进而有效提升人类与AI系统协同工作的整体质量和效能。构建人智协同模式已成为推动AI在人类社会大规模落地应用的重要途径和有效手段。《基于人智协同的扩展现实技术在影视领域的应用及展望》一文从钱学森先生的“灵境技术”“大成智慧”思想出发,阐述了基于人智协同的扩展现实技术发展演进及其影视行业应用实践,并对面临挑战与演进目标进行了前瞻性分析和展望,对于推动智能时代XR电影与电影级沉浸视听业务发展具有指导和应用价值。电影产业正处在技术发展迭代升级和多元业务融合并进的关键历史方位,要适应智能化和融合化发展大势,积极开展智能体、大模型、人工智能生成内容(AIGC)、具身智能、数字孪生、元宇宙等关键技术研究与行业应用工作,加快构建电影智能化创作生产体系和智慧影院运营服务体系,推进全产业链高效人机协同与高质量人机融合,协同发挥人类优势和AI工具效能,为推动电影产业创新升级和提质增效发挥积极作用。

基金项目

中国科学院计算机网络信息中心青年基金“面向科学数据分析的多模态空间智能交互”(25YF08)。

作者简介

打开网易新闻 查看精彩图片

田 东

博士,研究员,中国科学院计算机网络信息中心先进交互部智能交互实验室主任,中国科学院大学硕士生导师,主要研究方向:人机混合智能、人智协同交互。

武念颖

山西农业大学软件学院大学本科在读,主要研究方向 :人机混合智能、人智协同交互。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

李甜甜

副编审,精品传媒集团副总编辑,《精彩》杂志主编、出版人,主要研究方向:AI在影视视听领域的应用。

王 茜

中国科学院大学硕士研究生在读,主要研究方向 :先进交互与人机混合智能。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

崔 晓

博士,山西农业大学软件学院数据科学与大数据系讲师,主要研究方向:机器学习。

杨 波

博士,中国科学院计算机网络信息中心高级工程师,中国科学院大学硕士生导师,主要研究方向:大数据分析、人机混合智能。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

单桂华

研究员,中国科学院计算机网络信息中心先进交互式技术与应用发展部主任,中国科学院大学博士生导师,主要研究方向:大数据分析,人机混合智能。

摘要

当前,扩展现实(eXtended Reality, XR)技术融合人工智能(AI)、多模态感知与人智协同理念,正重塑影视行业的创作生产、体验与传播范式。本文从钱学森先生“灵境”和“大成智慧工程”思想出发,系统梳理AI与XR技术的融合发展过程,从早期人机模拟到AI深度协同的发展脉络,剖析其以人为核心的“人-机-环境”交互系统构成与共创性、适应性、智能化三大特征,并通过行进式观影、动作捕捉技术应用、文旅活化利用等典型案例,揭示基于人智协同的XR技术在沉浸叙事、角色演化、情感计算与文物数字化中的创新实践。研究指出,当前XR技术仍面临硬件延迟、情感识别精度不足、伦理主体模糊等挑战;未来,基于人智协同的XR技术将沿着多模态AI、具身智能与仿生控制三大方向演进,构建“导演-观众-AI”动态创作三角,实现从工具辅助到系统共生、从线性叙事到演化式生命体验的根本跃迁。中国影视行业有望借此走出文化主导、智能协同的自主路径,开启“东方灵境”时代。

关键词

扩展现实;人智协同;影视行业;人工智能

1

引言

扩展现实(eXtended Reality, XR)技术是虚拟现实(VR)、增强现实(AR)、混合现实(MR)等多种形式的统称,其通过计算机技术和可穿戴设备产生真实与虚拟组合的人机交互环境,本质上是一种以人为核心的“人-机-环境”交互系统构建方案。在当前人智协同(Human⁃AI Collaboration)技术发展大背景下,XR正成为推动应用沉浸化、交互智能化、跨领域生态融合化发展的核心载体,持续重塑人机交互与协同范式。

随着近年来元宇宙(Metaverse)概念和XR技术的兴起,钱学森先生提出的“灵境”概念和“大成智慧”被证实具有超前预见价值,对于当下AI与XR技术融合发展进程具有指导意义。20世纪90年代初,钱学森提出将“灵境”作为虚拟现实(Virtual Reality)的中文译文,认为“灵境”技术采用科学技术手段向接受者输送视觉、听觉、触觉甚至嗅觉信息,使接受者获得身临其境的感受,可用以扩展人脑的感知,使人与计算机的结合达到深层次的、全新的高度[1]。他预言,“灵境”技术是继计算机技术之后,引领人类社会进入“大成智慧”人工智能(AI)世界的又一革命性技术,并亲手绘制导图,阐释其广泛应用可能会引发人类社会的全方位变革。钱学森先生预言,到21世纪后半叶,人机深度融合将极大扩展人类感知,从而产生“新人类”“超人”级体验;“人”(心理意识)、“机器”(计算系统)和“环境”的交互构成复杂开放的“灵境”技术体系。

在当前技术背景下,AI与XR技术的融合发展,真正实现了以人智协同为核心的人机交互,并可支持多感官交互与实时反馈,实现了钱学森先生提出的“灵境”概念的完善与落地。随着人智协同理念的深入,XR技术正推动影视内容生产、传播和消费模式的范式转型,从前期创意、实时制作到后期合成及观众体验,均展现出前所未有的创新潜力。基于人智协同的XR技术不仅拓展了影视内容创作的可能性边界,更为观众带来了前所未有的沉浸式体验,并以前所未有的方式重塑着整个行业生态。

鉴于此,笔者认为,我国自研XR和AI技术体系发展,应传承和发扬钱学森先生“灵境”理念,建立我国在全球智能内容产业中的自主话语体系;影视科技领域也应充分借鉴和应用相关技术,以满足影视产业高质量发展需求。

2

“灵境”技术的完善与应用:基于人智协同的XR技术发展概述

2.1 起源与发展历程

人智协同的XR技术发展历程深刻体现了人智协同理念的演进,其发展可大致划分为4个阶段:第一阶段(1963年以前)为早期人机模拟阶段,主要以有声形动态的模拟系统为代表,初步孕育了虚实共生、人机交互的技术思想;第二阶段(1963年—1972年)为交互体验萌芽期,标志性事件如伊凡·苏泽兰提出终极显示理论,并实现带跟踪器的头盔式立体显示装置[2],为后续人机协同技术发展奠定了理论与技术基础;第三阶段(1973年—1989年)为理论形成与范式转换期,该领域的研究重心开始由单向模拟转向双向协同,初步探索人智共创的可能路径;第四阶段(1990年至今)则是AI与交互技术深度融合阶段,人智协同机制不断完善,实现了用户行为理解、内容趋势预测、协同创作决策等智能化交互功能,并在新一代智能算法的加持下[3],形成了以人智协同为底层逻辑的AI与XR技术融合发展的新型技术体系。

2.2 基于人智协同的XR系统组成

当前,基于人智协同的XR技术形成了融合AI、VR、AR和MR的综合性技术体系,其技术架构不仅涵盖了元宇宙的虚拟世界构建能力和多维度交互体验,更重要的是通过深度学习(DL)、自然语言处理(NLP)、计算机视觉(CV)等信息智能技术的加持,构建了人机间前所未有的协同交互空间。

基于人智协同的XR系统由7大核心模块协同构成:(1)传感器设备模块(含无线感知手套与传感头显)实现精准数据采集;(2)信息转换模块完成数据转换处理;(3)3D场景生成与展示模块支持用户自定义云识别、多目标识别、图片扫描及影视动画渲染;(4)虚拟场景模拟模块通过感知模拟、场景可视化及实景模拟器构建沉浸式体验环境;(5)数据调度与管理模块保障中间数据高效流通;(6)管理与决策模块由管理决策系统、多智能体协同管理、文化认知分析器、智能监控与预警系统组成,通过集成先进的人工智能和多智能体技术,完成基于数据和模型的决策支持、多智能体协同管理和资源分配、识别用户文化偏好并发现潜在问题,从而实现智能决策和文化认知的融合;(7)用户交互终端模块涵盖控制、管理、验证三大终端,最终形成从感知采集到模拟交互的全流程闭环,实现基于人智协同的XR系统的完整感知、模拟、交互与管理功能(图1)。

打开网易新闻 查看精彩图片

图1 基于人智协同的XR系统架构[2]

2.3 基于人智协同的XR技术特征

基于人智协同的XR技术本质特征在于人智协同驱动下的共创性、适应性与智能化。与传统单向模拟的,以人为主体、技术为从属的体验模式不同,其强调人类创意与AI能力的深度融合[4],通过机器学习(ML)、NLP、实时反馈机制等手段,以实现虚拟环境根据用户行为的动态演化。此外,基于人智协同的XR系统在知觉多模态、交互自然性、自主智能等方面实现了技术突破。例如,沉浸感不仅体现在视觉、听觉的高保真程度,还包括触觉、嗅觉等多感官体验融合;交互性强调用户对虚拟环境物体的自然操控与实时反馈[5];自主性则体现在虚拟世界按照物理规律与用户行为自动生成和演化内容。理想的基于人智协同的XR系统应实现用户难以分辨虚实的存在感,并能通过AI理解和预测用户意图,协同推进叙事的创新发展。

打开网易新闻 查看精彩图片

图2 用户影视交互行为示意图[3]

图2展示了用户利用基于人智协同的XR技术可实现的影视交互行为,其由5个功能模块构成,以提供沉浸式、互动式用户体验,并实现商业化运营。

(1)注册登录和用户服务模块提供用户注册和登录功能,以访问个性化服务和内容,并包含用户体验和反馈功能,以便调整优化内容和体验。(2)内容搜索和推荐模块包括内容搜索、分类、评论、收藏、个性化推荐等功能,并可根据用户的历史行为和偏好,借助机器学习算法不断优化推荐系统。(3)人机交互和实时渲染模块允许用户自由观看和选择故事分支,并可通过头戴式显示设备、手柄和体感设备实现物体移动、虚拟角色对话、动感体验等,还提供多用户互动功能,方便用户与他人共同体验;其中,眼动追踪功能可追踪用户关注点、引导用户视线并控制交互,并能分析注意力焦点以优化内容展示和广告定位。(4)商用和消费模块为消费者提供购买、租赁或订阅内容的选项,为商业用户开展广告、品牌合作、产品展示等服务,同时包含数字藏品功能,支持用户收集、购买、交易或展示数字藏品。(5)用户信息分析模块分析用户行为数据,且会确保用户数据的隐私和安全,遵守相关法律法规。这些模块通过与用户相连和互动,为用户呈现全面的、个性化的沉浸式观影体验。

2.4 基于人智协同的XR技术对影视领域的重要影响

影视作为国家文化软实力的重要代表,与科技发展密不可分、息息相关。电影诞生初期就离不开光学、化学等科技发展的支撑,如今数字技术、VR、AI等前沿科技在影视制作中得到广泛应用,科技为影视艺术提供了更广阔的创作空间和更多元化的表现手段。同时,影视作品也通过其独特的艺术表现形式,将复杂的科技理念以通俗易懂的方式呈现给大众,推动科技知识的普及和传播。影视艺术借助科技力量提升了创作水准和观赏体验,科技则通过影视获得了更广泛的社会影响力和文化价值,两者共同构成了当代文化发展的重要推动力。这种双向互动关系,使影视与科技在各自领域不断突破边界,实现深度融合。

基于人智协同的XR技术是以人智协同为灵魂的新兴交互技术,通过融合计算机科学、电子信息、AI等多学科前沿成果,构建一个人类与AI协同共创(创意与AI深度融合)、共感(情感共鸣)、共演(动态叙事演化)的高阶交互空间,为影视内容生产提供理论创新与方法论变革。在此体系中,人类智能与人工智能形成紧密协作关系,即人类提供创意、情感和文化背景,AI则为创作提供数据支持、趋势预测和自动化工具,两者互补共生,共同推动影视内容的创新与发展。

3

XR技术与AI技术的融合创新

XR技术与AI技术融合创新最本质的特征在于AI驱动下的共创性、适应性与智能化变革。其以共创性、适应性与智能化3大特征,推动创作生产从人主导、工具辅助走向人智共创、系统共生,实现从内容生产到体验演化的范式跃迁。在共创性方面,人类创意与AI能力深度融合,通过ML、NLP等手段实现动态演化创作;在适应性方面,系统可根据用户偏好生成个性化内容;在智能化方面,AI通过实时反馈机制预测用户意图,协同推进叙事创新。这种融合不仅提高了内容生成效率,更从根本上改变了创作逻辑:AI不再是工具,而是创作共同体的一部分,与人类共同完成情节构建、角色演化与情感设计,为影视创作带来前所未有的创新活力与表现力。XR与AI技术的融合是一场由“人-智-境”三元协同引发的创作范式革命,其底层逻辑在于将人类不可量化的想象力、情感力与算法可量化的数据力、计算力等进行融合,进而产生“1+1>2”的涌现效应。这种融合呈现出三条显性特征曲线:共创性、适应性、智能化,三者彼此嵌套、螺旋上升,最终把影视工业从人主导、工具辅助的传统模式推向人智共创、系统共生的新纪元。

XR技术正在拓展传统内容创作的边界,构建一个去中心化、动态演化、智能协同的影视新生态。这不仅是对工业逻辑的超越,更是对创作本质的重新定义:创作不再是人的独白,而是人智共舞的交响。XR技术与AI技术的融合创新,正在重塑影视创作的主体结构、流程逻辑与价值内核。未来,随着多模态感知、情感计算、脑机接口等技术的进一步发展,XR系统将更加深入地理解人类情感、意图与潜意识,成为真正意义上的创作伙伴。而人类创作者也需从技术使用者转变为系统协作者,发展出与AI共同进化的元创造力。这不仅是技术的胜利,更是文明的新章。在人智协同的新图景中,创作将不再受限于个体经验,而是依托集体智慧与系统智能,形成无限可能、持续演化、情感共鸣的人智协同创作新模式。

4

基于人智协同的XR技术在影视行业的创新实践与技术突破

基于人智协同的XR技术在影视行业中的应用已产生了诸多成功案例,这些案例展示了其在影视创作中的巨大潜力和创新可能性。

4.1 行进式观影

行进式观影又称游走式观影,是一种把身体移动作为叙事必要条件的沉浸式体验观影形式:观众不再坐在固定座位上,而是以在现实空间中自由行走的方式,通过视线、位置、肢体动作触发剧情、特效与交互,成为虚拟空间中故事的一部分。其融合了电影语言、游戏引擎、空间计算、基于位置的娱乐(Location⁃Based Entertainment, LBE)大空间等技术,突破“第四堵墙”,实现身体在场的叙事参与[6]。从《消失的法老》引爆国内 VR 大空间热潮,到《重庆·1949》《又见平遥》用旋转舞台与情境互动让观众边走边看,再到《西游·大闹天宫》《孔雀公主》以体感装置强化行进式沉浸体验,这些项目共同验证了行进式观影从概念到商业闭环的可行性。

打开网易新闻 查看精彩图片

图3 沉浸式VR电影《封神前传:一个女将军的殷商盛世》场景图[7]

《封神前传:一个女将军的殷商盛世》(图3)则将博物馆级殷商文物与VR电影无缝嫁接,实现无人引导的自由行进式观影体验。观众可行走于1∶1还原的殷商世界,亲身体验中国有历史记载以来第一位女将军妇好的传奇经历:坠落的青铜器在水面绽开慢动作涟漪、乘坐战车时在耳边呼啸而过的风声、兵刃相接时的逼真震撼、甲骨文情书随视线自然浮现。这一边走边看的模式背后,是电影叙事语言与XR技术的深度交融,使观众可在自主探索过程中沉浸于主创团队精心设计的情感爆发点与历史细节之中。该内容采用人智协同机制实现动态叙事,其核心技术架构包含3个层次:实时情感计算引擎,通过生物传感器采集观众心率、瞳孔扩张度等生理信号,结合AI情感识别算法实时解析观众情感状态[8];叙事决策树系统,预置多条叙事分支路径,根据观众行为数据动态调整情节走向,例如在青铜器坠落场景中,通过调整粒子系统参数实现慢动作涟漪效果[9];空间音频定位技术,结合头戴式显示设备提供的双目4K超高清屏幕,与360°全方位视野,在战车场景中通过头部相关传递函数(HRTF)实现风声的空间化定位[10]。该案例突破了传统线性叙事框架,构建了观众、AI、创作者三方协同的叙事生态[11]。此类突破传统镜头语言局限的全新形式,有望成为未来观影的一种全新范式。

4.2 动作捕捉技术创新

动作捕捉技术通过传感器或光学系统捕捉人体运动数据,经算法处理转化为数字角色的动态表现。该技术已广泛应用于影视、游戏及虚拟摄制领域,例如《阿凡达》中纳美人的动作捕捉、《刺客信条》系列的角色动画生成,均依赖此类技术实现高精度动作映射与自然交互。

北京电影学院美术学院动作捕捉实验室依托光学动作捕捉系统平台,开展了技术驱动型跨学科实践:由学生设计完成基础角色肢体动作,由表演专业学生完成动作表演,利用光学动作捕捉平台捕获动作数据并作为内容创作的基础[12],并通过解析动作特征,逆向推导角色心理状态与情绪脉络[13],进而构建视觉场景与叙事逻辑。最终,实验室师生基于同一组动作数据,通过差异化角色设定、道具运用、场景构建及镜头调度,衍生出12部风格鲜明的独立短片并构成《灵境化身》系列。该实践验证了技术、艺术、叙事融合教学模式的有效性,动作捕捉不仅作为工具提升创作精度,更通过数据驱动的方式拓展了叙事边界,激发了艺术创作的想象力。

此案例突破传统“文本到影像”的线性创作路径,形成从数据采集、特征解析、心理建模到叙事生成的闭环流程。技术在此过程中扮演双重角色,既是精准记录动作的工具,也是激发创意的媒介。通过动作数据的可视化与跨模态转换,学生得以从数据维度理解角色内在状态,实现技术理性与艺术感性的深度融合,为数字时代艺术教育提供了可复制的跨学科实践范式。

4.3 数字时空赋能文旅场景

在文旅场景数字化进程中,多模态交互技术正构建“数字时空胶囊”,实现文化记忆的可触化复现[14]。这类技术通过硬件与内容的深度融合,支持裸手交互、语音识别,可实现“触觉-听觉-视觉”三重沉浸体验[15]。在博物馆、纪念馆场景中,采用全息投影与体感设备结合技术,通过让观众触摸历史场景和历史遗迹复刻品,实现历史场景实时呈现[16],也可通过数字化跨时空对话方式实现互动,如青岛市博物馆项目运用VR全景展示、非同质化通证(NFT)数字藏品,使观众站在特定画作前即可激活宋代市井动态场景,实现画中人与观者的实时互动,并结合定向语音导览系统[17]实现声音定向传播,避免干扰其他区域游客。

从面到点的具体应用中,展览馆等场景可通过MR技术重构经典绘画,如“清明上河图”MR体验项目支持观众轻触画卷激活动态市井场景,基于虚幻引擎(UE)实现裸手交互,使静态画作转化为可探索的立体空间。在敦煌市博物馆,游客通过手机扫一扫,便能目睹空间中跃动的增强现实影像,体验高清动画和立体声效。

当前,科技正赋予文物前所未有的活力:扩展现实技术作为一种在真实环境中巧妙叠加虚拟影像以实现深度交互的方式,正逐步重塑着展览体验;而多模态交互展示,则巧妙地融合了数字捕捉、体感互动、语音交互等前沿科技,将文字、语音、动作乃至环境等多种人机交互元素,自然而然地编织进展厅的空间中,营造出一种无缝衔接的具身体验[18]。

4.4 技术驱动下的文物新生

数字技术通过多媒体视觉、VR/AR、3D建模、区块链、动态光影、5G+云服务、非接触式三维扫描、超高清拍摄、AI知识图谱、多光谱成像及跨博物馆数据联邦学习等技术手段,实现文物的数字化精准呈现、互动体验增强及跨域资源共享,在文物保护与利用中形成技术、内容、服务全链路支撑体系。

灵境·人民艺术馆项目联合秦始皇帝陵博物院推出数字秦俑系列,采用3D建模精准还原兵马俑饕餮纹细节,结合区块链技术确权并控制发行量[19]。敦煌飞天壁画数字藏品创新采用动态光影技术,通过手机AR扫描可激活唐代矿物颜料成分解析[20]。故宫博物院数字文物库项目采用非接触式三维扫描与超高清拍摄,完成文物基础信息录入及影像数字化,支持多维度检索与AI知识图谱功能。敦煌研究院VR莫高窟项目实现未开放洞窟虚拟漫游,采用多光谱成像技术还原青金石原始色彩[21],使游客AR导览细节记忆度提升。黄河文明VR联展则通过跨博物馆数据联邦学习串联三地文物时空轴,实现故宫、陕西历史博物馆、河南博物院黄河主题展厅同步游览。上述项目通过整合数字技术实现文物活化利用与跨域共享,既保障了文物学术研究的精度需求,又通过区块链动态权益模式、XR技术互动体验提升公众参与度,在文物保护效率、文化传播广度及用户行为引导等方面形成可复制的实践路径,为文物数字化提供了技术集成与运营模式的参考样本。

5

基于人智协同的XR技术在影视行业中的应用挑战与新发展方向

尽管基于人智协同的XR技术已展现出强大的共创潜力,但其在实践层面仍存在多重挑战,同时催生出融合AI、人机协同与仿生学的新发展方向。技术层面,AI对人类行为的实时理解与反馈精度不足,导致协同叙事出现情感错位或节奏断裂[22];硬件层面,人智交互接口的延迟[23]与感知局限[24]限制了共创体验的沉浸深度;伦理层面,AI在创作中的主体性模糊[25],引发了版权、作者身份与叙事责任等争议。

5.1 技术限制与硬件瓶颈

基于人智协同的XR技术在影视行业中的应用面临着技术限制和硬件瓶颈的挑战。

当前的XR技术相关设备在性能方面已取得长足进步,但仍然存在体积大、重量大、电池寿命短等问题,在一定程度上限制了用户的使用体验和设备的普及。同时,设备的计算能力和图形处理能力也有限,难以支持高质量的影视内容,特别是在实时渲染和交互方面。此外,当前技术应用还面临着网络带宽和延迟的挑战:高质量的XR技术内容通常需要大量的数据传输,而当前的网络基础设施尚无法满足实时传输的需求,尤其是在多人协作和实时互动的场景中,导致用户体验受到影响。

制约XR技术扩展应用的另一原因在于设备成本高昂。消费者体验成本和体验感决定了其接受设备的程度。而对于制作者而言,如果想要让XR技术得到推广,确保其内容的产出和回报率的稳定是关键,对于高成本内容而言,回报率难以预估,这加大了XR技术原创内容的生产难度。

5.2 内容创作与叙事挑战

基于人智协同的XR技术在影视行业中的应用同样面临内容创作与叙事的挑战。

首先,XR技术改变了传统叙事方式,即从线性叙事转向非线性叙事,促使创作者需要重新思考故事的结构和展开方式。在传统的影视作品中,观众是被动的接收者,按照创作者预设的叙事顺序和方式体验故事;创作者可以通过剪辑、镜头选择和节奏控制等方式引导观众的注意力和情感体验。而在XR技术创造的交互式体验中,观众可自主选择内容探索的方向和速度,观众拥有更大自由度,可能会忽略创作者希望强调的部分,或者在不适当的时候离开主要叙事线索。这种自由度虽然增强了观众的参与感,但也增加了叙事控制的难度,使叙事变得更为复杂多变。

5.3 用户体验与沉浸感提升问题

真正的沉浸感需要多感官的参与和互动,包括视觉、听觉、触觉甚至嗅觉等,而当前的XR技术设备主要集中在视觉和听觉方面,触觉反馈和其他感官体验仍然受限[26]。因此,XR技术创造的体验虽在视觉上令人印象深刻,但在整体的沉浸感和真实感上仍有差距。

在XR技术应用场景中,用户界面(UI)和交互方式与传统界面有很大不同,需基于新的原则和方法进行设计。而设计直观、易用且不破坏沉浸感的用户界面,是一个重要的挑战。当前的系统界面设计仍不够成熟,用户可能需要学习和适应新的交互方式,这增加了学习门槛和使用难度。

5.4 技术演进与突破方向

在基于人智协同的XR技术作为人智协同核心载体的框架下,当前技术发展正围绕三大维度深化演进,推动从人机交互向人智共生发展升级。

5.4.1 AI与多模态感知

在技术实现层面,基于人智协同的XR系统通过多模态感知技术实时捕捉用户的生理信号、行为模式和情感状态,结合AI算法进行深度分析,从而构建出能够理解用户意图、适应用户偏好的智能交互环境。这种人智协同的交互空间打破了传统单向信息传递的局限,实现了从人适应技术到技术适应人的根本性转变。系统通过低延迟推理引擎实时解析语音、视线轨迹、手势语义、面部微表情及环境上下文,构建跨模态统一表征空间,实现场景动态适配、任务智能分配与认知负荷优化。例如,在工业协作场景中,系统可基于操作者的视线焦点预判操作意图,提前渲染辅助信息;在医疗培训中,通过手势微动与表情识别评估学员专注度,动态调整训练难度。相关技术在影视内容体验过程中,将有助于增强系统设备对用户意图的理解,通过多模态感知获取用户的实时反馈,进一步实现用户体验优化。关键技术挑战涵盖跨模态对齐的语义一致性、大模型在实时渲染管线中的安全嵌入机制,以及多模态数据融合中的隐私保护策略[27],改善和解决相关技术难点,将有利于最终形成“感知-理解-行动”的闭环认知协同。

5.4.2 人机协同接口与具身智能

真正的人智协同要求接口突破信息传递局限,建立双向意图建模与可解释行为预测体系。协作机器人与具身智能(Embodied Intelligence)研究聚焦三个层面:其一,通过多传感器融合实现实时意图识别,例如通过手腕力反馈预判操作意图[28];其二,基于可学习的技能迁移框架,使系统能将专家经验转化为可复用的策略模型,如通过示范学习生成通用操作模板;其三,开发安全控制协议,确保物理交互中的零伤害风险,并通过可视化解释模块向用户展示系统决策逻辑。此方向在手术机器人、远程操控等场景已形成明确的应用路线,其核心是通过意图透明化与行为可解释性建立人机信任,实现从协作执行到共同决策的跃升,未来在影视协同制作领域或将有用武之地。

5.4.3 仿生学与适应能力的提升

仿生学为基于人智协同的XR系统中的具身智能体(Embodied Agent)提供了动力学、材料与控制策略的生物启发范式。研究涵盖3个维度:在结构仿生层面,模拟生物肌肉与骨骼系统的柔性驱动结构,提升智能体在复杂环境中的抗冲击能力[29];在运动学仿生层面,基于生物运动学原理优化控制算法,增强智能体在非结构化环境中的运动效率;在群体行为仿生层面,借鉴蚁群协作、鱼群同步等自然群体智能,设计分布式协同策略,提升多智能体系统在动态任务中的鲁棒性与适应性。这些仿生策略对基于人智协同的XR应用中可信赖的物理交互至关重要,例如在灾难救援场景中,仿生机器人可自适应废墟环境,实现高效协作搜救。相关技术可用于影视内容摄制中过程中的虚拟勘景、虚拟预演(PreViz)等领域,可实现摄影机、照明灯具、动作捕捉、虚拟场景和演职人员精准配合和智能交互,也将对改善用户的沉浸体验起到重要推动作用。

6

结语与展望

当前,在人智协同背景下,基于人智协同的XR技术突破体现在多模态感知、实时反馈机制及AI算法的应用,实现了从内容生产到体验演化的范式跃迁,使AI成为创作共同体的重要组成部分。

然而,基于人智协同的XR技术在影视行业的应用仍面临多重挑战。技术层面需突破设备体积重量、计算能力、网络带宽及成本控制等硬件瓶颈,同时解决AI实时反馈精度不足与人机交互延迟等技术限制;创作层面需重构非线性叙事逻辑并管理观众自主选择路径;体验层面需增强多感官交互设计、优化设备舒适度与便携性;伦理层面则需明确AI创作主体性边界及版权归属规则,这些系统性挑战需通过跨领域协同创新逐步化解。

展望未来,基于人智协同的XR技术在影视行业将聚焦3大维度协同发展:技术层面通过多模态沉浸交互、具身智能进化及AI动态叙事引擎实现从感知到共生的智能化跃迁;应用层面推动虚实融合制作、交互式观影体验及跨领域融合创新,拓展影视与教育、文旅、医疗等新场景的融合;伦理层面则通过AI创作主体界定、沉浸体验边界管控及数据隐私保障构建责任共担的可持续生态,最终推动中国影视产业走出文化主导、智能协同的自主路径,开启从工具辅助到系统共生的“东方灵境”时代。

参考文献

(向下滑动阅读)

[1] 李月白.钱学森:VR应该取名“灵境”,21世纪后半叶将实现人机合一[EB/OL]. (2022⁃01⁃30)[2025⁃10⁃16]. https://wenhui.whb.cn/third/zaker/202201/30/446947.html.

[2] LEI D, KIM S. Application of wireless virtual reality perception and simulation technology in film and television animation[J]. Journal of Sensors,2021(9):1⁃12.

[3] YANG H, LI J, JAHNG S. The Application of Knowledge Graph Convolutional Network⁃Based Film and Television Interaction Under Artificial Intelligence[J]. IEEE Access,2024,21:132127⁃132138.

[4] HAZARIKA A, RAHMATI M. Tactile IoT⁃Driven Predictive Representation for Swift Content Delivery in Augmented and Virtual Reality[C]//Proceedings of 2025 IEEE World AI IoT Congress(AIIoT), Seattle, WA, USA,2025:0456⁃0462.

[5] BAO Y. Application of Virtual Reality Technology in Film and Television Animation Based on Artificial Intelligence Background[J].Scientific Programming,2022(1):1⁃8.

[6] SYLVIA R, PASCAL P, HEIKO D, et al. Interaction Techniques for Cinematic Virtual Reality[C]//Proceedings of IEEE Conference on Virtual Reality and 3D User Interfaces, 2019: 1733⁃1737.

[7] 新民艺评.VR大电影要来了?《封神前传》开启VR体验进入叙事时代[EB/OL].(2025⁃08⁃10)[2025⁃10⁃16].https://www.jfdaily.com/staticsg/res/html/web/newsDetail.html?id=961678&sid=300.

[8] SOMARATHNA R, BEDNARZ T, MOHAMMADI G. Virtual Reality for Emotion Elicitation – A Review[J].IEEE transactions on affective computing,2023(4):14:2626⁃2645.

[9] BARREDA-NGELES M, ALEIX-GUILLAUME S, PEREDA-BAOS A.Virtual reality storytelling as a double⁃edged sword: Immersive presentation of nonfiction 360°⁃video is associated with impaired cognitive information processing[J].Communication Monographs, 2020(2):1⁃20.DOI:10.1080/03637751.2020.1803496.

[10] REDOUANE K, PABLO P, ALVARO V, et al. Virtual Tour: an Immersive Low Cost Telepresence System[C]//Proceedings of IEEE Conference on Virtual Reality and 3D User Interfaces, 2020.

[11] VAN GELDER J L, DE VRIES R E, DEMETRIOU A, et al. The Virtual Reality Scenario Method: Moving from Imagination to Immersion in Criminal Decision⁃making Research[J]. Journal of Research in Crime & Delinquency,2019,56(3):451⁃480.DOI:10.1177/0022427818819696.

[12] SHI Y. Critical technology and implementation plan about engine system of 3D character animation[J].Foreign Electronic Measurement Technology,2013,32(12):68⁃71.

[13] SUN X Y, LI Y B, MA S H. Application of Optical Motion Capture Technology in Body Animation[J].Journal of Henan Mechanical and Electrical Engineering College, 2013: 17⁃19,23.

[14] BEC A, MOYLE B, TIMMS K, et al. Management of immersive heritage tourism experiencs: A conceptual model[J].Tourism Management,2019,72(6):117⁃120.DOI:10.1016/j.tourman.2018.10.033.

[15] YU X, XIE Z, YU Y, et al. Skin⁃integrated wireless haptic interfaces for virtual and augmented reality[J].Nature,2019,575(7783):473⁃479.DOI:10.1038/s41586-019-1687-0.

[16] WOLF E, FIEDLER M L. DÖLLINGER N, et al. Exploring Presence, Avatar Embodiment, and Body Perception with a Holographic Augmented Reality Mirror[C]//Proceedings of IEEE Conference on Virtual Reality and 3D User Interfaces,2022:350⁃359.

[17] GIANGRECO I, SAUTER L, PARIAN M A, et al. VIRTUE: a Virtual Reality Museum Experience[C]//Proceedings of International Conference on Intelligent User Interfaces, 2019:119⁃120.

[18] 赵丽芳,齐翊帆,王袁欣.数智时代博物馆:从文物“活化”到空间“活化[EB/OL]. (2025⁃08⁃21)[2025⁃10⁃16].http://www.xinhuanet.com/politics/20250821/f815d360d710474596990ce95c9f7c42/c.html.

[19] YAQOOB I, SALAH K, UDDIN M, et al. Blockchain for Digital Twins: Recent Advances and Future Research Challenges[J].IEEE Network, 2020, 34(5): 290⁃298.

[20] FU X, ZHU Y, XIAO Z, et al. RestoreVR: Generating Embodied Knowledge and Situated Experience of Dunhuang Mural Conservation Via Interactive Virtual Reality[C]//Proceedings of IEEE ACM Conference on Human Factors in Computing Systems, 2020.

[21] IKEUCHI K, MORIMOTO T, KAMAKURA M, et al. Kyushu Decorative Tumuli Project: from E⁃Heritage to Cyber⁃Archaeology[J].International Journal of Computer Vision,2022,130(7):1609⁃1626.

[22] SINGH R, MILLER T, NEWN J, et al. Combining Gaze and AI Planning for Online Human Intention Recognition [J]. Artificial Intelligence,2020,284:103275⁃103275.

[23] FU W, VAN PAASSEN M M, ABBINK D A, et al. Framework for Human Haptic Perception with Delayed Force Feedback[J].IEEE Transactions on Human⁃Machine Systems, 2018, 49(2): 171⁃182.

[24] PUTZE F, SALOUS M. Multimodal Differentiation of Obstacles in Repeated Adaptive Human⁃Computer Interactions[C]//Proceedings of International Conference on Intelligent User Interfaces, 2021: 260⁃269.

[25] UCHENDU A, LE T, SHU K, et al. Authorship Attribution for Neural Text Generation[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing, 2020: 8384⁃8395.

[26] THAM J, DUIN A H, GEE L, et al.Understanding virtual reality: presence, embodiment, and professional practice[J]. IEEE Transactions on Professional Communication, 2018,2(61):178–195.

[27] 刘汉文,黄灵瑶.国产AI大模型技术在电影行业中的融合创新与发展路径[J].现代电影技术,2025(08):4⁃11.DOI:CNKI:SUN:YSJZ.0.2025-08-001.

[28] WANG Z, YAN F, LI H. Designing Smart Navigation Eyewear with Augmented Reality Projection Technology: Development and Impact of Smart Wearables in the 5G Era[J].Journal of Electrotechnology, Electrical Engineering and Management, 2023,6(2):64⁃71.

[29] CARDOSO O I H, UNVER E, ASLAN R, et al. An approach to improve technical drawing using VR and AR tools[J].Computer⁃Aided Design & Applications Journal, 2019,17(4):836⁃849.

打开网易新闻 查看精彩图片