本文刊发于《现代电影技术》2026年第3期
专家点评
王 珏
教授
北京电影学院研究生院院长、博士生导师
电影声音技术正从多声道环绕声向沉浸式空间音频加速演进,电影声音国际技术标准体系持续迭代升级,具身认知、多模态交互、智能感知已成为下一代电影声音技术的核心发展趋势。技术标准主导权与核心装备自主化成为产业竞争的基础和关键,我国正处于技术跟跑、标准并跑向自主领跑转型的重要阶段。《具身认知导向下电影声音国际技术标准演进及装备国产化启示》一文针对电影沉浸式音频技术发展前沿,指出具身认知是电影声音感知的核心导向,多模态具身智能是电影声音的进阶方向。该论文对标电影声音国际标准制定与声音装备革新,分析了我国电影声音相关标准制定和装备发展上取得的成果和存在的短板,以及如何从国际标准的演进趋势中抓住国产电影音频设备的研发方向,在具身智能和多模态交互领域打造具有全球影响力的产业高地。论文对电影声音标准制定的体系性和前瞻性的分析以及对“技术突破-标准支撑-产业协同”的研发路径研判,为我国电影声音标准制定和装备研发提供了逻辑清晰的思路,为实现标准引领、技术自主、市场突围提供了理论支撑和实践参考。
项目信息
北京高校虚拟教研室试点建设项目“数字媒体声音交互教研室”(XNJYS2023004)。
作者简介
袁邈桐
博士,中国传媒大学音乐与录音艺术学院教授,主要研究方向:声音科学与艺术、数字媒体与数字人文。
摘要
本文立足媒介技术与国际技术标准研究的交叉视角,结合比对标准演进与装备革新前沿进展,系统剖析“沉浸式环境-多模态交互-具身认知”的协同逻辑,梳理了电影声音领域具身智能(Embodied Intelligence)关联技术的演进路径,分析具代表性国际技术标准发展态势及国内外技术标准对标现状,探讨我国电影声音新技术装备国产化进程的优势与挑战。研究发现,电影声音国际技术标准建设已形成“人工智能引领-技术协同支撑-标准加速迭代”的演进趋势,我国在具身认知(Embodied Cognition)算法优化、多模态交互技术应用及标准体系衔接方面仍存在较大发展空间。基于此,本文提出“技术突破-标准支撑-产业协同”的路径思考,旨在为我国电影声音技术实现标准引领、技术自主、市场突围提供理论支撑与实践参考。
关键词
具身智能;具身认知;沉浸式环境;多模态交互;装备国产化
1
引言
在新一轮科技革命与产业变革纵深演进的背景下,具身智能(Embodied Intelligence)以“认知源于身体与环境的动态交互”为核心逻辑,强调智能体(Agent)通过传感器运动与环境交互产生认知,其技术演进围绕理解、生成与交互三大核心展开,不仅为电影技术突破提供了系统性方法论支撑,更激励着电影声音技术从“被动呈现”向“主动交互”、由“感官刺激”向“具身沉浸”的双重转型。这一转型既深度回应了观众对沉浸式体验的核心需求,重构了电影声音技术的研发逻辑、标准体系与产业生态,更体现为突破传统声画关系束缚,通过高精度、对象化的声音空间渲染,将观众置于一个可被触觉化、运动化感知的声学环境中,从而极大丰富身体体验并重塑听觉主体的存在状态[1],使声音不再单纯是被人耳接收的客观信号,更能通过其物理属性直接作用于观众的身体感知,引发生理与心理的协同反应。
当前,电影声音前沿领域正面临从立体声向六自由度(6DoF)沉浸式音频[2—4]、从单一听觉向多模态协同的关键升级,而传统技术在感知优化实时性、交互逻辑适应性、制作流程可追溯性上存在明显短板,具身智能技术恰好为这一升级提供了从数字资产生成到交互实现、从流程管控到体验校准的全链条解决方案。
在技术层面,当前核心发展趋势聚焦于3大方向:一是生成式3D资产构建技术成熟化,能够根据文本或图像输入高效生成具备真实物理属性、精准尺度与完整几何结构的三维场景与物体,为声音空间定位、声场模拟提供高精度底层基础;二是人机共融的具身交互(Embodied Interaction)技术落地,通过多模态智能体与沉浸式穿戴设备的融合,可实现物理场景的实时感知、流程追踪、误差校正与自适应指导,为声音多模态协同、实时交互反馈提供全新工具链;三是数字场景生成的精细化与自动化,依托层级化架构与智能校验机制,批量生成多样化、高保真且具备物理合理性与功能完整性的交互场景,为虚拟摄制中的声场环境建模、多区域声音交互逻辑设计提供可实现的技术支撑。
在标准与产业层面,全球电影声音技术呈现“技术创新引领标准演进,标准规范推动产业升级”的清晰格局。国际标准化组织(ISO)、国际电信联盟(ITU)、美国电影电视工程师协会(SMPTE)等组织已开始关注具身认知(Embodied Cognition)导向的感知优化需求,在沉浸式声音空间定位、多模态交互协议等关联领域启动相关标准研制,其制定逻辑与具身智能的3D场景交互、物理属性还原等技术趋势高度契合。国内则以沉浸式音频技术标准为核心,积极推动国产化技术场景落地;然而,当前具身认知相关的核心技术研发与标准制定方面仍存在差距,尤其缺乏针对空间关系建模、物理交互适配、多模态协同等具身化需求的成熟技术规范。我国电影产业正处于高质量发展关键期,装备国产化需求日益迫切,如何将具身智能领域的核心技术成果转化为电影声音技术创新动力,如何依托国际标准演进趋势构建本土化技术生态与标准体系,成为当前亟待解决的重要课题。
2
电影声音的具身性
2.1 声音的具身认知基础
电影声音体验的沉浸式本质,根植于人类自然听觉具身认知的生理与心理本源。从生理来看,人类听觉系统的先天具身性是技术设计的物理前提,双耳时间差/强度差、头相关传输函数(HRTF)等生理机制,决定了空间音频的三维定位逻辑,而人体听觉频率阈值、动态范围等特征,也规范了相关技术标准的量化指标[5];从具身认知建构来看,电影声音的沉浸感源于对人类后天具身记忆(Embodied Memory)的精准触发,通过空间、动作、情绪3类具身记忆的唤醒与匹配,实现“以声传情”的心理沉浸,这一认知逻辑呼应了具身认知心理学“认知源于身体与环境动态交互、具身记忆是认知唤醒核心”的核心论述[6]。究其本质,电影声音并非创造全新具身认知,而是在人体生理具身框架内,对自然具身认知记忆的技术化筛选与重构,无法脱离自然具身的生理与认知本源,这正是“有限模拟”的核心合理性所在[7]。
2.2 电影声音领域具身认知理论的核心聚焦
具身认知理论的核心内涵聚焦“认知源于身体、大脑与环境的动态交互闭环”,其本质是反对将认知视为脱离具体身体与场景的抽象计算,强调认知过程深植于人体生理结构、感官体验与环境交互的耦合关系中[6]。在电影声音领域,智能空间环境中的声音感知绝非听觉器官对声学信号的被动接收,而是人体运动状态(如头部转动、位置移动、肢体动作)、空间体验、情感预期与声学信号的多维度协同作用结果[8]。
电影声音的具身认知应用逻辑可系统归纳为3方面:首先是声音设计贴合人体听觉生理特性,如基于HRTF的个性化适配:通过采集不同人群的听觉生理数据,优化声音在三维空间中的定位精度,解决传统标准化HRTF导致的个体适配偏差问题[9];其次是声场构建匹配用户空间运动轨迹,例如针对用户的平移、旋转等六自由度运动,通过动态调整声场参数确保声音定位与空间位置的实时同步[10];最后是声音反馈响应人体交互行为,如用户通过手势、语音指令触发音效变化,或系统根据用户面部微表情自适应调整声音的响度、混响与频率特性[9],三者共同构成电影声音具身化优化的理论与技术支撑框架。
音频作为电影声音科技的核心载体,其具身体验呈现由浅入深的三级递进逻辑,每一层均贴合“有限模拟”核心且存在明确边界。生理层具身感知通过多声道布局、HRTF算法等技术,复刻自然声音的物理传播特征,实现听觉信号与人体生理感知规律的匹配,这一技术路径契合三维声编解码及渲染的行业标准要求[5],但仅能完成单感官信号级模拟,无身体与环境的物理交互;心理层具身唤醒依托三维动态声场,触发观众的自然具身认知记忆,形成心理层面的空间沉浸,该层面仅能实现记忆唤醒而非全新认知建构,且记忆呈现碎片化特征;行为层具身反馈通过头部追踪、体感联动等技术,构建“声音感知-身体微行为”的简易闭环,推动身体从被动接收到轻度主动参与,但无法实现全身自主空间行动与全双向“感知-行动”闭环。三级层次技术虽能不断逼近自然具身体验,却始终受限于媒介虚拟性与身体物理性,无法复刻自然具身“生理-认知-行为”的全维度耦合[6]。
2.3 沉浸式音频:电影声音具身沉浸感的实现基础
在空间智能和具身感知理论影响下,电影声音系统可被认为是空间智能环境中具身认知导向的声音感知与交互网络系统。该系统以具身认知理论为核心,强调声音感知源于人体与智能机制及声场环境的动态交互,智能体通过整合空间定位、运动状态、情感反馈等多模态信息,实现符合特定人体感知规律的声音体验优化,以此构成电影声音具身化呈现的核心目标。
沉浸式声音(Immersive Sound)环境作为具备三维空间属性、真实物理声学特性的声场载体,能通过多声道布局、声场重建技术模拟各类真实空间的混响、反射等声学效果,为具身认知提供了基础场景支撑,其核心特征包括空间连续性、声学真实性与用户适配性[11]。而多模态交互则是融合听觉、视觉、运动感知、面部表情识别等多模态信号的交互方式,通过声音与画面、用户动作的实时联动(如头部姿态与声音定位适配、交互指令与音效反馈协同),强化电影声音的主动性与参与感。ISO/IEC 23090⁃4:2025《信息技术—沉浸式媒体的编码表示 第4部分:MPEG-I沉浸式音频》(Information technology — Coded representation of immersive media — Part 4: MPEG-I immersive audio[3],以下简称“ISO/IEC 23090⁃4标准”)、ISO/IEC 23008⁃3:2026《信息技术—异构环境中的高效编码和媒体传输 第3部分:3D音频》(Information technology — High efficiency coding and media delivery in heterogeneous environments — Part 3: 3D audio[12],以下简称“ISO/IEC 23008-3标准”)以及我国的GB/T 44115.3-2025《信息技术 虚拟现实内容表达 第3部分: 音频》[13](以下简称“GB/T 44115.3标准”)等当前生效或最新修订的权威标准,共同构成全球电影行业沉浸式音频技术落地与产业协同的核心依据。沉浸式声音技术理论以三维声场重建为核心,旨在通过技术手段模拟自然声场的物理特性与交互逻辑,为具身认知的落地提供底层支撑[14]。其关键技术体系涵盖3大维度:一是空间定位技术,包括高阶Ambisonics HOA编码、6DoF音频渲染等,其中6DoF音频渲染技术的核心原理为通过对象化编码将声源独立封装为带元数据的音频对象,结合稀疏平面波插值等算法实现不同空间位置的声场连续渲染,确保用户在±10 m位移范围内声音无断层、无失真[15],该技术已在ISO/IEC 23090⁃4标准中形成标准化规范[3];二是声学环境模拟技术,通过麦克风阵列采集真实空间(如影院、古建筑、户外场景)的声学脉冲响应(Acoustic Impulse Response, AIR),基于卷积混响算法精准还原不同空间的混响时间、早期反射系数等声学特性,实现“声”临其境的环境感知[16];三是多模态协同技术,通过网络时间协议(Network Time Protocol, NTP)或精确时间协议(Precision Time Protocol, PTP)实现声音与视觉、运动信号的时间戳对齐,将多模态信号同步误差控制在≤5 ms,满足具身交互的实时性要求[17]。
2.4 多模态具身智能:电影声音进阶方向
多模态具身智能是电影声音、空间音频单/弱多模态具身模拟的进阶方向,其实现条件、核心接口与推进路径均围绕“贴合自然具身认知、突破模拟边界”展开,聚焦生理、认知、行为三大维度,要求多模态感知匹配人体跨模态生理特征、算法模型契合自然具身跨模态认知关联、具备“多模态感知-身体动作-环境反馈”的闭环能力[6,7],其本质是“有限模拟”框架内的技术进阶,最终逼近甚至超越自然具身认知特征[18,19]。
具身认知-沉浸式环境-多模态交互逻辑关系图如图1所示。具身认知作为核心导向,明确声音感知的优化方向,直接决定沉浸式环境的构建逻辑与多模态交互的设计目标,例如ITU⁃R BS.2076⁃3《音频定义模型》(Audio Definition Model,以下简称“ITU⁃R BS.2076标准”)[20]、ITU⁃T H.430.7《交互沉浸式服务要求》(Requirements of Interactive Immersive Services,以下简称“ITU⁃T H.430.7标准”)[21],以及ITU⁃R BT.2420⁃8《高级沉浸式感官媒体系统使用场景集锦》(Collection of usage scenarios of advanced immersive sensory media systems,以下简称“ITU⁃R BT.2420标准”)[22]中关于“声音空间定位需适配人体头部运动特性”的规范,均是具身认知导向的直接体现。沉浸式环境作为物理载体,为具身认知的落地提供空间声场基础,其声学特性直接影响感知体验质量,ISO/IEC 23008⁃3标准[12]和ISO/IEC 23090⁃4标准[3]中对声场重建声学参数的严格要求本质就是为了保障沉浸式环境的真实性与适配性。多模态交互作为实现路径,通过多信号协同联动,将具身认知的需求转化为可感知的声音反馈[23,24]。
图1 具身认知-沉浸式环境-多模态交互协同逻辑关系图
3
电影声音国际标准演进
3.1 电影声音标准演进总体脉络
电影声音国际标准的演进遵循从通道固定到元数据驱动、从静态呈现到动态交互的核心逻辑,可划分为3大阶段,各阶段技术导向与核心规范明确且衔接递进。多声道环绕声阶段(20世纪90年代—2010年)技术发展以固定扬声器布局为核心,聚焦水平面环绕声实现,标准仅规范声道定位、电平匹配等基础参数,确立了5.1/7.1多声道系统的技术框架,其中ITU⁃R BS.775《带有和无附图的多声道立体声系统》(Multichannel stereophonic sound system with and without accompanying picture,现ITU⁃R BS.775⁃4)[25]系列成为5.1/7.1多声道扬声器布局的核心规范,杜比数字(Dolby Digital)与DTS等专有标准则奠定了影院早期环绕声的技术基础,成为该阶段的核心依据。
高级三维声阶段(2012年—2018年),技术发展迈向下一代音频(Next Generation Audio, NGA)体系,核心突破为引入Z轴垂直高度声道与对象化音频技术,标准设计从固定扬声器布局转向元数据驱动的自适应布局,实现三维空间声场的编码与解码,为3D音频标准化传输奠定基础。这一阶段以ITU⁃R系列标准为核心,2014年发布的 ITU⁃R BS.2051⁃0 《节目制作用高级音响系统》(Advanced sound system for programme production,现ITU⁃R BS.2051⁃3[26],以下简称“ITU⁃R BS.2051标准”)首次定义了高级音响系统制作规范,率先引入4.0.4、5.0.4、9.1.4等基于声道的3D布局,支持顶置扬声器与对象化元数据,成为三维声布局的基础准则;2017年推出的ITU⁃R BS.2076⁃1标准(现ITU⁃R BS.2076⁃3)[20]搭建了HRTF渲染所需的音频定义模型(ADM)元数据框架,首次实现音频对象三维空间描述体系的标准化,为后续元数据驱动的音频技术发展奠定了基础。同时,ISO/IEC系列编码标准形成早期技术支撑,杜比全景声(Dolby Atmos)相关技术规范则率先推动了对象化三维声在影院场景的商业化落地,让三维声技术从标准定义走向实际应用,共同构建起高级三维声的基础技术体系。
2018年至今,耳机正式进入沉浸式音频的核心呈现载体领域,高级三维声技术向更具沉浸感、更具交互性深度发展,开启了双耳交互阶段。标准体系同步将基于HRTF的实时空间音频渲染技术纳入规范,新增虚拟现实/增强现实(VR/AR)高级沉浸式音视频(AIAV)的交互技术要求,核心聚焦6DoF音频渲染、多模态交互协议与具身感知适配,实现了用户动态运动下低延迟、高同步的具身化声音体验,相关标准也在前期基础上完成了全体系的迭代与完善。在元数据与渲染规范层面,2019年ITU⁃R BS.2076标准[20]迭代成为ADM元数据模型的成熟版本,清晰定义了音频对象在三维空间中的位置、移动轨迹及属性描述规范,同年发布ITU⁃R BS.2088⁃1建议书《带有元数据的音频节目素材国际交换的长文件格式》(Long⁃form file format for the international exchange of audio programme materials with metadata,以下简称“ITU⁃R BS.2088标准”)[27]规定了BW64文件格式,实现ADM元数据在音频文件中的标准化封装,ITU⁃R BS.2127⁃0建议书《高级音响系统的音频定义模型渲染器》[28]则定义了ADM参考渲染算法,确保VR头显、扬声器阵列等不同设备的渲染效果一致性;而ITU⁃R BS.2466⁃0《音频定义模型操作实践》(Guidelines for the use of the ITU⁃R ADM Renderer)[29]则成为ADM元数据的实操手册,指导电影、VR场景中的元数据标签设置问题,与ITU⁃R BS.2076标准[20]形成“定义+应用”的完整体系。在编码与场景应用层面,2019年发布的ISO/IEC 23090⁃2:2019《信息技术—沉浸式媒体的编码表示—第 2 部分:全向媒体格式》(Information technology — Coded representation of immersive media Part 2: Omnidirectional media format,现ISO/IEC 23090⁃2:2023[30])完善了3D音频标准化压缩与传输技术;2022年11月的ITU⁃R BT.2420⁃5标准(现ITU⁃R BT.2420⁃8)[22]明确了沉浸式广播中耳机与双耳元数据的应用规范,覆盖影院、移动端VR等多场景需求,ITU⁃T H.430.7标准[21]规范了交互服务的音频技术要求,保障头部运动时3D音频的稳定性与低延迟。在前沿技术与实操规范层面,2022年3月更新的ITU⁃R BS.2159《家庭和广播应用中的多声道声音技术》(Multichannel sound technology in home and broadcasting applications)[31]详细描述了3D音频在电影级制作中的实际应用,包含耳机虚拟化、辅助音频等关键细节;2025年9月推出的ITU⁃R BS.2555⁃0《高级声音系统制作工作流》(Production workflows for advanced sound system)[32]规范了从录制到母带处理的端到端全流程,指导核心标准的实际落地,2025年发布的ISO/IEC 23090⁃4标准更成为全球首个6DoF沉浸式音频标准,填补了动态交互场景标准化编码的空白。此外,AES69⁃2020[33]制定了HRTF数据的跨平台存储与交换标准,ITU⁃T H.870[34]对耳机音量进行了规范,为沉浸式音频提供了技术共享与安全基础。这一阶段的标准形成了从基础框架、元数据描述、文件封装到渲染实现、场景应用、全流程制作的完整闭环,推动电影声音实现了从静态三维声到动态交互沉浸式音频的技术跨越。
演进核心特征呈现3大明确转型:一是从“技术参数规范”向“感知体验优化”延伸,标准不再局限于设备接口、信号格式等硬性参数,逐步纳入人体听觉感知适配、交互体验一致性等软性要求;二是从“单一技术标准”向“多技术协同标准”发展,整合声场编码、多模态交互、物理属性还原等跨领域技术要求,形成系统性标准体系;三是从“固定视角适配” 向“动态交互适配”转型,支持用户平移、旋转等6DoF运动状态下的声音实时适配,强化声音与用户行为的联动性。
3.2 行业技术革新与电影声音标准演进
电影声音国际标准的演进与行业技术革新呈现出互促共生的紧密关系:技术突破为标准升级提供核心动力,而标准则通过统一技术接口与感知指标,扫清技术规模化应用的障碍,推动标准体系从单纯的技术参数规范向感知体验优化迭代,从单一技术要求向跨领域协同适配升级。其核心创新围绕沉浸式环境构建、多模态交互实现和具身感知优化3大技术方向展开,并与前沿技术形成精准的落地适配。
这一演进过程的核心驱动因素多元:6DoF音频渲染、多模态协同、具身感知建模等关键技术的成熟落地,为标准升级筑牢核心技术支撑;观众对沉浸式、交互化、具身化声音体验的持续升级需求,推动标准从“被动呈现”向“主动交互”转型;全球电影制作、放映设备厂商的技术协同诉求,要求标准统一技术接口与感知指标,以增强互操作性,进一步降低产业协作成本;而国家产业结构调整的政策导向以及配套金融市场服务的资源支撑,更成为标准与技术协同升级的重要抓手。同时,日趋激烈的全球竞争态势推动行业加速技术与标准的双重升级,破坏式创新带来的技术迭代与模式重构,也对企业的技术研发、标准适配、产业布局能力形成全方位挑战。
在此背景下,电影声音技术领域整体演进呈现出显著规律:一是技术趋势引领标准迭代,具身认知、沉浸式、多模态等核心技术趋势直接决定标准升级方向,技术成熟度把控标准落地节奏;二是标准与产业形成双向支撑,标准通过统一技术规范降低产业协作成本,产业端的应用反馈又为标准修订提供关键实践依据;三是多组织协同制定标准,SMPTE、ITU、ISO等组织分工明确、协同配合,分别聚焦制作、传输、应用等产业链环节,构建起覆盖全产业链的标准体系,既保障了标准的全面性与适用性,也助力行业在全球竞争中筑牢核心技术与标准优势。
3.3 当前电影声音标准演进的重点方向
在行业科技创新和产业模式发展的推动下,标准的演进主要聚焦沉浸式环境构建技术、多模态交互实现技术和具身认知优化技术3个方面。
沉浸式环境构建技术创新依托ISO/IEC 23008⁃3标准[12]与ISO/IEC 23090⁃4标准[3]两大核心标准的技术支撑,二者共同奠定了三维声对象化编码的技术基础,为沉浸式声场的基础构建提供标准化依据,同时创新性地明确了6DoF音频渲染核心技术指标,通过声场插值算法实现全空间声场平滑过渡,为VR/AR、全景视频和体积视频(Volumetric Video)等沉浸式环境应用场景提供标准支撑。上文中的标准体系如ISO/IEC 23090⁃4标准[3]、ITU⁃R BS.2051标准[26]和AES69⁃2020[33]等从多角度对沉浸式声音领域的空间定位精度优化进行了具体规定,聚焦声场重建声学参数适配要求,保障沉浸式环境的声学真实性,其技术规范与具身认知的空间感知需求高度契合,为声场物理属性还原提供标准化依据。
多模态交互实现技术创新,以信号同步与设备兼容的标准化为核心,ITU⁃T F.748.63《基础模型增强数字人系统的框架和一般技术要求》(Framework and general technical requirements of foundation model enhanced digital human systems)[35]包含交互协议核心要求,规范声音与视觉、运动信号的同步机制,为多模态信号协同提供技术框架;SMPTE ST 2110⁃30:2025《专业媒体在受控IP网络上传输:PCM数字音频》(Professional Media over Managed IP Networks — PCM Digital Audio)[17]则再次规范了专业媒体IP化传输中的音频信号传输要求,其技术指标与AES67标准规定[36]音频接口、IPv4/IPv6传输协议相兼容,解决了声音交互设备与虚拟场景系统的跨平台兼容问题,为多模态协同技术的产业化落地提供标准化支撑。
具身认知优化技术创新的核心是将人体感知与运动特性系统性融入视听标准体系,沉浸式声音相关标准明确了声音空间定位需适配人体头部运动特性的技术要求,通过HRTF个性化适配、人体运动状态实时响应等规范,针对性优化具身感知体验;ISO/IEC 23090⁃4标准[3]则引入遮挡效应模拟、声场动态适配等技术规范,基于射线追踪算法实现声音感知与人体、环境动态交互规律的匹配,为电影声音具身化呈现的技术创新提供标准化依据。
4
我国电影声音标准与装备国产化路径探索
4.1 我国电影声音相关标准发展
我国已发布的电影声音相关标准形成国家标准+行业标准的层级配套体系,覆盖三维声核心编码、虚拟现实音频、影院端设备应用等全场景,核心标准规范且与产业需求高度适配。GB/T 46271—2025《信息技术 三维声技术 编码、分发与呈现》[37]为我国自主研发的三维声核心国家标准,2025年8月正式发布,由全国信息技术标准化技术委员会、全国广播电视和网络视听标准化技术委员会联合归口。该标准以菁彩声(Audio Vivid)为核心技术基底,是全球首个基于AI技术的音频编解码标准,支持多声道声床、音频对象、Ambisonics声场等多元呈现形式,可实现128轨音频实时渲染。该技术体系通过国际电工委员会(IEC)音频、视频及多媒体系统与设备技术委员会(TC100)研制并正式发布数字音频接口国际标准IEC 61937⁃17[38],实现沉浸式声场构建方面的国际化突破,并被IEC、ITU、国际数字视频广播组织(DVB)三大国际组织采纳,跻身全球四大三维声音频标准之列,成为国产沉浸式音频装备的核心标准支撑。
GB/T 44115.3标准[11]于2025年2月发布并于9月正式实施,由国家市场监督管理总局、国家标准化管理委员会发布,全国信息技术标准化技术委员会归口,清华大学、中国电子技术标准化研究院等单位联合起草,是我国虚拟现实音频领域的首个国家标准,规范了虚拟现实场景下音频的内容表达、技术要求与实现方式,为电影虚拟现实沉浸式音频制作、呈现提供统一技术规范,填补了我国虚拟视听音频标准的空白。
T/UWA 038.3-1—2025《菁彩影院技术 第3-1部分:菁彩声影院端音频处理器技术要求和测量方法》[39]为团体标准,由中国电影科学技术研究所(中央宣传部电影技术质量检测所)等单位起草并于2025年发布实施,聚焦影院端菁彩声音频处理器核心技术要求,明确影院端音频处理器音频通路动态范围、总谐波失真等关键性能指标,规范沉浸式声音播放设备的测量方法,适应国内影院实际放映场景需求,为菁彩声技术在影院场景的规模化落地提供行业支撑。
4.2 自主知识产权电影声音装备发展现状和挑战
电影声音装备国产化聚焦沉浸式音频处理器、多模态交互终端、声场渲染设备等核心品类的自主研发、生产与应用,目前在核心领域已取得阶段性突破并形成梯度发展格局,中低端沉浸式音频处理器已实现国产化并在国内中小影院市场形成一定市场份额,声场渲染设备可满足常规电影制作需求并落地国内部分影视制作场景,多模态交互终端则尚处研发起步阶段,暂未形成成熟产品与规模化应用场景。
国产化装备的核心优势集中于产业生态与本土场景适配层面,国内已形成从芯片设计、设备制造到终端应用的完整产业链,成本控制能力较强且产品具备价格优势,同时装备研发契合国内影院放映、影视制作的实际需求,在兼容性、操作便捷性等方面更适配国内用户使用习惯,加之发展超高清视频产业、建设电影强国等政策扶持,行业研发投入持续增加,产业化进程得以加速推进。
当前我国电影声音装备国产化发展仍面临多重挑战,受产业上下游配套及微电子产业发展环境制约,高端领域与国际先进水平存在明显差距,核心问题体现在4方面:一是高端核心技术存在代差,6DoF音频渲染、个性化HRTF建模、多模态协同处理等核心算法对外依赖度较高,高端装备市场仍被国际品牌垄断;二是具身感知类装备研发滞后,缺乏适配具身认知导向的感知优化装备,难以满足行业具身化声音体验的市场需求;三是部分产品标准符合性不足,技术指标与国际主流标准存在偏差,认证体系建设有待完善,导致产品出口受限,难以有效融入全球产业链;四是产业上下游配套支撑能力不足,微电子产业在高算力音频处理芯片、高精度传感器等核心硬件领域的发展短板,直接制约高端装备的研发与生产,同时上游核心元器件对外采购比例较高,供应链稳定性受外部环境影响,下游应用场景相对单一,高端市场突破难度较大。
4.3 我国电影声音标准研制发展方向
回顾上述国产化发展面临的核心挑战,从国际标准对标视角进一步分析不难发现,我国电影声音标准虽在沉浸式声场编码等基础领域实现与国际标准兼容,核心技术指标达到国际先进水平,但从整体来看,标准的系统性和前瞻性仍有待进一步提升。
在标准体系方面,当前我国正逐步构建具身感知与多模态协同的标准框架,在人体运动适配、个性化感知优化、多模态交互协议及信号同步机制等细分领域仍存在缺失。随着标准与装备研发协同机制的持续优化,未来有望进一步发挥标准对技术创新的引领作用,推动装备技术指标更加贴合实际应用需求,降低核心算法对外依存度,为构建自主可控的技术体系奠定坚实基础。
在技术内容层面,国产标准在具身感知适配与多模态协同协议等关键方向上尚有提升空间,这反映出我们正处于关键技术快速追赶和突破的窗口期。通过加大研发投入与跨领域协同创新,国内技术力量有望迅速补齐短板,实现具身化与多模态交互关键技术的本地化落地。伴随核心性能指标不断对标国际先进水平,国产装备将显著提升具身交互体验质量,拓展多模态技术在多元场景中的应用潜力,从而有力支撑国产化装备加快迈向中高端市场。
在产业应用方面,尽管我国当前以传统沉浸式音频应用为主,具身感知与多模态交互的产业化仍处于探索和试点推广阶段,但这一现状也预示了广阔的发展前景与后发优势。随着应用场景的不断丰富与渗透率的稳步提升,一个以“标准引领-装备研发-场景应用”为主线的良性产业生态正在逐步形成。未来,依托丰富的应用实践与持续优化的标准体系,我国有望在具身智能和多模态交互领域打造具有全球影响力的产业高地,进一步增强国产装备的国际竞争力和品牌影响力。
5
结语与展望
人工智能(AI)作为全球新一轮科技革命的关键驱动力,其产业特性决定了标准化能力对产业质量提升的重要意义;具身智能作为国家战略布局的未来产业新赛道,已正式纳入“十五五”规划,成为培育新质生产力、推动经济发展的新引擎[40,41],为我国电影声音装备国产化提供了重要发展契机与战略指引。结合国际标准演进规律与我国国产化发展实际,电影声音装备国产化需跳出路径依赖,坚守“标准引领、技术创新、协同发展、国际适配”核心原则,构建差异化高质量发展路径,立足国内产业需求、对接国际先进规范,破解高端短板、打通发展堵点,形成“技术自主-标准适配-产业落地-国际拓展”的良性循环。
我国电影行业可依托国际标准演进的技术导向,聚焦三大核心装备领域,开展有针对性的精准突破:一是在沉浸式环境装备领域,行业以国际相关标准为对标核心,重点攻克6DoF音频渲染、声场插值优化、遮挡效应模拟等关键技术,着力构建契合中国人群听觉特性的个性化HRTF样本数据库,系统性填补国内在该领域的技术空白,进一步强化国产装备在具身感知适配方面的能力。二是在多模态交互装备领域,科研机构与企业共同借鉴国际多模态协同相关标准规范,重点研发支持多模态信号协同处理的核心器件,持续优化跨模态信号的同步机制,开发兼具低成本和高适配性的交互终端产品,切实推动多模态交互技术的规模化应用与整体成本优化。三是在具身认知导向感知优化装备领域,高校、研究院所及相关企业参考国际感知优化标准的具体要求,联合攻关人体运动与声场动态匹配等感知适配技术,开发相应装备。同时,构建科学完善的具身化声音评价体系与量化评估指标,为国产装备性能验证提供理论依据和技术支撑,确保其感知体验能够达到国际先进水平。
在标准体系构建方面,我国电影行业应以国际标准为标杆,持续完善国产标准体系,强化标准对技术创新与产业发展的赋能效能,系统破解国产化发展过程中的标准瓶颈。一方面,加快补充具身认知导向的感知优化、多模态交互协议等关键领域的规范内容,实现国内标准与国际标准的精准对接与协同发展;另一方面,注重增强不同层级、不同领域标准之间的协同性,构建起覆盖“感知-交互-装备”全链条的完整标准体系,有效避免规范交叉与冲突。此外,应建立健全标准与技术创新间的联动更新机制,缩短标准研制和修订周期,确保标准具备良好的时效性与前瞻性,全面发挥标准对装备研发方向的引领与工程实践的支撑作用。
在推动国产化装备国际化布局方面,我国电影行业应以核心标准的国际影响力为依托,引导和支持国产装备积极通过国际标准认证,严格对标国际市场的技术准入门槛,稳步拓展海外应用市场,实现从“跟标适配”向“对标引领”的战略跃升。同时,鼓励国内产学研各界深度参与国际标准研制工作,主动将我国自主研发的关键技术和典型产业实践经验融入国际标准体系,持续提升我国在电影声音等标准领域的影响力和话语权,为国产装备“走出去”营造更有利的制度环境。通过在国际市场开展试点示范应用,验证国产技术与装备的实用性与可靠性,进一步加快产业化推广步伐,推动我国电影声音装备国产化迈入高质量发展的新阶段,为我国实现从电影大国向电影强国的迈进提供有力支撑。
参考文献
(向下滑动阅读)
[1] 张靖博.后电影声景:数字声音的具身性重构[J/OL].未来传播,1⁃9[2026⁃02⁃02].https://doi.org/10.13628/j.cnki.zjcmxb.20251219.004.
[2] MRÓZ B, KABACIŃSKI M, CIOTUCHA T, et al. Production of six⁃degrees⁃of⁃freedom (6DoF) navigable audio using 30 Ambisonic microphones[C]//IEEE 2021 Immersive and 3D Audio: from Architecture to Automotive (I3DA) , 2021:1⁃5.
[3] ISO. Information technology — Coded representation of immersive media — Part 4: MPEG-I immersive audio: ISO/IEC 23090-4:2025[S],2025
[4] WOODARD B, GELETA M, LAVIOLA J J, et al. AudioMiXR: Spatial audio object manipulation with 6D oF for sound design in augmented reality[C]//Proceedings of ACM Interact. Mob. Wearable Ubiquitous Technol, 2025, 9(3):1⁃41.
[5] 国家广播电视总局. 三维声编解码及渲染:GY/T 363—2023[S]. 北京:中国标准出版社,2023.
[6] 陈巍,殷融,张静.具身认知心理学:大脑、身体与心灵的对话[M]. 北京:科学出版社,2021.
[7] 张霞,邹悦.光影之外的声音魅力——评《电影声音的故事建构》[EB/OL].(2025⁃02⁃06)[2026⁃03⁃04].https://www.cflac.org.cn/xw/202502/t20250206_1338356.html.
[8] VARELA F J, THOMPSON E, ROSCH E. The embodied mind: Cognitive science and human experience[M]. Massachusetts: The MIT Press,1991.
[9] 杜鑫. 空间、具身、互动和引导:VR电影叙事的逻辑[J]. 电影新作, 2023(01): 92⁃101.
[10] 董强国. 数字电影沉浸式音频渲染技术和评价方法研究[J]. 现代电影技术, 2024(10): 37⁃43.
[11] 方捷新.标准化将促进沉浸式声音技术健康有序发展[J].现代电影技术,2017(05):63.
[12] ISO.Information technology — High efficiency coding and media delivery in heterogeneous environments — Part 3: 3D audio: ISO/IEC 23008⁃3:2026[S],2026.
[13] 信息技术 虚拟现实内容表达 第3部分: 音频:GB/T 44115.3⁃2025[S],2025.
[14] 王丰. 电影沉浸式音频码流规范及功能特性研究[J]. 现代电影技术, 2024(03): 39⁃45,52.
[15] 王丰. 数字电影沉浸式音频元数据与声场组相关技术标准解析[J]. 现代电影技术, 2023(05): 41⁃46,40.
[16] 董强国, 龚波. 数字电影沉浸式音频实时处理技术研究[J]. 现代电影技术, 2024(04): 7⁃14,21.
[17] SMPTE. Professional Media Over Managed IP Networks — PCM Digital Audio: ST 2110⁃30:2025[EB/OL].(2025⁃10⁃01)[2026⁃03⁃04].https://drastic.tv/images/documentation/st2110-30-2025.pdf.
[18] 毛潇涵,朱宸铭,王泰,等.M3Fusion:面向具身3D感知的统一多视角多模态融合框架[J].中国科学:信息科学,2026,56(02):312⁃326.
[19] 喻国明,张竞文,李子元,等.从表征传播到预测传播:空间智能语境下具身传播的新范式[J].学术探索,2025(11):49⁃59.
[20] International Telecommunication Union Radiocommunication Sector. Audio definition model: Rec. ITU⁃R BS.2076⁃3[S],2025.
[21] International Telecommunication Union Standardization Sector. Requirements of interactive immersive services: ITU⁃T H.430.7[S],2023.
[22] International Telecommunication Union Radiocommunication Sector. Collection of usage scenarios of advanced immersive sensory media systems: ITU⁃R BT.2420⁃8[S],2025.
[23] AGREVAL S, SIMON A, BECH S, et al. Defining Immersion: Literature Review and Implications for Research on Immersive Audiovisual Experiences[J].Journal of Audio Engineering Society, 2019,68(6), 404⁃417.
[24] DISCH S, TERENTIV L, KOPPENS J, et al. MPEG⁃I Immersive Audio – The Technology Of The New Standard For Virtual / Augmented Reality Audio[EB/OL].(2025⁃10⁃14)[2026⁃03⁃04].https://aes.org/publications/elibrary-page/?id=23078.
[25] 国际电信联盟.ITU⁃R BS.775⁃4建议书 带有和无附图的多声道立体声系统[EB/OL].(2023⁃03⁃07)[2026⁃03⁃04].https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.775-4-202212-I!!PDF-C.pdf.
[26] 国际电信联盟.ITU⁃R BS.2051⁃3建议书 用于节目制作的高级音响系统[EB/OL].(2023⁃05⁃02)[2026⁃03⁃04].https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.2051-3-202205-I!!PDF-C.pdf.
[27] International Telecommunication Union Radiocommunication Sector. Long⁃form file format for the international exchange of audio programme materials with metadata: ITU⁃R BS.2088⁃2[S],2025.
[28] 国际电信联盟.ITU⁃R BS.2127⁃0建议书 高级音响系统的音频定义模型渲染器[EB/OL].(2023⁃11⁃03)[2026⁃03⁃04].https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.2127-0-201906-S!!PDF-C.pdf.
[29] International Telecommunication Union Radiocommunication Sector. Guidelines for the use of the ITU⁃R ADM Renderer[EB/OL].(2019⁃10⁃01)[2026⁃03⁃04].https://www.itu.int/pub/R-REP-BS.2466-2019.
[30] ISO/IEC 23090⁃2:2023:Information technology — Coded representation of immersive media Part 2: Omnidirectional media format[EB/OL].(2023⁃06⁃09)[2026⁃03⁃04].https://webstore.iec.ch/en/publication/86236.
[31] International Telecommunication Union Radiocommunication Sector. Multichannel sound technology in home and broadcasting applications: ITU⁃R BS.2159⁃9[S],2022.
[32] International Telecommunication Union Radiocommunication Sector. Production workflows for advanced sound system: ITU⁃R BS.2555⁃0[S],2025.
[33] Audio Engineering Society. AES standard for file exchange⁃Spatial acoustic data file format: AES69⁃2020[S],2020.
[34] International Telecommunication Union Standardization Sector.Guidelines for safe listening devices/systems: ITU⁃T H.870[S],2022.
[35] International Telecommunication Union Standardization Sector.Framework and general technical requirements of foundation model enhanced digital human systems: ITU⁃T F.748.63[S],2025.
[36] Audio Engineering Society. AES Standard for Audio Applications of Networks⁃High⁃performance streaming audio⁃over⁃IP interoperability: AES67⁃2023[S],2023.
[37] 全国信息技术标准化技术委员会,全国广播电视和网络视听标准化技术委员会.信息技术 三维声技术 编码、分发与呈现: GB/T 46271—2025[S], 2025.
[38] Digital audio ⁃ Interface for non⁃linear PCM encoded audio bitstreams applying IEC 60958 ⁃ Part 17: Non⁃linear PCM bitstreams according to the AVS3⁃P3 format: IEC 61937⁃17: 2025[S],2025.
[39] 世界超高清视频产业联盟.菁彩影院技术 第3-1部分:菁彩声影院端音频处理器技术要求和测量方法:T/UWA 038.3-1—2025[S/OL].(2025⁃10⁃15)[2026⁃03⁃04].https://www.theuwa.com//upload/ueditor/file/20251015/176048926 5169653/d6adb9139d5b2416c736c2747163a78e.pdf.
[40] 杨子怡,邓聪.具身智能加速落地产业发展领跑全球[N].人民邮电,2026⁃01⁃21(001).DOI:10.28659/n.cnki.nrmyd.2026.000095.
[41] 李群.融智于身,赋形以慧:以具身智能擘画中国现代化产业新图景[J].中国科技论坛,2026(01):3.DOI:10.13580/j.cnki.fstc.2026.01.001.
期刊导读 |《现代电影技术》2026年第3期
影视数字资产的智能构建:基于Multi⁃SLAM+3DGS技术的三维数字重建方案研究
电影SDR与HDR映射结构研究——基于ASC StEM2技术测试片的实证分析
热门跟贴