本文刊发于《现代电影技术》2024年第9期
专家点评
当前,我们正处于第三次技术革命浪潮中,人工智能应用前景日趋清晰,人工智能应用场景日益广泛。特别是在电影文化领域,生成式人工智能更是具有大规模提高生产效率的潜能。在此背景下,中国电影科学技术研究所(中央宣传部电影技术质量检测所)总工程师刘达率团参加了人工智能领域国际顶级学术会议,并开展了技术调研和考察交流,在此基础上撰写完成《智能计算时代深化电影科技创新和推进电影强国建设的思考与启示》一文。文章在简明扼要介绍欧洲高新技术格式电影制作播映发展与应用最新成果的基础上,针对电影产业、现代影院和沉浸式视听技术的发展与应用,提出把电影级主动发光显示技术和沉浸式视听技术作为重要抓手,以有效提升影院视听品质和观影体验。此外,适应智能计算时代发展特征和生成式人工智能演进趋势,提出了电影行业要统筹推进模型自主研发与行业定制改造的技术思路,同时探讨了电影行业在积极探索人工智能应用中强化人工智能安全治理和版权保护的方式。文中提出我国要加快构建完善以“文生电影”为核心的电影智能化创作生产技术体系,发展完善以现代智能科技为核心支撑的电影新质生产力,推进电影摄制播映向高品质沉浸式多元化升级,构建发展新型视听文化业态,优化升级视听文化服务,为新时代新征程推进我国电影科技创新升级和高水平自立自强提供了富有前瞻性、建设性和可实施性的思考启示与发展建议。
——徐进
中央广播电视总台技术局局长
中国电影电视技术学会理事长
作 者 简 介
刘 达
中国电影科学技术研究所(中央宣传部电影技术质量检测所)总工程师,主要研究方向:电影科技与产业智能化升级。
中国电影科学技术研究所(中央宣传部电影技术质量检测所)高新技术研究处副处长,主要研究方向:数字电影技术。
王 萃
高 峰
中国电影科学技术研究所(中央宣传部电影技术质量检测所)检测认证北方中心副主任,主要研究方向:电影技术质量检测认证。
中国电影科学技术研究所(中央宣传部电影技术质量检测所)助理工程师,主要研究方向:数字电影技术。
马鸿悦
张海悦
中国电影科学技术研究所(中央宣传部电影技术质量检测所)工程师,主要研究方向:数字电影技术。
中国电影科学技术研究所(中央宣传部电影技术质量检测所)工程师,主要研究方向:数字电影技术。
王 健
摘要
人类社会正加快步入智能计算时代,现代智能科技对电影产业的影响持续深化和不断泛化,机器学习、深度学习、人工智能生成内容(AIGC)、大语言模型(LLM)、多模态模型等技术正在深刻影响和重构优化电影全产业链全价值链。伴随电影科技创新进入攻坚期和深水区,电影产业发展面临新形势新要求,我们要深化电影科技自主创新,积极推进电影行业的智能化升级,推进生成式人工智能、人工智能大模型、沉浸式视听等技术在我国电影行业的定制设计、自主研制与科学应用,有力支撑和服务社会主义电影强国建设。
关键词
电影科技;自主创新;智能科技;人工智能大模型;人工智能生成内容;沉浸式视听
1引言
2024年7月,我们一行6人赴德国、奥地利开展业务访问与技术交流,先后在德国访问了HOLOPLOT音频科技公司和德国电影资料馆,在奥地利参加了全球人工智能(AI)领域的顶级学术会议——国际机器学习大会(International Conference on Machine Learning, ICML)。代表团深入了解了电影沉浸式音频技术的发展与应用情况,细致了解了德国电影产业与现代影院的发展建设情况,积极研究探索我国电影产业高品质多元化放映应用场景。特别是,适应智能计算时代(Age of Intelligent Computing)发展特征和电影产业智能化升级不断提速要求,我所首次组织实施“人工智能国际学术会议团组”计划,参加全球AI领域顶级学术会议,密切跟踪现代智能科技发展趋势、最新研究与应用成果,探索推进人工智能(AI)大模型和人工智能生成内容(AIGC)等技术在电影行业的定制化、科学化应用。
此次业务访问与技术交流不仅内容充实、系统全面,而且细致深入、针对性强,进一步深化了我们对于智能计算时代推进电影科技自主创新、高水平自立自强与电影产业智能化升级的思考和认识,对于推动人工智能大语言模型(LLM)、多模态大模型、人工智能生成内容(AIGC)、沉浸式视听(Immersive Audio⁃Visual)等技术在我国电影行业的定制化设计、科学化应用以及电影行业垂直AI大模型自主研制均具有一定的指导意义和应用价值。
2收获与思考
2.1 深入细致了解欧洲高新技术格式电影制作播映技术发展与应用的最新成果,深刻感受到全球电影行业正融合运用传统与新兴视听技术,不断拓展创新观影场景,有效提升电影视听品质、观影体验和产业效能,持续增强电影在现代视听媒体中的竞争力影响力引领力
德国HOLOPLOT是全球领先的空间声学技术研究与应用服务公司,致力于基于波场合成(Wave Field Synthesis, WFS)和3D音频波束成形(Beamforming)技术的沉浸式音频产品与应用研究,其沉浸式音频技术解决方案已成功应用于美国拉斯维加斯MSG Sphere LED球幕影院,以及美国纽约Atlantic Theatre、英国伦敦Lightroom的LED展示场馆等多元化展示和放映场景。HOLOPLOT沉浸式音频解决方案的突出特点在于,其支持同一场所内听众区域、聆听内容、音频强度(声压级)等灵活配置,既可让不同区域的听众聆听不同音频内容,也可让不同区域的听众聆听不同强度或相等强度的声音。
HOLOPLOT设计研制了配有高性能服务器的沉浸式音频扬声器模组,针对现场自动化测试的场馆声音传播特点,采用波场合成(Wave Field Synthesis, WFS)与波束成形(Beamforming)技术,通过组合配置扬声器模组,构建虚拟声源,控制声音波束汇聚的方向和强度,以实现覆盖各听众区域的声场。其扬声器模组分为X1和X2两个系列,其中X1系列模组有包含96个两分频(高音和中低音)扬声器的MD96矩阵阵列和包含80个三分频(高音、中音和低音)扬声器的MD80⁃S矩阵阵列;X2系列模组有包含30个扬声器的MD30矩阵阵列。
代表团在HOLOPLOT实验室现场体验了波场合成(Wave Field Synthesis, WFS)和波束成形(Beamforming)技术的实现效果,可明显感受到在同一场馆内,距音源不同距离等强度覆盖、不同区域不同音频内容覆盖、覆盖区域外强度快速衰减等效果。代表团还参观了产品研发生产线,以及HOLOPLOT最新发布的适用于演讲和多媒体应用的X2系列。位于美国拉斯维加斯著名的MSG Sphere LED球幕影院即采用HOLOPLOT音频解决方案实现电影级沉浸式音频播放。该场馆从LED屏幕到最后一排观众的距离长达110米,且弧形屏幕和球形场馆对声音传播形成了非常规的球面反射。HOLOPLOT在LED透声屏后安装约1600个X1矩阵阵列模组,共计约160000个扬声器实现音频播放。
此外,代表团还访问了德国电影资料馆(Deutsche Kinemathek)和柏林CinemaxX影院,重点了解德国电影科技与产业发展历程、影院发展建设情况以及高新技术格式电影应用情况。德国电影资料馆于1963年2月正式开放,自2000年9月开始作为柏林电影博物馆,收藏了大约26 000部德国本土和其他国家的无声电影、有声电影及拍摄放映设备、电影剧照、肖像、制作照片、剧本、海报、电影节目、电影票和传记材料等。在现场,我们近距离观察体验了胶片放映机、老式摄像机、老式售票机等工作原理,通过还原的微型拍摄老场景研究传统拍摄技术的应用,并了解第二次世界大战对于德国电影进程的影响,现场领略德国电影的展现方式。
作为柏林大型现代化影院,CinemaxX影院拥有19个影厅,均支持DCI 4K数字放映技术和杜比 7.1 环绕声,其中8个影厅支持3D数字放映、2个影厅同时支持高帧率(HFR)和3D数字放映,还有2个影厅仍支持16 mm和35 mm胶片放映。该影院在2023年实施改造升级,为所有影厅安装电动可调节豪华皮质座椅。改造升级后影院总座位数减少至原来的40%左右,约有一半影厅的座位数不到30个。该影院目前上映影片以美国好莱坞影片为主,票价为8~11欧元(人民币约64~88元)。CinemaxX影院由Vue院线管理运营,Vue院线在德国拥有30个影院,257块银幕,除电影放映外,影院还开展音乐会、歌剧、芭蕾舞表演等现场直播业务。
通过访问交流,我们对于电影产业、现代影院和沉浸式视听技术的发展与应用趋势,形成以下基本共识:
(1)电影产业高质量可持续发展的基石始终是视听品质和观影体验。作为电影产业终端的影院,要加快成为高品质、专业化、融合型业务的高端文化消费体验场所,要为促进电影产业、文化产业和视听产业提质增效作出积极贡献。电影级主动发光显示技术和沉浸式视听技术将是有效提升影院视听品质和观影体验的重要抓手,必须积极充分运用和大力推广应用。
(2)我国要实现电影大国向电影强国的历史性跨越,电影科技发展必须立足自主创新,积极融合应用传统技术与新兴技术,加快推进高水平自立自强。针对不同尺寸LED显示屏和不同影厅建筑声学环境,应综合利用LED透声显示屏、电影沉浸式音频等自主技术,融合相关行业领域共性技术,形成最优定制化整体解决方案,加快推进国产数字电影LED放映显示系统在我国影院的部署应用,并制定完善相关技术规范与技术标准,保障LED放映业务健康有序发展。
2.2 人工智能生成内容(AIGC)技术发展迅猛,内容质量与生成效率持续提升,我国电影行业要顺应生成式人工智能发展演进趋势,统筹推进模型自主研发与行业定制改造,推动技术研发与行业应用不断实现新突破,积极服务电影内容生产与产业链提质优化
国际机器学习大会(ICML)由国际机器学习学会(IMLS)主办,是国际公认的人工智能(AI)领域的顶级学术会议。2024年度ICML设置了30余个专题论坛,包括6个特邀演讲和140余个主题演讲,并有2610篇论文现场展示,参会人数多达8000余人。会议内容涵盖人工智能预训练大模型、生成式人工智能、多模态大模型、具身智能(Embodied Artificial Intelligence, EAI)、人工智能安全治理等学术研讨和行业应用案例交流,代表了当今人工智能研究的最高学术水平与前沿方向。
人工智能生成内容(AIGC)是本次ICML会议的热点与焦点,多个专题论坛和技术演讲均以此为主题。代表团重点关注与电影行业密切相关的图像与视频生成、3D模型生成、具身智能等领域,参加了“视频”“强化学习”“大语言模型:代码和算法”“结构化概率推理与生成式模型”“智能体和世界模型”“多模态基础模型与具身智能”等多个论文专题报告和学术研讨会。下面重点阐述AI视频生成、3D智能生成和具身智能。
2.2.1 AI视频生成
AI视频生成是备受学术界和产业界关注的研究领域。视频生成技术发展迅速,其实现路径从基于生成式对抗网络(GAN)与变分自编码器(VAE)生成,发展到基于Transformer架构生成,并不断演进至当前主流的基于扩散模型(Diffusion Model)和DiT(Diffusion Transformer)架构。由美国OpenAI科技公司研发的Sora视频生成模型即基于DiT架构,可生成60秒时长、多镜头一致性、遵循一定物理规律的视频。自2024年2月发布以来,Sora视频生成质量仍然是领域标杆。国内外其他开闭源视频生成模型也在快速发展,如国外Pika、Runway Gen⁃3、Stable Video Diffusion,国内快手可灵、潞晨科技Open⁃Sora、生数科技Vidu等,在视频时长、帧率、图像分辨率、生成效果等方面取得了显著进展。目前,AI视频生成领域正向提升复杂场景/动作生成、时间一致性、保真度、训练推理效率、音视频同步等质量和性能方面持续进步。
本次会议论文与学术研讨覆盖多模态视频生成、视频理解、视频编辑控制和视频生成质量评估等领域。谷歌研究团队提出Genie[1]、VideoPoet[2]等模型,实现文本、图像、音频、视频等多种模态作为模型输入生成相应视频,并支持视频风格化和扩展等功能。新加坡国立大学[3]基于思维链(Chain⁃of⁃Thought, CoT)技术,将复杂的问题拆分为更简单的问题,提高模型对视频问答任务的性能。北京大学和快手科技公司联合提出Video⁃LaVIT模型[4],支持图像/视频理解、文本到图像以及文本到视频生成。巴黎文理研究大学[5]提出一种基于文本提示的视频编辑方法,利用预训练的文本到图像扩散模型来处理时间和空间信息,可替换原始视频的主体角色,并能保留原始视频的结构和运动。在视频生成质量评估方面,现阶段主要侧重于对音视频同步性[6]和视频运动一致性[7]的评估。
2.2.2 3D智能生成
3D模型不同于文字、图像、视频等数据,存在天然稀缺性,后者可在日常生活中产生,因而极大地制约了3D智能生成模型算法的发展,因此3D智能生成相较于其他AIGC技术仍处于发展起步阶段,其生成质量、效果与效率距离实际应用,特别是距离电影行业应用尚有较大差距。当前,3D智能生成领域的热点方向是文本生成3D模型,采用的3D表征方式多为高斯溅射(Gaussian Splatting)和神经辐射场(Neural Radiance Fields, NeRF),其不同于电影制作流程通用的网格(Mesh)表征方式。
本次ICML会议聚焦3D模型生成质量、生成效率和数据集三个方向。一方面,基于现有算法,通过改进方法或模型表征方式,提升生成3D模型的几何一致性与保真度。如美国Meta公司研究团队[8]针对目前文生3D领域主流技术方法的问题,即在大规模训练的文生图模型基础上使用分数蒸馏采样(Score Distillation Sampling, SDS)或其变体训练模型,存在速度慢、不稳定且易于出现伪影等问题,提出一种改善方法IM⁃3D,将原有文生图模型变为文生视频模型,并采用高斯溅射替换原有基于神经辐射场(NeRF)的3D重建,在3D生成效率、质量和几何一致性等方面实现提升。另一方面,提出全新的生成框架,以提升生成质量与效率。如香港中文大学联合Autodesk AI实验室[9]提出一种全新的3D生成模型框架Make⁃A⁃Shape,通过引入小波树作为3D表示、制定子带系数滤波/打包方案以及自适应训练策略,实现对3D形状紧凑编码。该框架在大多数情况下生成3D模型仅需2秒。此外,3D生成领域积极利用成熟的大语言模型(LLM)和多模态大模型来提升数据集标注的可靠性,生成渲染Python脚本实现自动化渲染。
2.2.3 具身智能(Embodied AI)
伴随大语言模型(LLM)、多模态模型和世界模型快速发展,智能体(Agent)对文本、视觉、听觉等综合信息的处理能力同步提升,在与机器人、传感器等技术融合后,可实现物理实体与环境交互获取信息、理解问题、做出决策并实现行动,进而产生智能行为,即具身智能。简言之,具身智能是一种基于物理实体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,进而产生智能行为和适应性。近两年随着AI技术的发展与进步,特别是生成式AI和AI大模型的快速发展,具身智能落地应用的可能性持续增强,越来越多的企业开始布局和投身具身智能领域,其已成为AI领域的研究与应用热点。
本届ICML会议主要针对具身智能对任务和环境的处理能力、决策能力和泛化能力,采用在线强化学习、多模态强化学习、数据采集等方式提升智能体性能,进而提升具身智能行为能力。清华大学[10]、加州大学伯克利分校[11]、卡内基梅隆大学[12]等学术机构分别在策略学习、策略更新与优化、有效训练等研究领域提出有效算法,提升强化学习智能体在实际应用中的性能与表现。清华大学[13]、纽约大学[14]和根特大学[15]分别对多模态统一表征学习、多模态环境下智能体复杂行为生成、多模态基础世界模型进行研究,致力于解决智能体在复杂任务中的挑战。麻省理工学院[16]研究人员提出环境自动化塑造方法,以解决机器人学习中环境设计需要大量人工干预、数据采集效率低下等问题。
本届ICML会议尽管会期长达一周,但因技术方向和内容主题较多,会议日程安排极其紧凑,每天多个专题报告和研讨会并行举行。代表团通过连续几日参会,深刻感受到大语言模型(LLM)、多模态大模型等技术突破和飞速进步已带动AIGC各个分支领域快速发展,并通过垂直应用推动技术进一步发展深化,进而形成AIGC领域全面加速提升的发展态势。我国电影科技应紧跟AIGC发展趋势,充分挖掘行业高质量数据资源,坚持模型自主研发与行业定制改造统筹推进,积极推进电影摄制播映装备智能化升级,有效提升电影摄制质量与效率,优化影院运营服务管理水平效率,促进行业整体效能提升。
2.3 AI技术应用的安全与版权风险日益凸显,我国电影行业要统筹并重AI发展与安全,强化AI安全治理与版权保护,积极推进AI领域安全与版权保护技术研究应用,服务行业健康有序发展
代表团参加了ICML会议“安全与控制”“鲁棒性与安全”“新一代AI安全”等多个相关主题报告与专题论坛,并与论文作者进行了交流与探讨。广义上的AI安全涵盖AI安全和版权,目前主要研究方向涉及训练数据、模型和生成内容三方面。其中,数据安全问题涉及数据授权、数据隐私、涉密数据、数据污染、数据泄露等;模型安全问题包括越狱、滥用、窃取攻击等;生成结果安全问题则包括生成有害内容、诱导生成带有版权的内容、AI生成内容识别等。
针对以上问题,本届ICML会议聚焦攻击手段、保护方法、版权标识与识别等三类研究成果。
2.3.1 攻击手段
致力于研究针对训练数据和模型的攻击方法,以找到安全与版权隐患,特别是低成本、高效率的攻击手段。其中包括被评为此次会议最佳论文之一,由谷歌公司[17]牵头实现的《窃取语言生成模型的部分内容》(Stealing Part of a Production Language Model),以不到2000美元的成本成功窃取GPT⁃3.5 Turbo模型的确切隐藏维度大小;新加坡国立大学[18]提出一种后门攻击方式,以诱使模型生成带有版权的内容。
2.3.2 保护手段
主要针对已发现的安全漏洞,探索如何以更高效的方式调整提高生成内容的正确性与安全性。例如上海交通大学[19]提出Ethical⁃Lens框架,可在不更改内部模型的情况下避免恶意使用文本到图像模型;谷歌DeepMind[20]提出Doubly⁃Efficient Debate理论框架,在此框架下,两个模型通过辩论竞争取胜,尽可能精简而充分地展示任务执行过程的正确性,以提高生成内容的安全性;美国马里兰大学[21]证明带有水印的大语言模型可有效避免生成带有版权的内容,也可减少成员推理攻击的成功率。
2.3.3 版权标识与识别手段
主要聚焦AI生成内容检测以及数字水印的智能添加与检测,其中包括德国亥姆霍兹信息安全中心(CISPA Helmholtz Center for Information Security)[22]经过测试证实,在噪声、编码、传输衰减等真实环境产生的干扰下,现有检测手段对于检出是否为AI生成音频并不具备较强鲁棒性;美国Meta公司[23]提出利用AI生成本地化水印检测语音克隆等多篇论文。
综上所述,伴随AI技术飞速发展,AI安全受到广泛关注和高度重视,研究方向攻防并重,不仅聚焦安全防范和保护技术,也注重对攻击方法与手段的研究试验,以研发对应防御办法。电影行业在积极探索AI技术落地应用的同时,也应高度重视AI安全与版权问题,统筹AI发展与安全,确保AI发展与应用向上向善和服务行业。
2.4 欧盟积极谋划和全面推进AI基础设施建设、模型研发、落地应用与安全法案实施,努力追赶世界AI先进水平,我国电影行业要充分利用相关新型基础设施建设优势,加强顶层设计、统筹规划和项目推进,以AI技术深度应用支撑服务行业提质升级
本届ICML会议邀请欧洲人工智能办公室(European Artificial Intelligence Office)主任Lucilla Sioli女士作题为《欧盟委员会AI见解》的特别演讲,演讲主要涵盖以下内容:
2.4.1 关于欧盟《人工智能法案》
欧盟已制定发布《人工智能法案》(Artificial Intelligence Act),并在法案中将AI系统和通用AI模型按照风险程度分为不可接受风险、高风险、透明度风险、风险极小/无风险等四个等级。其中,不可接受风险等级模型将被严格禁止,如社会评分、无目标的数据采集等;高风险等级模型,如涉及招聘、医学设备等,需符合AI相关要求和事前一致性评估才可使用;透明度风险等级模型需符合透明度要求才可使用,如人机对话、图像修改等;风险极小/无风险等级模型则无额外使用限制。此外,法案还对通用AI模型进行了透明度规定,要求模型提供方提交技术文档和使用说明,公布训练数据摘要信息,并在此基础上针对具有系统风险的模型(计算量超过1025 FLOPs)增加了额外要求,包括模型评测、对抗测试、系统风险评估与避免、事故跟踪报告、网络安全保障等。该法案已于2024年8月1日正式生效,相关规则将分阶段在6个月或12个月后生效,大部分规则将于2026年8月2日生效。
2.4.2 关于欧盟AI机构与团队设置
欧盟委员会于2024年5月底成立内设机构欧洲人工智能办公室,负责AI法案实施、孵化AI研究创新项目和参与全球对话,旨在推动欧洲人工智能未来发展、部署和应用,促进社会效益和经济效益提升,推进AI创新和降低AI风险。此外,针对法案的制定和实施,欧盟还设立了咨询团队,包括AI董事会、科学小组和咨询团队。其中,AI董事会由来自欧盟各成员国的高级代表和专家组成,负责法案实施协调工作;科学小组成员为具有专业知识的专家,负责在法案实施过程中对潜在系统风险提出预警;咨询团队主要负责协调平衡各方利益。
2.4.3 关于欧盟政府AI投资发展计划
欧洲目前开展AI技术业务的主要为6300余家初创公司,其中10%与生成式AI相关,而大型企业则较为保守,几乎不涉足AI领域。初创公司在开展AI相关业务时面临投资不足、监管负担重、缺乏充足算力、数据和人才资源。针对上述情况,欧盟启动了“欧盟AI创新包”项目,将投资40亿欧元用于AI算力设施建设、模型研发、推动成果向市场转化。其中,25亿欧元用于AI算力设施建设,5亿欧元用于生成式AI模型研发,涵盖战略工业产业、科学研究、公共事务等领域,包括机器人/制造业、汽车、网络安全、能源、药品等行业。在推动AI研究成果转化应用方面,欧盟已启动欧洲地平线(Horizon Europe)、数字欧洲(Digital Europe)和欧洲创新委员会(European Innovation Council, EIC)加速器3个项目供申报,总预算约1.6亿欧元,涵盖AI大模型、模型可解释性与鲁棒性、高性能开源基础模型、生成式AI模型研发等。
综上所述,欧洲AI技术研发、创新应用和相关算力基础设施建设起步较晚且发展缓慢,与美国、中国等AI领先国家已有较大差距。欧盟已充分认识到该问题,正根据欧洲AI领域实际情况,集中成员国力量,全力开展算力基础设施建设,启动AI技术研发和市场应用项目,并以推动技术创新与应用为前提,率先颁布AI安全法案,全面推进AI基础研究与落地应用。
当前,我国算力基础设施建设已达世界领先水平,且具有海量数据资源等优势。作为数字视听领域的技术引领者与发展制高点,电影行业应适应AI技术迅猛发展的新形势新需求新特点,加强AI技术研发与行业应用的顶层设计、统筹规划和项目推进,联合行业内外形成强大合力,加快推动以深度学习和生成式人工智能大模型引领的智能计算新发展与电影行业的深度融合,积极推进电影全产业链全价值链智能化升级,有力支撑和服务新时代社会主义电影强国建设。
3启示及建议
2024年7月召开的党的二十届三中全会审议通过了《中共中央关于进一步全面深化改革、推进中国式现代化的决定》,深入分析了新时代新征程推进中国式现代化面临的新形势新要求,强调要“优化重大科技创新组织机制,统筹强化关键核心技术攻关”“完善推动新一代信息技术、人工智能等战略性产业发展政策和治理体系”“推动科技创新和产业创新融合发展”“探索文化和科技融合的有效机制,加快发展新型文化业态”,为推进社会主义电影强国、文化强国和科技强国建设提供了发展方向和重要遵循。
电影是文化与科技的有机融合体,兼具文化属性与科技属性,在新兴视听技术、新一代信息通信技术和现代智能科学技术的广泛应用与深刻影响下,电影产业与高新技术的融合进程持续深化,电影产业加快由传统视听产业向高新技术产业转型升级,其兼具文化创意产业和战略性新兴产业双重内涵的特征愈加凸显。基于此次赴德国、奥地利开展业务访问和技术交流的收获与思考,我们立足进一步全面深化改革、推进中国式现代化国家战略,智能计算时代电影行业发展需求以及新一代信息通信技术与现代智能科学技术演进趋势,经认真研究分析,提出以下启示及发展建议:
3.1 运用机器学习、深度学习、生成式AI、AI预训练大模型等发展成果,构建完善以“文生电影”为核心的电影智能化创作生产技术体系,推进电影摄制生产播映系统智能化升级改造,发展完善以现代智能科技为核心支撑的电影新质生产力,科学精准高效服务行业
智能经济与智能社会已成为经济与社会发展演进的基本趋势和必然要求。智能化升级是电影产业高质量可持续发展的必由之路,是一项极其复杂、庞大的系统工程,必须强化顶层设计、立足自主创新和注重有序推进。一方面,在电影行业大力发展人工智能生成内容(AIGC),探索生成式AI技术、AI大模型、具身智能等在电影创作摄制等环节的应用,结合电影视听技术指标开展定制化研发,实现文生图像、文生视频、文生3D、文生音频、文生电影等多元化电影级智能应用,并探索推进国产电影系统向智能化升级改造,提升电影摄制水平、能力和效率。另一方面,统筹AI发展与安全,开展电影行业AI安全治理与版权保护研究,加强AI领域技术风险管控,科学合理安全使用生成式AI和AI预训练大模型,确保关键核心技术自主安全可控,加快研究制定AI相关安全秩序准则和技术标准规范,保障电影行业智能化升级健康有序推进。
3.2 适应大视听、大科学和大文化时代发展要求,充分借鉴和融合应用数字视听技术领域发展成果,推进高品质沉浸式多元化摄制播映创新升级,加快构建发展新型视听文化业态,持续优化升级视听文化业务服务和产品供给
电影行业已经步入大视听(Great Audio⁃Visual)、大科学(Great Science)和大文化(Big Culture)时代。一方面,学科、技术、业务、服务、产业、行业深度交叉和融合并进,科学研究和技术应用的复杂性、系统性、协同性显著增强;另一方面,在媒体融合持续深化的背景下,视听产业和文化产业发展格局重构优化,视听文化业务服务模式创新升级和拓展延伸,覆盖电影、电视、计算机、移动终端、手机等多元媒体的广义大视听和大文化产业构建形成并不断提质升级。因此,融合应用数字视听领域成熟视音频技术和解决方案,针对影院增值业务、特种电影、特种影院、沉浸式视听体验等场景,探索实践高品质、多元化、差异化发展模式,同时发挥我国制造领域优势,加快摄制播映端国产核心关键技术与系统设备的研发应用,推进摄制播映工艺流程创新升级,全方位多维度提升文化产品质量和视听体验。
注释、参考文献
(向下滑动阅读)
[1] Bruce J, Dennis M D, Edwards A, et al. Genie: Generative Interactive Environments[EB/OL].(2024⁃05⁃02)[2024⁃09⁃02]. https://openreview.net/pdf?id=bJbSbJskOS.
[2] Kondratyuk D, Yu L, Gu X, et al. Videopoet: A large language model for zero⁃shot video generation[EB/OL].(2024⁃06⁃04)[2024⁃09⁃02]. https://arxiv.org/pdf/2312.14125.
[3] Fei H, Wu S, Ji W, et al. Video⁃of⁃thought: Step⁃by⁃step video reasoning from perception to cognition[EB/OL].(2024⁃05⁃02)[2024⁃09⁃02]. https://openreview.net/pdf?id=fO31YAyNbI.
[4] Jin Y, Sun Z C, Xu K, et al. Video⁃lavit: Unified video⁃language pre⁃training with decoupled visual⁃motional tokenization[EB/OL].(2024⁃06⁃03)[2024⁃09⁃02].https://arxiv.org/pdf/2402.03161.
[5] Cohen N, Kulikov V, Kleiner M, et al. Slicedit: Zero⁃Shot Video Editing With Text⁃to⁃Image Diffusion Models Using Spatio⁃Temporal Slices[EB/OL].(2024⁃05⁃20)[2024⁃09⁃02]. https://arxiv.org/pdf/2405.12211.
[6] Yariv G, Gat I, Benaim S, et al. Diverse and Aligned Audio⁃to⁃Video Generation via Text⁃to⁃Video Model Adaptation[C]//Proceedings of the AAAI Conference on Artificial Intelligence 2024, 38(07):6639⁃6647.
[7] Liu J H, Qu Y R, Yan Q, et al. Fréchet Video Motion Distance: A Metric for Evaluating Motion Consistency in Videos[EB/OL].(2024⁃07⁃23)[2024⁃09⁃02]. https://arxiv.org/pdf/2407.16124.
[8] Melas⁃Kyriazi L, Laina I, Rupprecht C, et al. IM⁃3D: Iterative Multiview Diffusion and Reconstruction for High⁃Quality 3D Generation[EB/OL].(2024⁃02⁃13)[2024⁃09⁃02]. https://arxiv.org/pdf/2402.08682.
[9] Hui K H, Sanghi A, Rampini A, et al. Make⁃A⁃Shape: a Ten⁃Million⁃scale 3D Shape Model[EB/OL].(2024⁃05⁃02)[2024⁃09⁃02]. https://openreview.net/pdf?id=8l1KYguM4w.
[10] Luo Y, Ji T Y, Sun F C, et al. OMPO: A Unified Framework for RL under Policy and Dynamics Shifts[EB/OL].(2024⁃05⁃29)[2024⁃09⁃02]. https://arxiv.org/pdf/2405.19080.
[11] Lee H, Jin M, Lavaei J, et al. Pausing Policy Learning in Non⁃stationary Reinforcement Learning[EB/OL].(2024⁃05⁃25)[2024⁃09⁃02]. https://arxiv.org/pdf/2405.16053.
[12] Singla J, Agarwal A, Pathak D. SAPG: Split and Aggregate Policy Gradients[EB/OL].(2024⁃07⁃29)[2024⁃09⁃02]. https://arxiv.org/pdf/2407.20230.
[13] Li J X, Zheng J L, Zheng Y N, et al. Decisionnce: Embodied multimodal representations via implicit preference learning[EB/OL].(2024⁃05⁃24)[2024⁃09⁃02]. https://arxiv.org/pdf/2402.18137.
[14] Lee S, Wang Y B, Etukuru H, et al. Behavior generation with latent actions[EB/OL].(2024⁃06⁃28)[2024⁃09⁃02]. https://arxiv.org/pdf/2403.03181.
[15] Mazzaglia P, Verbelen T, Dhoedt B, et al. Multimodal foundation world models for generalist embodied agents[EB/OL].(2024⁃06⁃26)[2024⁃09⁃02]. https://arxiv.org/pdf/2406.18043.
[16] Park Y, Margolis G B, Agrawal P. Automatic Environment Shaping is the Next Frontier in RL[EB/OL].(2024⁃07⁃23)[2024⁃09⁃02]. https://arxiv.org/pdf/2407.16186.
[17] Carlini N, Paleka D, Dvijotham K, et al. Stealing Part of a Production Language Model[EB/OL].(2024⁃07⁃09)[2024⁃09⁃02]. https://arxiv.org/pdf/2403.06634.
[18] Wang H N, Shen Q L, Tong Y, et al. The Stronger the Diffusion Model, the Easier the Backdoor: Data Poisoning to Induce Copyright Breaches Without Adjusting Finetuning Pipeline[EB/OL].(2024⁃05⁃26)[2024⁃09⁃02]. https://arxiv.org/pdf/2401.04136.
[19] Cai Y Z, Yin S, Wei Y X, et al. Ethical⁃Lens: Curbing Malicious Usages of Open⁃Source Text⁃to⁃Image Models[EB/OL].(2024⁃04⁃18)[2024⁃09⁃02]. https://arxiv.org/pdf/2404.12104.
[20] Brown⁃Cohen J, Irving G, Piliouras G, et al. Scalable AI Safety via Doubly⁃Efficient Debate[EB/OL].(2023⁃11⁃23)[2024⁃09⁃02]. https://arxiv.org/pdf/2311.14125.
[21] Panaitescu⁃Liess M A, Che Z, An B, et al. Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data?[EB/OL].(2024⁃07⁃24)[2024⁃09⁃02]. https://arxiv.org/pdf/2407.17417.
[22] Shaw S, Nassi B, Schönherr L. Generated Audio Detectors are Not Robust in Real⁃World Conditions[EB/OL].(2024⁃06⁃29)[2024⁃09⁃02]. https://openreview.net/forum?id=1R7RD1dfcC.
[23] San Roman R, Fernandez P, Elsahar H, et al. Proactive Detection of Voice Cloning with Localized Watermarking[EB/OL].(2024⁃06⁃06)[2024⁃09⁃02]. https://arxiv.org/pdf/2401.17264.
主管单位:国家电影局
主办单位:电影技术质量检测所
标准国际刊号:ISSN 1673-3215
国内统一刊号:CN 11-5336/TB
投稿系统:ampt.crifst.ac.cn
官方网站:www.crifst.ac.cn
期刊发行:010-63245081
热门跟贴