打开网易新闻 查看精彩图片

ROBOT INDUSTRY

世界模型作为连接人工智能与物理世界的核心技术底座,通过学习现实世界的物理特性、空间动态与因果关系构建内部表征,实现环境理解、状态预测和行动规划,被视为实现通用人工智能( AGI )的关键路径。

打开网易新闻 查看精彩图片

当前,全球科技巨头加速卡位布局,技术迭代与产业应用同步推进,但也面临诸多瓶颈。本文将系统分析世界模型的发展态势与核心挑战,提出针对性对策建议,为推动产业高质量发展提供参考。

1

世界模型发展态势分析

打开网易新闻 查看精彩图片

全球竞争格局:巨头领衔赛道,中美主导博弈

全球世界模型领域已形成“巨头领跑、中小企业跟进”的竞争格局,美国凭借技术先发优势占据主导地位,我国企业全面跟进并聚焦应用突破,形成双雄并立、各有优势的发展态势。

美国世界模型产业以科技巨头为核心,构建了全链条布局优势。以“通用大模型+垂直微调”为主,强调模型规模效应和泛化能力。谷歌DeepMind持续领跑通用场景世界模型研发,从Genie初代到2025年发布的Genie 3,实现了从图像生成虚拟环境到文本驱动实时交互的跨越式升级,其720p分辨率、24帧/秒的实时生成能力及分钟级场景一致性,树立了行业技术标杆。英伟达凭借底层算力与生态优势形成垄断性壁垒,一方面,通过Omniverse物理AI操作系统统一3D格式与仿真标准,成为行业基础设施;另一方面,推出经过9000万亿token训练的Cosmos世界模型,精准适配机器人、自动驾驶等领域的极端场景训练需求,同时通过GPU算力供应掌控全球多数项目的研发命脉。Meta则依托VR/AR技术积累,以V-JEPA系列模型深耕视频训练与具身智能控制,其V-JEPA 2仅需62小时机器人数据即可完成规划与控制模型训练,展现出强大的效率优势。此外,“AI教母”李飞飞创办的World Labs等初创企业,从空间智能等垂直领域切入,进一步丰富了美国的产业生态。

我国世界模型产业呈现“应用驱动、多点突破”的发展特征。侧重“行业大模型+场景适配”,在自动驾驶、具身智能等垂直领域应用成熟度较高。企业布局聚焦自动驾驶、具身智能等核心场景,车企与科技巨头协同推进技术落地。蔚来率先发布国内首个智能驾驶世界模型NIO World Model,商汤绝影推出“开悟”世界模型及“悟能”具身智能平台,华为、腾讯、昆仑万维等企业也相继发布盘古世界模型、混元3D世界模型、Matrix-Zero系列模型等成果,其中腾讯混元3D世界模型实现开源,昆仑万维Matrix-Game 2.0成为业内首个通用场景实时交互开源方案。应用层面,高德地图基于自研世界模型推出飞行街景、AR实景等功能,带动高精度数据采集、智能交通等上下游产业发展,展现出世界模型赋能实体经济的巨大潜力。整体来看,我国在应用落地与工程化能力上优势明显,但在底层技术与生态构建上仍存在差距。

技术发展现状:掩码范式成核心,多模态融合加速

世界模型技术正处于快速迭代期,核心技术路径逐步清晰,多模态融合与交互能力持续提升。最新研究明确,真正的世界模型并非单一模型,而是由生成系统、交互系统、记忆系统构成的有机整体,其中生成系统承载物理法则模拟,交互系统实现环境与智能体的闭环互动,记忆系统保障时间维度的场景连贯性。

掩码(Masking)范式已成为跨模态建模的核心技术路径,推动世界模型从“技巧应用”向“生成原则”升级。从NLP领域的离散扩散模型,到视觉领域的MAE、MaskGIT等并行生成技术,再到VideoMAE的时空掩码、wav2vec 2.0的音频掩码,掩码范式实现了对文本、图像、视频、3D点云等多模态数据的统一表征学习。这种技术路径不仅提升了生成质量与推理效率,更推动世界模型从“拼凑式多模态”向“统一架构多模态”演进,形成语言先验与视觉先验两大技术阵营,其中基于掩码的离散扩散路线凭借双向注意力优势,在视觉生成质量上展现出超越自回归路线的潜力。

实时交互与物理仿真能力成为技术竞争焦点。国际领先模型已实现文本驱动的实时动态世界生成,谷歌Genie 3支持“可提示的世界事件”,能通过文本指令改变环境参数;英伟达Cosmos模型在流体力学、刚体动力学等复杂物理场景模拟上精度优异,预测误差低于5%。我国模型在实时帧率、分辨率等指标上逐步追平国际水平,如腾讯WorldPlay实现生成24帧/秒720p交互式视频,但在物理一致性、因果推理能力上仍有差距,动态场景预测误差普遍超过15%,单目视频4D重建的泛化能力不足。

打开网易新闻 查看精彩图片

产业应用前景:千亿市场开启,多领域赋能升级

世界模型的核心价值在于通过虚拟仿真降低真实场景训练成本、拓展应用边界,已在多个领域展现出商业化潜力,被预判为下一个千亿美元级赛道。其应用场景可分为三大核心领域:一是智能驾驶与智能交通,通过数字孪生城市模拟极端路况,降低自动驾驶测试成本,提升交通调度效率,如高德与千方科技合作的城市大脑解决方案,已接入全国200余个城市并实现显著盈利增长,预计两年内实现L3级商业化落地,世界模型用于极端场景生成和仿真测试;二是具身智能与工业制造,机器人可在虚拟环境中完成海量训练,规避真机损耗,优必选Walker系列人形机器人已在工业场景应用实现由“原型阶段”进入“有限商业化”,预期服务机器人(家庭、医疗)发展步伐将不断加快;三是生活服务与娱乐,飞行街景、AR导航、开放世界游戏生成等功能,推动消费体验升级与数字经济发展,高德扫街榜日活跃用户超4000万户,为本地生活商家带来显著流量增量。此外,世界模型在医疗导航、应急响应等公共服务领域的应用也在逐步拓展,如高德“急救导航”功能已将杭州急救响应时间缩短18%。

核心发展瓶颈:技术、生态与成本三重制约

尽管世界模型发展势头迅猛,但仍面临多重瓶颈。技术层面,因果推理能力缺失,核心短板集中在因果推理与物理建模、大规模仿真能力两大领域。国内模型多以感知压缩为主,对物理规律的深层理解不足,复杂场景下的泛化能力与鲁棒性较弱;单场景实体并行仿真规模仅为百万级,端到端延迟超过300ms,与国际领先的亿级实体、100ms以内延迟存在较大差距。生态层面,开源生态成熟度不足,国产工具链功能完整性约为国外的60%,核心算法依赖授权,开发者社区规模仅为美国的1/5;同时,3D数据格式不统一、跨平台兼容性差等问题,制约了产业协同发展。成本层面,算力与数据成本过高,高端算力依赖进口,英伟达A100/H100 GPU垄断训练市场,国产主流算力芯片性能仅为A100的70%,导致模型训练与推理成本较国际水平高出30%~50%;高精度数据采集成本高、合成数据质量不足(Sim-to-Real误差超过8%)等问题,进一步推高了产业落地成本。此外,泛化能力不足,模型在训练数据分布外场景表现差,如自动驾驶模型在极端天气、罕见事故场景中失效率高;可解释性差,模型决策过程如同“黑箱”,难以追溯推理路径,在医疗、司法等高风险领域应用受限。

2

世界模型发展对策建议

打开网易新闻 查看精彩图片

技术攻坚:聚焦核心短板,构建分层突破体系

针对技术瓶颈,构建“基础研究+关键技术+应用验证”的分层突破体系,集中力量攻克核心短板。一是强化基础理论研究,着力支持因果机器学习、物理约束建模、掩码范式优化等前沿方向,鼓励高校与科研院所开展“从0到1”的原创性研究,破解物理世界表征与因果推理的底层难题。建议设立世界模型专项科研基金,推动产学研协同攻关,力争将动态场景物理预测误差降至10%以内。二是突破关键技术瓶颈,重点研发单目视频4D重建、大规模并行仿真、跨模态语义对齐等核心技术;加速国产算力芯片迭代,推动华为昇腾、寒武纪等芯片的性能优化与生态适配,构建自主可控的分布式训练集群,不断降低高端算力成本。三是评估体系构建,依托自动驾驶、工业制造等典型场景,搭建标准化的技术测试与验证体系,通过真实场景反馈推动技术迭代,提升模型的鲁棒性与泛化能力。

产业赋能:锚定优势场景,推动规模化落地

立足国内庞大的市场需求与产业基础,以应用落地带动技术升级,实现“场景-技术-产业”的良性循环。一是聚焦优势场景落地,优先发展智能驾驶、智能交通、工业数字孪生等中国具有产业优势的领域,推动世界模型与实体经济深度融合。鼓励高德、蔚来等企业进一步拓展应用场景,完善“数据采集-模型训练-场景应用”的产业闭环;支持推进数字孪生城市试点,推动世界模型在交通调度、应急管理等公共服务领域的规模化应用。二是培育细分赛道龙头,引导中小企业避开通用场景竞争,聚焦垂直领域做精做专,如医疗导航、游戏场景生成、特种机器人训练等细分方向,形成“头部企业引领、中小企业补位”的产业格局。三是降低产业落地成本,推动高精度数据共享平台建设,在保障数据安全的前提下,整合车企、地图厂商、工业企业的数据资源,降低中小企业的数据获取成本;同时,推广合成数据技术应用,提升国产合成数据质量,不断提高合成数据在具身训练中的占比。

打开网易新闻 查看精彩图片

生态构建:强化开源协同,完善产业支撑体系

以开源生态为核心,构建全链条产业支撑体系,提升产业协同创新能力。一是推动核心技术开源共享,鼓励企业开放世界模型工具链与基础模型,如腾讯混元3D世界模型、昆仑万维Matrix-Game等已开源成果,扩大开发者社区规模;依托国内开源平台,建立世界模型开源标准与评估体系,提升开源项目的全球影响力。二是完善工具链与标准体系,联合产学研力量研发完善世界模型开发工具链,补齐数据标注、模型训练、仿真测试等环节的工具短板;推进3D数据格式、接口协议、安全规范等行业标准制定,解决跨平台兼容性问题,提升产业协同效率。三是构建人才培养体系,高校增设世界模型相关专业方向,培养兼具物理建模、人工智能、行业场景知识的复合型人才;企业与高校共建实习实训基地,通过项目实践提升人才的工程化能力,缓解产业人才短缺问题。

政策保障:优化发展环境,强化战略引导

发挥政策引导作用,营造良好发展环境,为世界模型产业发展提供有力支撑。一是加强顶层设计,将世界模型纳入国家人工智能相关发展规划,明确中长期发展目标与重点任务;各地结合产业基础出台配套政策,形成“国家引导、地方联动”的发展格局。二是加大政策扶持力度,对世界模型核心技术研发企业给予税收优惠、研发费用加计扣除等支持;设立专项研发基金,支持基础研究和关键技术攻关;推动政府采购世界模型相关产品与服务,为技术落地提供应用场景;完善数据治理法规,在保护隐私与促进数据流通间取得平衡。三是深化国际合作与安全监管,积极参与全球世界模型技术标准制定,加强与国际领先企业、科研机构的技术交流与合作;建立世界模型安全评估体系,防范技术滥用带来的伦理风险与安全隐患,保障产业健康发展。

3

结语

打开网易新闻 查看精彩图片

世界模型作为人工智能迈向通用智能的关键支撑,正开启千亿级产业赛道,其发展水平直接决定未来在智能驾驶、具身智能等核心领域的产业话语权。当前,中国世界模型发展呈现“应用并跑、技术跟跑、生态滞后”的特征,既面临底层技术与生态构建的挑战,也拥有市场规模、产业基础的独特优势。未来,需通过技术攻坚突破核心瓶颈,以产业赋能实现规模化落地,靠生态构建提升协同效率,用政策保障优化发展环境,推动世界模型产业高质量发展,为抢占全球人工智能产业制高点奠定坚实基础。

本文作者:

王厚芹 中国电子信息产业发展研究院科技处副处长

张玲宁 中国电子信息产业发展研究院软件与集成电路评测中心党委副书记

阅读更多内容,欢迎订购《机器人产业》杂志。

点击跳转!圈内人都在看的专家观点

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片