李飞飞押注的3D世界模型黑科技，被这篇论文一次性扒光！|3d世界|李飞飞|深度思考模型|点云|黑科技

前两天，李飞飞创业公司World Labs发布空间智能模型新成果，并推出可预览和创建3D世界的Marble平台。并发帖子表示她对3D世界生成的进展感到兴奋。

2D 视频生成卷到头了，但 真实物理世界天生是 3D+时间维度的 。
自动驾驶、机器人、XR、数字孪生都需要 几何一致、可交互、长时序 的时空场景。
缺乏统一术语 & 碎片化严重 ：同样叫“world model”，有人指视频生成，有人指预测器，有人指闭环仿真器。

本综述首次系统梳理 3D/4D 原生表示 （RGB-D、Occupancy Grid、LiDAR Point Cloud）的世界模型，给出明确定义、分层分类法、数据集与评测指标，并开源持续维护。

分层分类法

3D/4D World Model = 在原生三维或四维表示上，生成（Generative）或预测（Predictive）几何合理、语义可控、时空一致的场景，以支持感知-决策-仿真全链路任务。

图 2：三模态 × 四功能全景图（来源：论文 Figure 2） |

模态

代表表示

功能角色（4 类）

VideoGen

多视角视频流

① Data Engine ② Action Interpreter ③ Neural Simulator

OccGen

体素 Occupancy

① Scene Representor ② Occ Forecaster ③ Autoregressive Simulator

LiDARGen

点云序列

① Data Engine ② Action Forecaster ③ Autoregressive Simulator

各模态深度拆解 VideoGen——把视频生成做成“时空编剧”

典型方法时间线（2021-2025）

图 3：VideoGen 代表方法逐年汇总（来源：论文 Figure 3）

Data Engine ：MagicDrive、DiVE、DreamForge 等用 BEV/HD-Map 做几何约束，生成多视角长视频，解决长尾数据稀缺。
Action Interpreter ：GAIA-1/2、DriveWM、Vista 把“转向+速度”映射到未来帧，实现 动作-结果 可微分仿真。
Neural Simulator ：DriveArena、DreamForge 在闭环里交替“生成-决策”，替代传统游戏引擎渲染管线。

VideoGen模型分类

关键挑战：长时序一致性（InfinityDrive）、多视角几何对齐（DiST-4D）、稀疏标注下的可控性（MaskGWM）。

OccGen——把世界变成“可交互的乐高”

图 5：OccGen 三功能分类（来源：论文 Figure 5） |

Scene Representor ：SSD、SemCity 用扩散模型把稀疏 occupancy 补全为稠密语义体素，提升感知鲁棒性。
Occupancy Forecaster ：OccWorld、OccSora、T3Former 以 ego-action 为条件，预测未来 3s 的 4D occupancy，误差 < 30 cm。
Autoregressive Simulator ：DynamicCity、UniScene 支持“布局→时序体素→多传感数据”一条龙，实现 可编辑的大型开放世界 。

OccGen

关键挑战：细粒度动态物体（自行车、行人）补全、长时序误差累积、与下游规划器端到端联合训练。

LiDARGen——直接“点云编剧”

图 6：LiDARGen 三功能分类（来源：论文 Figure 6）

Data Engine ：R2DM、LiDM、WeatherGen 用扩散/流匹配生成逼真点云，解决恶劣天气、稀有场景数据不足。
Action Forecaster ：Copilot4D、ViDAR 把“历史点云 + 未来轨迹”映射到未来点云，实现 点云级别的动作推演 。
Autoregressive Simulator ：LiDARCrafter、LidarDM 支持 4D 点云序列闭环生成 ，可直接喂给下游检测/规划网络做训练。

关键挑战：保持扫描线结构、处理点云稀疏性、跨模态与图像语义对齐。

统一评测体系——不再“各玩各的”

表 14：五类评测指标总表（来源：论文 Table 14） |

Generation Quality ：FID/FVD、FRD/FPD、Consistency、Controllability、Human Preference
Forecasting Quality ：IoU@1s/2s/3s、Chamfer Distance、Temporal Consistency
Planning-Centric ：Open-Loop L2/碰撞率、Closed-Loop PDMS/ADS
Reconstruction Quality ：PSNR/SSIM/LPIPS、Novel-View IoU
Downstream ：3D Det mAP、BEV 分割 mIoU、VQA Top-1

https://arxiv.org/pdf/2509.07996
3D and 4D World Modeling: A Survey
https://github.com/worldbench/survey

李飞飞押注的3D世界模型黑科技，被这篇论文一次性扒光！

热搜

热门跟贴

热搜

热门跟贴

相关推荐

这才是美军真正隐藏的黑科技，拦截率100%，无人机群瞬间崩溃

不得不承认，大哥以后用电不用花钱了

一场内部测试，直接把特斯拉续航扒个精光，特斯拉藏的后手太狠了

自行车刹车的秘密，轻轻一捏就能停下

火星生命

新一轮造富浪潮开启，机器人时代真的要来了！

它既能变成潜艇又能充当隐形炮艇

韩国发明新式武器，不得不说太人性化，建议中国引进一下！

激光熔覆技术，帮工厂省了几十亿

和传统餐桌说再见，现在餐桌设计太科技，各种特点意料之外！

小作坊藏黑科技！自动化制砖太猛了

姐姐研发写作业神器，完美解决弟弟偷懒，甚至自己不需要动嘴！

古代的行军桌设计，桌子能秒变成箱子，这就是榫卯结构的魅力！

把发电站搬上天，98年小伙震撼世界

为什么船锚一放，人必须立刻跑？

智能汽车的终极形态

女子在家脑洞大开，直接用白板做出个钢制书架，人怎么能这聪明！

华为巨鲸电池平台3.0，不止安全一点

钢化玻璃改裁是不允许的，内应力全部改变了，很容易自爆！

Mate80直播黑科技揭秘，Remy 3D技术原理是什么？