11月26日,World Labs 联合创始人、斯坦福大学以人为本HAI院长李飞飞与 World Labs 联合创始人 Justin Johnson 接受了海外播客 Latent Space 的专访。本次对话全面探讨了 World Labs 的成立契机、从“识别”到“生成”的技术演进、世界模型的“AlexNet时刻”、学术界在“算力霸权”时代的定位重构、视觉与语言的本质差异、空间智能的生物学起源,以及 Transformer 架构等话题内容。
李飞飞与 Justin Johnson 首先回顾了深度学习的发展脉络。Justin 指出,深度学习的历史本质上就是算力扩展的历史,从 AlexNet 至今,单卡性能提升千倍,集群规模扩大百万倍,这为将 AI 从数据中心带入 3D 物理世界提供了必要的“AlexNet 时刻”。针对学术界与工业界的张力,两人一致认为,学术界不应卷入“训练最大模型”的竞赛,因为那是工业界的主场;相反,学术界应回归探索那些当前看起来“古怪”的基础科学想法,例如设想适应未来十到二十年后非 GPU 硬件的全新神经网络架构,以及填补大模型理论基础的空白。
针对技术路线的演进,Justin 提出了“像素至上论”,认为像素是对物理世界更无损、更通用的表征,而语言本质上是经过高度抽象的“有损压缩”,将文本渲染成图像再喂给模型可能是一种效率低下的路径。李飞飞则指出“空间智能”经过了 5.4 亿年的进化优化,是人类文明的基石,而语言仅有 50 万年历史,两者是互补而非替代关系。
在谈及 AI 是否“理解”世界时,双方认为目前的模型表现出的是一种不同于人类的“外星智能”,它们通过海量数据拟合模式,但尚未真正掌握因果物理定律,单纯的潜空间建模未必能自动涌现出物理法则。
关于 World Labs 的首款产品 Marble,李飞飞强调其核心在于构建一个可交互、可编辑的 3D 世界,而非简单的视频生成,这将填补具身智能训练中“合成数据”的巨大缺口。Justin指出,Transformer 本质上不是序列模型,而是基于集合论的“集合模型”,位置编码是唯一注入顺序信息的机制,这一特性使其天然适合处理多模态的 3D 空间数据。两人认为,未来的世界模型将不再局限于单一模态,而是走向视觉、物理与语言的深度融合。
01
从 ImageNet 到空间智能的自然演进
大家对世界模型非常有兴趣,你们也围绕空间智能等话题做了一些宣传。我想这个故事中你们难得有机会讲述的部分也许是:你们两位是如何走到一起并创立 World Labs 的?
李飞飞:这很简单,因为 Justin 是我以前的学生。Justin 来到了我的实验室,我的另一个身份是斯坦福大学计算机科学教授,Justin 是什么时候加入我实验室的?
Justin Johnson:2012 年。实际上,我加入你实验室的那个季度正是 AlexNet 发布的那个季度。
李飞飞:Justin 是我最优秀的学生之一,随后他在密歇根大学安娜堡分校和 Meta 开启了非常成功的早期职业生涯,成为了一名教授。然后肯定是在两年多前,我想我们两人都独立地关注着大模型的发展,并思考语言模型之后会是什么。这种构建世界模型、空间智能的想法对我们来说真的很自然。所以我们开始交流,并决定我们应该孤注一掷,专注于解决这个问题,于是共同创立了 World Labs。
Justin Johnson:是的,基本就是这样。在读博期间目睹了 ImageNet 时代后,我有种感觉,计算机视觉的下一个十年将致力于把 AI 带出数据中心并带入现实世界。所以我博士毕业后的很多兴趣转移到了 3D 视觉,多了一点计算机图形学,也多了一点生成式建模。我当时以为在博士毕业后我和导师的关系会逐渐疏远,但当我们几年后重聚时,发现她在思考非常相似的事情。
如果回顾 AlexNet,它的核心显然是 ImageNet,那是向 GPU 和神经网络的转变。你如何看待世界模型领域的“AlexNet 时刻”?在数据、不同类型的算法或计算方法方面,你想要构建哪些基础要素来让世界模型真正成为现实?
Justin Johnson:我认为一点是通常有更多的数据和算力可用。我认为深度学习的整个历史,在某种意义上就是算力扩展的历史。如果你回想 AlexNet,它需要从 CPU 到 GPU 的跨越,但即使是从 AlexNet 到今天,我们在单张显卡上获得的性能也是 AlexNet 时代的约一千倍。现在训练模型不仅常见于在一个 GPU 上,而是在数百、数千、数万甚至更多 GPU 上。所以我们今天能在一个单一模型上调度的计算量,是我们(即使在我博士刚开始时)能拥有的约一百万倍。语言模型是过去几年开始运作得很好的真正有趣的事情之一,但当我们考虑转向视觉数据、空间数据和世界数据时,你需要处理的数据量要大得多。我认为这将是一个很好的方式来充分利用这些越来越多上线的新增算力。
这种举办公开挑战赛的模式还有效吗?还是说研发应该集中在实验室内部进行?这仅仅是资金和商业模式的问题吗?比如你必须从中看到一些投资回报率?现在涉及到这么多资金,以及它给学术界和开放研究领域带来的压力是一个问题吗?还是说你觉得那真的不必过虑?
李飞飞:我认为开放科学仍然很重要。显然,现在的 AI 与 ImageNet/AlexNet 时代相比已经真正进化了。那时候它只是一个如此小众的计算机科学学科,现在它已是文明变革级的技术。但我会给你一个例子,最近我的斯坦福实验室刚刚宣布了一个名为 BEHAVIOR 的开放数据集和基准,这是为了在模拟环境中对机器人学习进行基准测试。那是一个非常明确的努力,旨在继续保持这种(特别是在学术界)做研究的开放科学模式。
(关于生态系统)但我认为认识到生态系统是一个混合体很重要。我认为很多在工业界非常专注的工作,其中一些更多是以产品的形式面世,而不是作为一个公开挑战赛本身。
(关于商业模式)我认为这只是生态系统多样性的问题。即使在所谓的 AlexNet/ImageNet 时代,也有封闭模型,有专有模型,也有开放模型。或者你看看 iOS 对比 Android,有不同的商业模式。我不会说这仅仅是资金本身的问题,这只是市场原本的形态。有不同的玩法。
(关于资源配置)我确实有顾虑,倒不是关于压力,更多是关于资源配置以及学术界资源配置的不平衡。这与 World Labs 的话题稍有不同。作为斯坦福以人为本人工智能研究院(Stanford HAI)的创始院长和联席院长,我一直在与政策制定者合作,讨论公共部门和学术界 AI 工作的资源配置问题。我们与第一届特朗普政府和拜登政府在《国家人工智能研究资源法案》(NAIRR)上进行了合作,该法案正在规划一个国家级的 AI 计算云以及数据存储库。我也认为开源、开放数据集继续是生态系统的重要部分。就像我说的,现在在我的斯坦福实验室,我们正在做一个关于机器人学习的开放数据集和基准测试叫 BEHAVIOR,我的许多同事仍然在做这类工作。我认为那是生态系统的一部分。我认为工业界正在做的事情——一些初创公司正在利用模型快速奔跑创造产品——也是一件好事。
如果设身处地为你着想,你拥有为此准备的最好的数据集,你真的有什么动力去发布它?感觉实验室里的人正越来越早地被从博士项目中拉进这些实验室。回到学术界和工业界的选择问题,是什么动力让你如此感兴趣?
Justin Johnson:我在本科期间实际上跟随 Fei-Fei 的博士导师做了一些计算机视觉研究。所以这里有一种师承关系。所以我甚至作为一个本科生也做了一些计算机视觉研究,我认为它真的很酷,我想继续做。随后我面临着这种工业界与学术界的选择——即使是本科毕业出来——我认为研究社区的很多人现在正面临着这个问题。但回到你的问题,我认为学术界的角色,特别是在 AI 领域,在过去十年已经发生了相当大的转变。这并不是一件坏事。这是一种因为技术已经成长和涌现而产生的感觉。
(关于学术界定位)五年或十年前,你真的可以在实验室训练最先进的模型,即使只有几个 GPU。但因为那项技术如此成功并扩展了这么大的规模,你再也不能只用几个 GPU 训练最先进的模型了。那不是一件坏事,这是一件好事。这意味着技术实际上起作用了。但这意味围绕我们作为学者应该做什么的期望稍微转变了一点。它不应该是关于试图训练最大的模型和扩展最大的东西。它应该是关于尝试古怪的想法、新的想法和疯狂的想法,其中大多数可能不会成功。我认为那里有很多事可做。
(关于研究顾虑)如果说有什么顾虑的话,我担心学术界有太多人过度专注于这种试图假装我们可以训练最大模型的概念,或者是把它几乎当作一个职业培训项目,以便毕业后去一个大实验室并能够玩转所有的 GPU。我认为围绕新算法、新架构、新系统有太多疯狂的东西你可以做,作为一个个体你可以做很多。
李飞飞:而且学术界在理解这些大模型的理论基础方面也有角色要扮演。我们对这个仍然知之甚少。或者扩展到跨学科,有很多基础科学想法,有很多蓝天探索式问题。所以我同意,我不认为问题是开放对封闭,产品化对开源。我认为现在的问题是学术界本身严重资源不足,导致研究人员和学生没有足够的资源来尝试这些想法。
02
为未来十年的硬件设计截然不同的架构
当你谈论“古怪的想法”时,脑海中浮现的一个例子是什么?真的很难下那些赌注,因为也有“硬件彩票”的概念。假设 Nvidia 赢了,我们应该只是无限扩展它,并编写软件来修补我们在组合中遇到的任何差距吗?
Justin Johnson:比如,我有这个一直向我在密歇根的学生推销的想法,就是我真的很喜欢硬件,我真的很喜欢新种类的硬件上线。在某种意义上,我们今天使用的神经网络和 Transformer 的出现真的是基于矩阵乘法,因为矩阵乘法非常适合 GPU。但如果我们思考硬件在未来可能如何扩展,我不认为我们拥有的当前系统,像 GPU 硬件设计,将会无限扩展。我们甚至现在已经开始看到,计算的单位不再是单一设备,而是这整个设备集群。
(关于分布式原语)所以如果你想象硬件扩展出去,是否有其他对大规模分布式系统更有意义的原语,可以让我们在其上建立神经网络?我认为有可能出现截然不同的架构,以适应下一代或未来十或二十年将要到来的硬件。我们今天就可以开始设想那个未来。
(关于摩尔定律极限)我意思是,是也不是。但如果你看数字,即使从 Hopper 到 Blackwell,每瓦性能大约是一样的。他们主要是让晶体管数量增加,让芯片尺寸增加,让功耗增加。但即使从 Hopper 到 Blackwell,我们在可以获得的每瓦性能方面已经有点看到了扩展限制。所以我认为有空间做一些新的东西。我不知道它确切是什么,而且我不认为你作为一个初创公司可以在三个月的周期内完成它,但我认为那是那种长期范围的东西,是学术界的完美匹配。
03
图像描述的起源与早期生成式探索
回到一点背景和历史,我们看到了这份关于“场景叙事”工作的研究笔记,或者叫神经图像字幕,是你和 Andrej Karpathy 做的工作。我只是想听你们讲讲那个故事,关于你如何在博士期间着手做那个,以及 Fei-Fei,你当时的反应。
李飞飞:是的,所以我认为那行工作开始于我和 Andrej 之间,然后 Justin 加入了。Andrej 开始读博时,他和我在看 ImageNet 物体识别之后是什么。在那时,卷积神经网络(ConvNet)已经在 ImageNet 任务中证明了一些威力,所以 ConvNet 是表征图像的一种好方法。与此同时,我认为在语言领域,一个早期的顺序模型叫 LSTM 也在被实验。所以 Andrej 和我只是在谈论...这一直是我的一个长期梦想。我以为需要一百年才能解决,就是讲述图像的故事。当我博士毕业时,我真的以为我余下的整个职业生涯都将致力于解决那单一的问题,就是:给定一张图片或给定一个场景,用自然语言讲述故事。
(关于早期突破)但事情发展得太快了。当 Andrej 开始时,我们想,也许结合卷积神经网络的表征以及 LSTM 的语言顺序模型,我们也许能够通过训练来将字幕与图像进行匹配。所以那是我们开始那行工作的时候。我想那是 2014 年或 2015 年?
Justin Johnson:字幕论文是在 CVPR 2015 发表的。
李飞飞:对。所以那是我们的第一篇论文,Andrej 让它工作了,也就是,给定一个图像,图像用 ConvNet 表征,语言模型是 LSTM 模型,然后我们将它结合,它能够生成一个句子。那是首批成果之一。我想我在我的书里写了它。我们以为我们是第一批做这件事的人。结果发现 Google 那个时候也在同步做这件事,还有一个记者,是《纽约时报》的 John Markoff,正在报道 Google 的故事,但他偶然听说了我们。然后他意识到我们真的是独立地在同一时间到达了那里。所以他写了关于 Google 研究以及 Andrej 和我的研究的故事。但在那之后,我想 Justin 那时已经在实验室里了。
Justin Johnson:是的。我记得那个小组会议,Andrej 正在展示一些那些结果并解释这个叫做 LSTM 和 RNN 的新东西,我以前从未听说过。我想,“哇,这真是令人惊叹的东西。我想做那个。”所以然后他在 CVPR 2015 上发表了关于第一批图像字幕结果的论文。然后在那之后我们开始一起工作,我们做了一个第一...我们实际上只是做了一篇关于语言建模的论文,我和 Andrej,回到 ICLR 2015。
李飞飞:是的,我应该坚持做语言建模的。回想起来那结果是相当有利可图的!
Justin Johnson:但我们一起做了这篇语言建模论文,我和 Andrej,在 2015 年,那里真的很酷。我们训练了这些小的 RNN 语言模型,可以一次吐出几个句子,并戳戳它们,试图理解神经网络内部的神经元在做什么。
李飞飞:记得你们当时正在分析 LSTM 内部不同的记忆单元。
Justin Johnson:没错,真的很难酷。即使在那个时候,我们就已经得出了一些结果,可以深入 LSTM 内部观察,发现它“正在阅读代码”。我们训练用的数据集之一是 Linux 源代码,因为它是开源的,可以直接下载。我们在该数据集上训练了一个 RNN,当网络尝试预测接下来的 Token 时,我们试图将它的预测类型与 RNN 内部的结构对应起来。我们发现了一些相关性,比如当遇到左括号时,LSTM 这一层的某个单元会被激活,而遇到右括号时则会关闭。我们尝试通过这类实证研究来搞清楚它的原理。这确实很酷,基本上是将 CNN 从语言建模部分剥离出来,孤立地研究语言模型。
04
从单一图像到密集描述的实时流传输演示
后来你们是如何扩展图像描述工作的?我记得还有关于密集描述的系统,这是一个非常复杂的神经网络架构。它是通过一次前向传播完成的吗?我还听说你做了一个疯狂的实时演示,当时的延迟是不是很严重?
李飞飞:后来我们想扩展图像描述的工作。我记得当时我们甚至有一种空间感上的缺失,感觉原本的描述并没有捕捉到图像的不同部分。所以我当时跟 Justin 和 Andrej 讨论,能不能做我们后来称之为“密集描述”的项目,也就是更详细地描述场景,特别是场景的不同部分。
Justin Johnson:是的。第二年,也就是 2016 年的 CVPR,我和 Andrej 以及 Fei-Fei 合作发表了一篇论文,构建了这个进行密集描述的系统。输入一张图像,它会在所有感兴趣的目标周围画框,并针对每一个目标写一段简短的描述。比如“这是一个桌上的绿色水瓶”或“这是一个穿着黑色衬衫的人”。这是一个非常复杂的神经网络,因为它建立在当时目标检测领域取得的许多进展之上,而目标检测长期以来一直是计算机视觉的主要课题。它实际上是一个联合神经网络,既学习观察单张图像,网络内部又有三种不同的表示。一种是整张图像的表示,用来获取整体全貌。然后它会提出想要关注的独立区域,并独立地表示每个区域。一旦关注了某个区域,就需要为该区域输出文本。这是一个相当复杂的神经网络架构,而且是在 PyTorch 出现之前的时代。
(关于推理优化)对,一次前向传播就完成了所有工作。
李飞飞:不仅是一次完成,你还优化了推理,我记得你是在网络摄像头上运行它的。
Justin Johnson:是的,我做了一个疯狂的实时演示。我在 Stanford 的服务器上运行网络,前端网页从网络摄像头流式传输视频,将图像发回服务器。服务器运行模型后再将预测结果回传。当时我就拿着笔记本电脑在实验室里走来走去,给人们展示这个实时运行的网络。
李飞飞:这非常令人印象深刻,因为我的大多数研究生如果能发表论文就满足了。他们通常把研究打包写进论文里,但 Justin 更进一步,他说想做这个实时的网页演示。
Justin Johnson:其实还有个故事,那年我们在圣地亚哥参加 ICCV '15 会议。我在那个会议上有一篇关于其他内容的论文,但我带着笔记本电脑在会议现场走来走去,向每个人展示这个实时描述的演示。模型其实是在 California 的服务器上运行的,所以数据实际上是跨越了从 California 到圣地亚哥的距离进行流式传输。
(关于延迟)非常严重,大概只有 1 FPS。但它居然能运行,这本身就挺惊人的。
05
像素是比语言更无损、更通用的物理世界表征
也许视觉和语言建模并没有那么大的不同。DeepSeek-VL 最近尝试了一个疯狂的想法,即从像素对文本进行建模,直接在像素上训练。这可能是未来,我不知道你们对于“语言是否真的完全必要”有什么看法。我们是应该坚持语言模型,还是说“像素至上论”有其道理?
李飞飞:我刚写了一整篇关于空间智能的宣言。我认为它们是不同的。我确实认为这些生成式模型的架构会共享很多组件,但我认为深度的 3D、4D 空间世界拥有某种结构层级,这与一维的纯生成信号有着根本的不同。
Justin Johnson:我认为“像素至上论”是有一定道理的。有一种观点认为语言是某种不同的东西,但我们是用眼睛看语言的,而我们的眼睛本质上就是在处理像素。我们眼球后方有某种生物像素在处理这些信息。我们看到文本,将其视为离散的东西,但这真的只存在于我们的思维中。文本和语言在现实世界中的物理表现是印在物体上的物理对象,我们要用眼睛去通过视觉捕捉它。
(关于信息丢失)没错。如果你将其转化为我们在大语言模型中使用的那些纯粹 Token 化的表示,实际上就丢失了一些信息。你丢失了字体、换行符、页面上的 2D 排版。在很多情况下也许这并不重要,但对于某些事情这很重要。我认为像素是对世界上正在发生的事情的一种更无损的表示,在某些方面也是一种更通用的表示,更符合我们人类在探索世界时所看到的。所以这里有一个效率的论点:也许把文本渲染成图像然后喂给视觉模型并不是超级高效。
06
世界模型的归纳偏置与物理规律
这与整个世界模型有关。我今年看到的最喜欢的论文之一是关于探测世界模型的归纳偏置。所以,你怎么思考嵌入在数据中的内容?我们可以讨论 3D 世界模型的 Token 化。比如信息的维度是什么?有视觉维度,但你需要从数据中提取多少潜在的隐藏力?是显式地测量所有的力喂给模型,还是寄希望于某种东西能更潜在地涌现?
Justin Johnson:这正是 DeepSeek 所做的,而且似乎还挺管用的。但关于归纳偏置,那是 Harvard 的一篇论文,他们将很多轨道模式输入到一个大语言模型中,然后要求它预测行星绕太阳的轨道。它生成的模型看起来不错,但如果你让它画出力矢量,结果就会非常离谱,实际上并不遵循物理规律。所以,这其中的挑战是什么?
(关于两种范式)我认为可以用不同的方式来处理这个问题。一种是显式地处理,比如测量所有的力,并将这些作为训练数据喂给模型。你可以运行一个传统的物理模拟,获知场景中所有的力,然后用这些作为训练数据来训练一个模型,希望它能预测这些力。或者你可以寄希望于某种东西能更潜在地涌现,即你在某种端到端的任务上训练,解决一个更通用的问题,然后希望模型内部的某处必须学会建模像物理学这样的东西,以便做出正确的预测。这是我们目前普遍存在的两大范式。
李飞飞:但是没有迹象表明那些潜在建模会带你找到空间和动力学的因果定律。这就是今天的深度学习和人类智能实际上开始分叉的地方,因为从根本上说,深度学习仍然是在拟合模式。
07
AI是否真的“理解”世界
这就有点上升到哲学层面了。你会说我们人类也在试图拟合模式,但那篇论文的模型学会了拟合轨道的特定模式,却泛化失败,没有重力的因果模型。因为即使在 Marble 中,我在试用时发现它生成了美丽的风景,里面有拱门。但是模型真的理解拱门是如何依靠中心石支撑的,以及它的实际物理结构吗?只要它总是渲染出符合我们想象的物理模型的东西,它是否理解真的重要吗?最终会需要两个不同的模型来分别做视觉生成和建筑生成吗?
李飞飞:如果你用人类理解的方式使用“理解”这个词,我相当确定模型并不理解。模型是在从数据中学习,从模式中学习。至于这是否重要,取决于具体用例。目前我不认为这重要,因为它渲染出了你想要的东西,假设效果是完美的。
Justin Johnson:这取决于用例。如果用例是想要为虚拟电影或制作生成某种背景,你需要的只是看起来合理的东西。在那种情况下,可能这并不重要。但如果你是一名建筑师,要用这个来设计一栋随后要在现实世界中建造的建筑物,那么正确地建模力学确实很重要,因为你不想在实际建造时东西塌掉。
(关于理解的哲学)“理解”这个词有个陷阱。这些模型是一种与人类智能截然不同的智能。人类智能很有趣,因为我认为我理解事物是因为我可以在某种程度上内省我自己的思维过程。我相信我的思维过程可能和其他人相似,所以当我观察别人的行为时,我会推断他们的内部心理状态可能与我观察到的自己的内部心理状态相似,因此我知道我理解事物,所以我假设你也理解某些东西。但是这些模型就像某种外星形式的智能,它们可以做非常有趣的事情,展示非常有趣的行为。但无论它们拥有什么样的内部认知或自我反思——如果存在的话——都与我们完全不同。
李飞飞:它没有自我意识。
Justin Johnson:没错。所以这意味着当我们观察到这些系统表现出看似有趣或智能的行为时,我们不能必然推断出关于它们的其他事情,因为它们的世界模型和思考方式与我们截然不同。
(关于单一模型与涌现)我希望它是一个模型。但深度学习中的大问题在某种意义上是:你如何获得超出训练数据的涌现能力。你能得到某种具备理解力的东西吗?即使它并没有被训练去预测力,但它会在内部隐式地学习它们?我认为我们在其他大语言模型中看到的情况是,这种涌现行为确实会在大规模下发生。这会转移到其他模态、其他用例和其他任务上吗?我希望如此,但这将是一个需要随时间推移去验证的过程。
李飞飞:我认为这是关于扩展数据和改进模型的问题。我不认为这两者之间有什么根本性的隔阂。
08
Marble 产品揭秘与空间智能愿景
我们稍微谈到了 Marble,你们选择了它作为走出隐身模式的时刻。人们应该从中带走什么信息?它与你们的愿景,以及与其他实验室可能看到的其他生成式世界之间的差异是什么?我注意到一个非常有趣的工具,你可以在场景内部进行录制。试用视频生成模型时,我不得不学习导演的术语,但在 Marble 中似乎不同。
李飞飞:Marble 是我们窥见未来的第一眼,是这段旅程的起点。这是全球首个同类首创模型,能以如此高的保真度生成 3D 世界,并且已经面向公众发布。这只是一个开始。我们写了一篇技术博客,Justin 花了很多时间撰写。不知道你们有没有时间看。Justin 在文中详细拆解了 Marble 支持哪些多模态输入,支持哪些类型的可编辑性——即允许用户与模型进行交互,以及我们可以得到什么样的输出。
(关于核心愿景)Marble 是对我们模型的一瞥。我们是一家空间智能模型公司,相信空间智能是下一个前沿。为了制造空间智能模型,模型必须在多模态世界的理解、推理和生成能力方面非常强大,并且允许的交互水平最终要像人类与世界交互一样复杂。这就是空间智能的宏大愿景,以及我们要构建的那种世界模型。
(关于相机控制)没错,这非常重要。录制能力意味着对相机机位的精确控制。要实现精确的相机控制,必须具备 3D 空间感。否则你就不知道如何调整相机的朝向或移动轨迹。这是这种模型自然衍生的结果,只是众多例子之一。但即使那样,你也不能指令说“向北平移 63 度”,你根本没有那种控制力。而在 Marble 中,你对相机的放置拥有精确的控制权。
Justin Johnson:基本上,你可以把 Marble 看作是一个 3D 世界的生成式 AI 模型。你可以输入文本、图像或多张图像,它会为你生成一个与输入相匹配的 3D 世界。它也是交互式的,意味着你可以对场景进行实时编辑。比如我生成一个场景后,可以说:“我不喜欢这个水瓶,把它改成蓝色。去掉桌子。调整麦克风的位置。”然后基于这些交互式编辑生成新的世界,并导出为各种格式。
(关于产品与科研的平衡)对于 Marble,我们试图同时兼顾两件事,我认为我们很好地实现了平衡。一方面是构建一个迈向“空间智能”宏伟愿景的模型。这种模型需要能够理解多种类型的输入,在多种情境下模拟世界,并推演世界随时间变化的反事实情况。我们要开始构建具备这些能力的模型,而今天的 Marble 确实已经展现出了这些能力的雏形。但与此同时,我们是一家企业。我们不想让这只停留在科研项目层面,而是要打造出对当今现实世界有用的产品。因此,虽然 Marble 是一个致力于空间智能愿景的世界模型,但我们在设计时也有意让它成为人们当下就能使用的工具。我们已经看到游戏、视觉特效和电影领域涌现出的用例。我认为 Marble 作为一款产品在今天就能发挥很多作用,同时也为我们未来想要构建的宏大世界模型奠定了基础。
09
技术路线解密:高斯泼溅与物理模拟
我认为这是人们首先需要理解的一点,它不是像许多其他模型那样逐帧生成的。这里的基本单元是什么?是网格、泼溅还是体素?世界模型的根本数据结构是什么?另外,我还没看到物理和力,如果有 Marble 2,会有运动机制吗?是对高斯泼溅进行修改,还是完全不同的东西?泼溅密度的现状如何?受限于生成数量还是渲染数量?
Justin Johnson:这要分“现状”和“未来”。目前的模型原生输出的是泼溅。高斯泼溅就像微小的半透明粒子,在 3D 空间中有位置和方向,场景就是由大量这种高斯泼溅构建起来的。高斯泼溅非常酷,因为可以高效地实时渲染。你可以在 iPhone 上渲染所有内容。这就是我们获得精确相机控制的方式,因为泼溅可以在几乎任何客户端设备上实时渲染。所以对于今天生成的许多场景,基本单元就是单个泼溅。
(关于未来的架构)但我不认为这是根本性的。我可以想象未来会有其他有趣的方法。比如我们在 World Labs 内部研究过的 RTFM 模型,它确实是一次生成一帧,其基本单元就是随着用户交互逐帧生成的。或者未来的架构中,基本单元可能是一个 Token,代表 3D 世界的某个区块。我认为随着时间推移,我们可以尝试许多不同的架构。
(关于物理引擎集成)我认为有几种修改是合理的。在这个领域工作的美妙之处在于有很多集成方式。学术界已经有很多关于注入物理属性的有趣研究。高斯泼溅本身是小粒子,已经有很多方法将物理属性附加到泼溅上,比如设定质量,或者视为通过虚拟弹簧与邻居耦合。这样就可以在泼溅之上做物理模拟了。为这些增加物理、动力学或交互性的一种途径是,预测每个泼溅粒子的物理属性,然后利用经典物理学或学习算法进行下游模拟。或者,利用 3D 的可组合性在不同环节注入逻辑。比如我们生成 3D 场景,预测物体的 3D 属性,再用经典物理引擎模拟交互。另一种方式是,作为用户动作的结果,模型以泼溅或其他形式重新生成整个场景。这可能更通用,因为不受限于已知的物理建模方式,但计算要求更高。这是未来工作的一个有趣领域,正如你所说,可以添加到潜在的 Marble 2 中。
(关于渲染限制)会有一些限制,取决于目标用例。我们的一大限制条件是希望内容能在移动设备和 VR 头显中清晰渲染,这些设备的算力较弱。如果你想在四年前的 iPhone 上以 30 到 60 FPS 的高帧率渲染高分辨率泼溅文件,处理数量确实受限。但如果使用今年的 iPhone、最新的 MacBook 或本地 GPU,或者不需要 60 FPS 1080p 的流畅度,就可以放宽限制,使用更多泼溅,获得更高分辨率。
李飞飞:这里也存在动力学的机会。
10
合成数据是解决机器人“数据饥渴”的关键
我原本期待但没听到的一个用例是具身智能。你们现在只专注于虚拟领域吗?也许需要先解决虚拟世界,再转向具身领域。这本身就是一大步。我刚装修了车库,早该知道这个的。我想厨房是下一个。
李飞飞:如果你去 World Labs 主页的 Marble Labs 页面,会看到我们展示了不同的用例,包括视觉效果、游戏以及模拟用例。我们确实展示了这是一项可以在机器人训练中提供巨大帮助的技术。这回到了我之前谈到的数据匮乏问题。机器人训练非常缺乏数据,高保真的现实世界数据至关重要但难以获取。另一个极端是纯粹的互联网视频数据,但那样缺乏训练具身智能体所需的可控性。所以模拟和合成数据实际上是一个非常重要的中间地带。我在这个领域工作多年,最大的痛点之一就是获取合成模拟数据。你需要策划资产、构建场景、组合复杂情况。在机器人学中,你需要很多不同的状态,让具身智能体在合成环境中交互。Marble 非常有潜力帮助生成这些用于训练的合成模拟世界。
(关于应用领域)这还有待决定。我确实认为……
Justin Johnson:因为其他人都在直接进军那个领域,对吧?
李飞飞:也不完全是,但我会说那里很热门。不过世界足够大,容得下不同的方法。我们有早期测试版用户已经在使用 API 针对室内设计用例进行开发了。下次装修时我们可以帮忙。
Justin Johnson:我们一直将其视为一种相当横向的技术,随着时间推移应该能触及许多行业。Marble 目前可能更侧重于创意行业,但驱动它的技术适用于许多事物。机器人学的应用可能会比预期来得更早。我在网上开了个玩笑,在 Slack 上发视频说:“谁想用 Marble 来规划下一次厨房改造?”它在实际用途上效果很好。只要拍两张厨房照片,在 Marble 中重建,然后使用编辑功能看看更换台面、地板或橱柜后的效果。即使我们没有专门为此构建功能,但作为强大的横向技术,模型自然会衍生出这些用例。
11
5.4 亿年的进化 vs 50 万年的语言
我对整个空间智能领域很好奇,首先你如何定义它?它与人们认为 LLM 代表的传统智能之间有何差距?比如 Dario 说我们有一个“充满爱因斯坦的数据中心”,那像传统智能而非空间智能。要具备空间智能需要什么?我们是生来就会的吗?
李飞飞:首先我不理解“一个充满爱因斯坦的数据中心”这个比喻。AI 作为一个学科是受人类智能启发的。人类是已知宇宙中最聪明的动物。观察人类智能,它是非常多元的。心理学家 Howard Gardner 在 20 世纪 60 年代提出了“多元智能”理论,包括语言智能、空间智能、逻辑智能和情感智能等。对我来说,空间智能是对语言智能的补充,而不是对立。我们将空间智能定义为在空间中推理、理解、移动和交互的能力。我常用 DNA 结构推导做例子。虽然简化了故事,但这很大程度上涉及分子和化学键在 3D 空间中的空间推理,最终才推测出双螺旋结构。这种能力很难简化为纯语言,却是人类文明的巅峰时刻。
(关于不可言说性)但在日常生活中,比如我试图抓起一个马克杯。看到马克杯及其环境,看到自己的手,张开手在几何上匹配马克杯并触摸正确的功能可供性点(affordance points),整个过程都是深度的空间行为。这很难用语言叙述,而且叙述语言本身无法让你拿起马克杯。
(关于进化时间)作为一名视觉科学家,这很有趣。我总觉得视觉被低估了,因为它对人类来说太毫不费力了。你睁开眼睛,作为婴儿就开始看世界,仿佛生来就会。确实,我们几乎是与生俱来的,但你必须努力学习语言,包括学习写作、语法和表达,这让你感觉很困难。然而,大自然实际上花费了更多时间来优化的能力,即感知和空间智能,却被人类低估了。出生时我们的视敏度较低,感知能力确实会随着时间增强,但大多数人类生来就具备看的能力,也生来就具备将感知与运动联系起来的能力。在大自然中,优化感知和空间智能花费了 5.4 亿年,而语言——对语言发展的最慷慨估计大概也只有 50 万年。
12
知识的蒸馏与物理定律的涌现
这让我想起牛顿。我们使用语言来捕捉某些在经验和空间上也能理解的东西,但用语言描述更便捷。我们需要多久才能从你们的世界模型中“蒸馏”出知识并融入语言模型?难道为了做到这一点,必须完全抛弃语言模型吗?如果你有一个高精度的世界模型,但不给它任何关于我们目前物理学标准模型的概念,它能从头重构出物理定律吗?
Justin Johnson:我不认为需要抛弃。我觉得它们是多模态的。即使是我们现在的模型 Marble 也接受语言作为输入。所以它是深度的多模态模型,在许多应用场景中,这些模型将协同工作。即使拥有了通用模型,还有一个务实的问题:人们使用语言,并且希望用语言与系统交互。
(关于重构物理学)这确实是个有趣的问题。实际上你甚至不需要做 AI 来回答这个问题。如果发现外星人,看看他们拥有什么样的物理学就知道了。他们可能拥有一套完全不同的体系。我们对宇宙的知识和对物理学的理解,是否在某种程度上受到我们自身认知或技术进化路径依赖的限制?如果给予足够的天体运动数据,一个大语言模型实际上能预测出相当准确的运动轨迹,我也不会感到惊讶。假设我虚构了一个围绕恒星的行星系统,给予足够的数据,模型会告诉你第一天它在哪里,第二天它在哪里。这我不惊讶。但是 $F=ma$ 或者“作用力等于反作用力”,那完全是另一个抽象层级。这超出了今天大语言模型的能力范围。
李飞飞:举个例子,牛顿之所以能写下那些定律,正是因为他在观察物体下落的物理世界中,积累了大量的具身经验。我想知道人们是否可以运行这样一个实验:我们现在有大量关于行星或天体运动的天体物理数据。只要把这些数据输入到一个模型中,看看牛顿定律是否会涌现。我猜不会。牛顿定律的抽象层级与这些大语言模型所代表的层级不同。心理理论可能还会涉及到情商,这是今天的 AI 真的完全没有触及的领域。
13
Transformer 架构的本质
我必须问一个很多人发给我们的问题:我们需要抛弃多少东西?序列到序列建模过时了吗?注意力机制过时了吗?我们是在质疑一切吗?
李飞飞:我认为在世界模型中,我们将看到超越序列到序列的算法或架构。
Justin Johnson:我认为应该坚持使用有效的东西。注意力机制依然重要。很多东西如果没坏就不用修。世界上有很多难题要解决,让我们一次专注于一个。不过这里我觉得有一点技术上的误解。Transformer 实际上已经为我们解决了这个问题。Transformer 本质上并不是序列模型,它本质上是集合的模型。这非常强大。因为很多 Transformer 是从基于循环神经网络的早期架构演变而来的,而 RNN 确实有内置的顺序架构,它们确实是模拟一维序列的。但 Transformer 只是集合的模型,它们可以模拟很多东西,这些集合可以是一维序列,也可以是其他形式。
(关于技术细节)对,没错。所以 Transformer 实际上不是 Token 序列的模型,而是 Token 集合的模型。在标准 Transformer 架构中,唯一注入顺序信息、区分事物顺序的东西,是你给 Token 的位置嵌入。如果你选择给它一种一维的位置嵌入,那是模型知道它是一维序列的唯一机制。在 Transformer 块内发生的所有算子要么是 Token 级的,例如前馈网络、QKV 投影、逐 Token 归一化,所有这些都是每个 Token 独立进行的。Token 之间的交互是通过注意力机制发生的,但这本身是置换等变的。也就是说,如果我打乱我的 Token 顺序,注意力算子会以完全相同的方式输出打乱后的结果。所以它本质上是一个处理 Token 集合的架构。
14
寻找具备“智力无畏”精神的伙伴
我知道时间不多了,但想给你们一些时间来呼吁行动,无论是对于那些想在 World Labs 工作的人,什么样的人应该申请,或者除了 World Labs 之外人们应该做什么研究对你们有帮助?我们清楚地感觉到,你们在寻找的一样特质是“智力上的无畏”,这是你们的一项原则。
李飞飞:我确实认为现在是一个非常激动人心的时刻,去超越大语言模型,思考空间智能的无限可能性。我们实际上非常渴望人才,范围从非常资深的研究人员——思考像 Justin 刚才描述的那种训练世界模型大模型的问题,到优秀的工程师——构建从训练优化到推理再到产品的系统。我们也渴望优秀的商业人才、产品思想家和市场进入人才。特别是现在我们通过 Marble 向世界展示了模型,我认为我们有一个绝佳的机会与更大的人才库合作,既解决模型问题,又向世界交付最好的产品。是的,我们真的是第一批既在模型方面又在产品方面尝试这件事的人。
Justin Johnson:是的,我也很兴奋人们能尝试 Marble 并用它做很多很酷的事情。我认为它有很多非常棒的能力和功能,结合得非常完美。
李飞飞:确实如此。在来的车上,Justin 和我说人们还没有完全发现,好吧才过了 24 小时,还没有完全发现一些高级编辑模式。比如打开高级模式,你可以像 Justin 说的那样改变瓶子的颜色,改变地板,改变树木。你需要点击“高级模式”。我们在 UI/UX 上还有改进空间,但记得点击。
Justin Johnson:其实我试过这么做,但当它显示“创建”时,它只是让我创建了一个完全不同的世界,而不是在原有基础上修改。是的,我们需要招聘人来做产品。
| 文章来源:数字开物
第二十届中国IDC产业年度大典(IDCC2025)暨数字基础设施科技展(DITExpo) 以“重塑算力 破界而生”为主题,将于2025年12月10-11日在北京首钢国际会展中心1号馆举办,将有超过12场主题平行论坛联合举办。
万卡集群怎么建?液冷如何用?算力出海现状如何?算电怎样协同?国产芯片如何破局?算力资产如何定价?绿电直连路径在哪?聚焦IDCC2025以及15+场论坛直击算力产业核心命题!
↓↓↓扫码立即报名参会↓↓↓
• END•
【专栏】精品再读
热门跟贴