出品 | 网易智能
作者 | 辰辰
编辑 | 王凤枝
在生命进化的漫长长河里,“看见”世界比“谈论”世界早了整整5亿年。如今,AI正在补上这一课。
这句充满进化论智慧的判断,正是李飞飞对当下AI浪潮的最新注解。在充斥着浮躁与噪音的硅谷,她的声音始终代表着一种冷静的远见。
北京时间2月4日凌晨,这位公认的“AI教母”带着初创公司World Labs现身思科年度AI峰会(Cisco AI Summit)。作为曾经引爆计算机视觉革命的科学家,她没有随波逐流于大模型的语言游戏,而是将目光投向了AI进化的下一块拼图:空间智能(Spatial Intelligence)。
她认为,AI的下一个巅峰,不只是会写代码和聊天,而是像生物一样,真实理解并交互我们所处的这个三维空间。
而超越技术维度之外,她更为AI的未来立下了一把人文标尺:“AI的成功,应当体现为文明的进步,让每个个体都能由此追求幸福、繁荣和尊严。”
以下是本次精彩访谈的解析,为你拆解“空间智能”将如何重塑我们的未来。
1. 进化论的启示:感知先于语言
很多人认为AI的终极形式是语言模型,但李飞飞提出了一个有趣的视角:从进化论来看,语言其实是“后来者”。
她举例说,在5亿多年前的寒武纪,生命体最先发育出的并不是语言,而是感知系统。动物通过触觉和视觉观察环境,才开启了那场让生命变得更聪明的“进化军备竞赛”。
李飞飞认为,“理解、推理并与3D物理世界互动的能力,与语言智能一样,都是最基础的底层能力。它是AI的下一个前沿。”
这也是World Labs的核心逻辑:如果AI不能像人一样理解空间,它就永远无法真正进入现实物理世界。
2. 什么是Marble?它不只是视频,而是一个“世界”
访谈中,李飞飞详细介绍了World Labs的第一代模型:Marble。
很多人将其与Sora等视频生成模型混淆,但李飞飞指出,二者有着本质区别。Marble是一种真正意义上的“世界模型”:
· 全场景交互:它能根据文本或图片提示,生成一个完整的、可导航的、可交互的3D世界。
· 物理一致性:它具有几何结构,不是一段“看起来像”的视频,而是一个在物理逻辑上始终保持一致的空间。
这意味着,它不仅能用来做游戏,更能直接成为机器人训练的“虚拟实验室”。
3. 意想不到的用例:从机器人到心理治疗
空间智能的应用边界在哪里?李飞飞给出的答案超出了很多人的想象:
· 游戏与影视:开发者可以用它快速构建可穿行的虚拟世界,特效团队能进行虚拟制片。
· 机器人训练:与英伟达等伙伴合作,为机器人提供高精度的仿真环境。
· 建筑设计:设计师能瞬间将平面图转化为可步入的3D样板间。
最令人称奇的是医疗科研。心理学家正利用Marble为强迫症(OCD)患者定制个性化的沉浸式环境,通过模拟特定触发场景来进行科学干预。
4. 数据与算力:我们离通用机器人还有多远?
当被问及Marble是否像GPT-5那样烧钱时,李飞飞显得很坦诚。
目前,Marble的训练规模比顶级大语言模型要小几个数量级。这一方面是因为这个领域尚处于“规模定律(Scaling Law)”的早期,另一方面也面临着数据获取的挑战。
李飞飞坦言,不同于互联网上随处可见的文本,高质量的3D物理数据非常稀缺。她透露,World Labs当下采用一种混合数据策略,综合利用互联网级的图文视频、仿真数据以及类似自动驾驶公司的“实景捕获”数据。
关于通用机器人,李飞飞也泼了一盆冷水:“汽车只是在二维平面上移动、尽量不去碰东西的‘方盒子’。但通用机器人要在三维空间里完成灵活、精准的抓取和互动。这是一个极高维度的难题,我们不能乱开空头支票。”
5. 拒绝“技术末日论”:AI的成功应关乎尊严
作为AI领域的领军人物,李飞飞对当下的两极分化言论感到担忧。
“技术乌托邦”和“末日生存危机”在她看来都不够负责任。她强调,技术是双刃剑,人类必须发挥主观能动性去引导它。
那么,AI最终的成功标志是什么?
李飞飞借用了“电力”的类比:电力的成功不在于电线本身,而在于它点亮了学校、温暖了家庭、延长了人类寿命。“AI的成功,也应当体现在文明的进步,让每个人都能追求幸福、繁荣和尊严。”
6. 结语
从理解像素到构建世界,李飞飞正带领团队在空间智能的无人区探索。这不仅是技术的跨越,更是人类试图赋予数字生命“感知力”的又一次尝试。
空间智能,或许就是我们通往AGI的那把“物理钥匙”。
(以下为发言实录)
主持人:好的。接下来,我们要聊聊3D模型,而不仅仅是语言模型。今天,我们有幸请到了被誉为“AI教母”的李飞飞博士。很荣幸,我们也是飞飞博士公司的投资者。让我们用掌声欢迎李飞飞博士上台。我今天该穿上World Labs的周边T恤的,你之前送过我,真的很有心。
李飞飞:是啊,我可还等着思科的周边呢。
主持人:没问题,我们马上安排。感谢你来到这里。看到World Labs在过去一年取得的进展,真的令人欣喜。飞飞,先跟我们聊聊你们目前在做什么,以及为什么这件事如此重要?
李飞飞:好。现在我每天醒来,脑子里其实只在想一件事:空间智能(Spatial Intelligence)。这就是我大约两年前和一群年轻的技术专家共同创办的公司:World Labs的核心。
如果从进化论的角度来看,在5亿多年前,最先开启神经系统发育的并不是语言,而是感知。早在语言出现之前,动物就开始通过触觉和视觉感知光线、接触环境。
主持人:那你认为“本能”也属于感知的范畴吗?
李飞飞:对我来说,“本能”是一个比较虚泛的词。但从物理进化上讲,正是视觉开启了进化史上的“军备竞赛”,让动物变得更加活跃和聪明。
理解、推理、互动并在真实的3D/4D物理世界中穿行的能力,与语言智能一样,都是最基础的底层能力。而其中的关键技术就是“空间智能”,这是AI的下一个前沿阵地。
主持人:聊聊Marble吧。前阵子刚发布的Marble到底是什么?
李飞飞:Marble是我们的第一代空间智能模型。我们私下管它叫“世界模型”。
它能接收多模态输入:无论是文本、图片、视频,还是简单的3D输入,然后根据这些提示词,生成一个可以完全穿行、实时交互、且具有永久一致性的3D世界。这与目前的视频模型截然不同,它拥有完整的几何结构,可以支撑机器人仿真训练或游戏编程。
主持人:有一种观点认为,如果不增强AI的物理特性,我们就无法实现通用人工智能(AGI)。随着时间的推移,这里面最大的“突破口”会是什么?除了机器人领域,五年后我们还能用它做什么?
李飞飞:其实都不用等五年。现在就已经有用户在用Marble开发游戏了,影视特效(VFX)客户也用它进行虚拟制片。我们正与英伟达以及一些初创公司合作,将Marble作为机器人的训练环境。建筑师和设计师用它做室内设计。
还有一个令我意外的用例是临床研究:心理健康研究人员利用它为强迫症(OCD)患者创建沉浸式的个性化环境,来模拟特定的触发场景。
主持人:你把整个人生都奉献给了AI。在创办这家公司、研究空间智能的过程中,最让你感到惊讶的是什么?
李飞飞:过去几年的发展速度简直令人窒息。每个人都会感到焦虑,觉得“要读的东西太多,发布的模型太快”。这让我时刻保持谦逊,意识到自己所知甚少。
另一件让我担忧的事是那些极度两极分化的言论:要么是技术乌托邦主义,要么是“生存危机”之类的末日论。这两种观点其实都不太负责任。技术是一把双刃剑,我们必须发挥主观能动性,引导它走向善意化和精细化的应用。
主持人:在你看来,未来几年AI的成功标准是什么?
李飞飞:回看电力技术,它的成功在于点亮了学校、温暖了家庭、推动了工业化,并延长了人类的寿命。AI的成功标志应该是:文明因它而进步,每个个体都能由此追求幸福、繁荣和尊严。
主持人:大型世界模型的计算量和语言模型一样大吗?
李飞飞:目前,我们的模型规模还没有最大的大语言模型(LLM)那么大。GPT-5的训练算力可能在10^26 FLOPS左右,而Marble要小几个数量级。部分原因是这个领域还很新:Transformer论文发布于2017年,而世界模型才刚刚开始进入Scaling Law的上升曲线。
主持人:语言模型是用互联网上的免费数据训练的。但物理数据很难获取,所以合成数据变得至关重要。数据的匮乏会减慢世界模型的发展吗?另外,未来我们会拥有通用机器人,还是专用机器人?
李飞飞:我们采取的是混合数据策略。语言数据相对干净且易于观察,但像素和体素(Voxel)构成的物理世界则复杂得多。我们利用互联网规模的文本、图像和视频,但也需要仿真数据和“现实世界捕获”数据,这与特斯拉或Waymo等自动驾驶公司的做法类似。
关于机器人:作为科学家,我不喜欢乱开空头支票。汽车可以看作是一个在二维平面上移动的“方盒子机器人”,它的主要目标是避开障碍物。而通用机器人是一个三维实体,它必须触碰并与物体互动,且不能损坏它们。这是一个维度高得多的问题,涉及极高的灵活性和空间精准度。
主持人:在最后的一分钟里,企业端应该如何看待世界模型?
李飞飞:空间智能是一项横向通用技术。除了机器人和游戏,它还可以应用于医疗、教育、外勤服务、金融服务、农业、制造业和城市规划。它是下一个前沿领域,我邀请大家共同来探索这个课题。
主持人:非常感谢。
李飞飞:谢谢。