打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

大模型会写诗写代码,却不会倒水开门。李飞飞万字长文指出:AI真正的下一站,不是语言智能,而是空间智能——理解世界、预测变化、参与行动,才是真正的智能革命。

编辑:前沿在线 编辑部

打开网易新闻 查看精彩图片

为什么我们在讨论“空间智能”?

过去几年,大模型的快速演化让我们习惯了一个“说得越来越像人”的AI世界。它能写文案、能画图、能编代码、能演讲、能陪聊,仿佛进入了智能的黄金时代。

但当我们真正问自己一个问题:“这些AI,能走进现实世界吗?”答案依然是——还远着呢。

打开网易新闻 查看精彩图片

它能写出十种喝水的方式,却倒不好一杯水。它能生成极美的卧室图,却连“开门进房间”的物理结构都不理解。它能模拟医生问诊,却不会扶老人过马路。

打开网易新闻 查看精彩图片

这并不是AI不够聪明,而是它的“聪明”停留在一种语言层面:理解句子、预测词语、生成符号。这种“认知智能”,其实是一种“屏幕里的智能”。

打开网易新闻 查看精彩图片

李飞飞这篇万字长文中反复强调一点:AI 革命走到了一个被语言“封印”的天花板上。

现在的 AI,看起来能言善道,但实际上像“黑暗中的文豪”,对世界毫无经验。她直言:“AI 只会描述世界,但它不会生活在世界里。”

而要让 AI 真正走进物理世界,具备“行动力”,空间智能(Spatial Intelligence)就是我们必须跨过的下一个台阶。

打开网易新闻 查看精彩图片

人类智能的起点:不是语言,而是空间

我们通常以为,语言是人类智能的起点。

但李飞飞提醒我们,事实刚好相反。一个婴儿在学会说话之前,就已经会做很多事了:抓玩具、摸轮廓、扔东西、摔东西,甚至盯着水滴滚落发呆。

打开网易新闻 查看精彩图片

表面上看,这只是好奇心,实际上,这是空间智能在生长——通过观察与试错,婴儿在“身体力行”地理解世界的规则。

空间智能,不是用来说话的,而是用来活着的。

在日常生活中,我们每一项动作,几乎都建立在对空间的直觉理解上:停车靠边,要判断轮胎与马路牙子的距离;接住飞来的钥匙,需要估算速度与轨迹;

不看杯子倒水,依赖的是对物体形状和位置的记忆。这些事情我们做得毫不费力,但背后都涉及复杂的空间计算。

打开网易新闻 查看精彩图片

更重要的是,人类文明的重大跃迁,往往就靠这类“空间感”触发灵感。古希腊的埃拉托色尼通过观察太阳影子的角度,测出了地球的圆周;

打开网易新闻 查看精彩图片

18世纪的哈格里夫斯将多个纺锤并列排布,创造出纺织效率提升八倍的“珍妮纺织机”;沃森与克里克则在摆弄铁丝模型中,摸索出 DNA 的双螺旋结构——这些伟大发现,不是“算”出来的,是“看”出来、是“摆”出来的,是靠空间理解而非语言逻辑建构的。

李飞飞说得直接:空间智能是行动的基础,而不是表达的产物。语言帮助我们沟通,但空间理解才帮助我们生存、创造和进步。

打开网易新闻 查看精彩图片

为什么当前AI不具备空间智能?

尽管我们已经拥有了令人惊叹的AI语言能力、图像生成能力和代码编写能力,但在“理解世界”这件事上,它依然像个纸上谈兵的孩子。

李飞飞指出,今天的大模型,学到的是“语言的皮肤”,不是“世界的骨架”。

打开网易新闻 查看精彩图片

这是因为当前AI的主流学习方式,都是基于“符号”——文字、标签、像素,它们学习的是词与词的关系、图与图的相似度,而不是物体与空间之间的真实互动关系。

打开网易新闻 查看精彩图片

它们并不知道“水会流下来”、“影子在光照下会变形”、“玻璃是透明的”,它们只是根据训练数据生成“看起来像的东西”。

于是你会发现,AI生成的图像虽然精美,但常出现奇怪的物理错误:水从杯子外流出来、影子方向反了、手有六根指头。这不是算力的问题,而是“没有物理常识”的问题。

打开网易新闻 查看精彩图片

再看机器人,表面上已经能抓取、能行走,甚至能“装配零件”但这些行为大多建立在“高度定制”的环境里——比如专用轨道、特定参数、脚本控制。换个场景,它就“手忙脚乱”。

机器人无法像人类那样在复杂环境中做出泛化判断,更无法真正理解“物体之间的关系”和“下一步该怎么做”。

打开网易新闻 查看精彩图片

AI在屏幕里看起来很聪明,一旦进入现实世界,就会暴露“空间盲点”:不会判断距离、不会识别障碍、不会预测结果。

李飞飞说,这是因为它们没有“住在世界里”,它们只是“读取了关于世界的描述”。而要让AI真正走出“屏幕边界”,它需要的不只是看图说话,而是“参与世界”的能力。

这,正是空间智能的起点。

打开网易新闻 查看精彩图片

世界模型:让 AI 走出屏幕,进入现实

如果说语言智能让AI学会“说话”,那么世界模型(World Models),就是让AI开始“做事”的关键。

李飞飞在文章中提出,空间智能的核心载体,不是多模态大模型,而是具备世界建模能力的生成模型——这是一种全新的AI范式,它不再只生成文本、图片或视频,而是生成一个“可以持续存在、可以交互变化”的世界。

AI第一次从“语言描述”走向“物理构建”。

打开网易新闻 查看精彩图片

她将世界模型的核心能力,拆解为三大要素,我们可以用一张“人类类比表”来帮助理解:

打开网易新闻 查看精彩图片

这背后的转变非常关键:传统大模型训练的是“下一句文本”,世界模型训练的则是“下一帧世界状态”。

这意味着,AI不再是复述者、描述者,而是变成了一个“参与者”、“构建者”,甚至是“行动者”。

打开网易新闻 查看精彩图片

想象一下:你告诉AI“请帮我布置一个适合8人聚会的客厅”,它不仅生成图纸,而是直接生成一个完整、可交互的3D场景;

你说“把水壶拿给我”,它不是理解“语言”,而是理解你与水壶的空间关系,预测路径、避障、抓取、递交——这一切依赖的不是语言,而是具身感知+空间推理+行为预测的整体智能。

李飞飞创立的 World Labs 正是在做这件事。

打开网易新闻 查看精彩图片

他们开发的 Marble 系统,正是一个能接收多模态输入(语言、图像、动作指令),并生成一致的3D交互场景的世界模型系统。

Marble 不再只是“生成画面”,而是能“维持一个世界”,让用户在里面走动、探索、建构。

世界模型,是让AI走出屏幕、进入现实的通道。它将AI从“会讲故事”进化为“能创造世界”的新物种。

打开网易新闻 查看精彩图片

空间智能会重做哪些行业?

当AI拥有空间智能,它就不再是一个“内容生成器”,而变成一个“现实世界的协作伙伴”。李飞飞认为,这种能力的落地将带来四个最重要的行业变革方向:

1)创意产业:从“画画”到“构建世界”

过去的AI创作,是生成图像、生成音乐、生成短片——它们都停留在二维屏幕里。空间智能的加入,让创作从“表现”走向“构建”。

导演可以直接生成一个可进入、可漫游的虚拟电影场景,而不是靠绿幕加后期;

打开网易新闻 查看精彩图片

游戏开发者可以快速模拟多种物理互动机制,加速剧情与环境的迭代;

建筑师可以提前“走进”尚未建成的空间,对结构与流线做出更人性化的优化。

这一切的前提是:AI能理解空间逻辑、构建三维世界,并支持与人互动。

打开网易新闻 查看精彩图片

李飞飞举了一个生动的例子:过去我们是用图纸“想象房子”,未来我们是“在AI生成的房子里走一圈再决定改哪里”。

2)机器人:从工具,走向协作伙伴

如果说空间智能是AI的核心感知能力,那么机器人就是其行动延伸。

未来的机器人,不再是机械臂、仓储搬运、流水线操作员,而是具备空间理解力的“行动者”与“助手”。

比如家庭助手:它能理解你“刚喝完水”的动作,就去厨房拿水壶补满杯子,而不是等你下指令;

打开网易新闻 查看精彩图片

比如实验室助手:它能自主协作实验流程,把研究者从重复性的操作中解放出来。

这种“看懂人+理解空间+预测行动”的协作能力,正是空间智能带来的跃迁。

AI不是拿来“替你做事”的,而是“跟你一起做事”的。

3)科学与医疗:多维模拟,加速突破

很多科学突破依赖的是空间结构的直觉。

例如药物开发,研究者需要理解分子的三维结合机制;材料设计,需要评估结构变化对性能的影响;医疗影像,需要医生在脑海中重建器官与病变位置。

打开网易新闻 查看精彩图片

空间智能 AI,可以在这些环节中扮演关键角色它可以模拟无数可能的空间组合,加速推演,缩短试错周期。甚至在手术前,AI可以基于患者CT/MRI影像生成全息模型,让医生“预演手术”,提升成功率。

这是“从理解语言,到理解物体”的跨越,也是AI真正参与到“理解世界结构”的开始。

4)教育:抽象知识,沉浸式体验

空间智能,还会深刻改变教育方式。过去我们靠想象力“理解原子结构”“看懂地球公转”“学习电磁场的方向”。

但对于很多学生来说,这些“看不到、摸不着”的知识,始终停留在记忆层面。

而拥有空间智能的AI,可以构建沉浸式教学场景:让你走进细胞内部、绕着DNA结构飞一圈、在古战场上穿梭、在数学几何中旋转。

知识不再是讲述的,而是“进入”的。

打开网易新闻 查看精彩图片

教育变成一场“空间旅程”,不仅提升理解,更激发好奇心。

李飞飞总结得很清晰:空间智能不是炫技,而是真正的“新型生产力”。它重构的不只是工具,而是重塑“人如何与世界互动”的方式。

打开网易新闻 查看精彩图片

为什么李飞飞强调“增强人,而不是替代人”?

当“AI会说话”这件事变得越来越自然,我们开始焦虑“它是不是要抢我的工作”。

而李飞飞在这篇万字长文中反复强调一个基本立场:“AI不是来替代人类的,而是来增强人类的。”

打开网易新闻 查看精彩图片

语言模型的崛起,让不少职业变得不安全——写PPT、写邮件、写脚本似乎都可以被AI代劳

但这正是“语言智能”的局限:它只能处理符号,无法理解动机、情境与人本身。

而空间智能带来的AI,则走向了另一个方向:从“替代”走向“协作”。李飞飞举了许多例子:

  • 在护理机构中,AI可以协助照护人员进行环境监控、搬运、提醒等操作,但不会剥夺老人的生活自主权。

打开网易新闻 查看精彩图片

  • 在科研实验室中,AI机器人可以代替人类完成高度重复、标准化的操作,但发现科学规律的核心思考,依然由人来完成。

打开网易新闻 查看精彩图片

  • 在设计创作中,AI可以帮助快速生成空间草图与可交互场景,但真正有情感、有文化语义的“表达”,仍然需要人类的灵感点燃。

打开网易新闻 查看精彩图片

这是一个本质性的理念差异:语言AI是“你说我做”,而空间AI是“你做我帮”。

后者强调配合、补位与增强——正如她所说的:“AI 的价值,不是取代人类的劳动,而是让我们做到原本做不到的事。”

打开网易新闻 查看精彩图片

这种“人机协作”的价值观,不仅是李飞飞20多年AI研究者身份的总结,也是她在创业中亲自实践的底层信念。

她不谈AGI神话,也不渲染AI末日,她只关心一件事:AI要如何为人类赋能,为人的尊严、能力与选择,留出更大的空间。

打开网易新闻 查看精彩图片

AI 的未来不是更好说话,而是更会做事

我们已经见证了语言智能带来的“认知革命”——从GPT-3到GPT-4,再到多模态模型如GPT-4V、Claude 2、Gemini Ultra,AI变得越来越能说、越来越能写。

但李飞飞在这篇文章中提醒我们:真正的智能,不止于“说得漂亮”,更要“做得正确”。

打开网易新闻 查看精彩图片

空间智能,将开启另一场“行动革命”。它让AI不再是坐在屏幕后讲道理的“语文课代表”,而是走到现实中和人协同的“实习工程师”、”助理科学家“、”家庭照护员“、”创意导演“。

我们可以这样描绘未来AI的三重跃迁

  1. 从阅读世界:AI能理解人类语言、图像、视频等符号信息;

  2. 到理解世界:AI能建立空间模型、推理物理关系、预测动态;

  3. 再到建设世界:AI能创造、操作、协同,成为现实行动的参与者。

打开网易新闻 查看精彩图片

这正是从“Words”走向“Worlds”的进化。

而这场进化,也正是李飞飞提出的下一站AI空间智能的意义所在。

不是为了打造另一个神一样的AGI,而是为了让人类更自由地生活、创造与关怀;不是为了更快地替代人类,而是更深地增强人类。

真正的智能,不是能背多少书,而是能用知识去触碰现实。

真正的未来,不是更好说话,而是更会做事。

打开网易新闻 查看精彩图片

真正的AI,不是造一个语言的宇宙,而是建一个理解世界、参与世界的“新物种”

这,就是李飞飞心中,AI的下一站。

完整原文:

打开网易新闻 查看精彩图片

空间智能:人工智能的下一个前沿

1950 年,当计算机还仅能完成自动化算术运算和简单逻辑处理时,艾伦・图灵提出了一个至今仍发人深省的问题:机器能思考吗?他凭借非凡的想象力预见了一个未来 —— 智能或许并非天生,而是可以被创造出来。

打开网易新闻 查看精彩图片

这一洞见随后催生了一场名为人工智能(AI)的不懈科学探索。

在我投身人工智能领域的 25 年间,图灵的愿景始终激励着我。但我们究竟离这个目标有多近?答案并非简单一句话能概括。

如今,大型语言模型(LLMs)等领先 AI 技术已开始改变我们获取和运用抽象知识的方式。

然而,它们就像 “黑暗中的文字大师”—— 言辞流利却缺乏经验,学识渊博却脱离现实根基。

打开网易新闻 查看精彩图片

空间智能将彻底重塑我们创造和交互真实与虚拟世界的方式,为叙事、创意、机器人技术、科学发现等领域带来革命性变革。

这正是人工智能的下一个前沿阵地。

自进入该领域以来,对视觉和空间智能的追求一直是指引我的北极星。

这也是我为何花费数年时间构建 ImageNet 的原因 ——它是首个大规模视觉学习与基准测试数据集,与神经网络算法、图形处理器(GPUs)等现代计算技术共同构成了现代人工智能诞生的三大核心支柱。

这也是我在斯坦福大学的学术实验室过去十年间致力于将计算机视觉与机器人学习相结合的初衷。

打开网易新闻 查看精彩图片

更重要的是,这正是我与联合创始人贾斯汀・约翰逊克里斯托夫・拉斯纳本・米尔登霍尔在一年多前创立 World Labs 的核心使命:首次全面实现这一可能性。

在本文中,我将阐释空间智能的定义、其核心价值,以及我们如何构建能够解锁空间智能的世界模型 ——这些模型将重塑创意表达、具身智能与人类进步的轨迹。

空间智能:人类认知的基石

人工智能从未如此令人振奋。以大型语言模型为代表的生成式 AI 已从研究实验室走进日常生活,成为数十亿人用于创意创作、提升效率和沟通交流的工具。

打开网易新闻 查看精彩图片

它们展现出了曾被认为不可能实现的能力,能够轻松生成连贯文本、海量代码、照片级逼真图像,甚至短视频片段。

人工智能是否会改变世界已不再是疑问 ——无论以何种合理标准衡量,它已然做到了。

然而,仍有诸多目标远未达成。自主机器人的愿景虽引人遐想,却仍停留在推测阶段,与未来学家长期承诺的 “日常必备品” 相去甚远;在疾病治疗、新材料发现、粒子物理等领域实现大规模加速研究的梦想,多半尚未实现;

而真正理解并赋能人类创造者的 AI—— 无论是学习复杂分子化学概念的学生、可视化空间设计的建筑师、构建虚拟世界的电影人,还是追求沉浸式虚拟体验的普通人 —— 仍遥不可及。

要弄清为何这些能力难以实现,我们需要先审视空间智能的进化历程,以及它如何塑造我们对世界的理解。

视觉长期以来一直是人类智能的基石,但其力量源自更为根本的能力。

早在动物学会筑巢、抚育后代、语言沟通或建立文明之前,这种从外部世界获取信息的简单行为(无论是一丝光线还是一种触感),就搭建起了感知与生存之间的桥梁。

打开网易新闻 查看精彩图片

随着世代更迭,这座桥梁不断强化和完善,层层神经元在此基础上形成了神经系统,用于解读世界并协调有机体与环境的互动。

因此,许多科学家推测,感知与行动构成了驱动智能进化的核心循环,也是自然界创造人类这一“感知、学习、思考、行动”终极载体的基础。

空间智能在定义人类与物理世界的交互方式中扮演着基础性角色。

我们每天的普通行为都离不开它:通过想象保险杠与路沿之间逐渐缩小的间距来停车、接住从房间另一头扔来的钥匙、在拥挤的人行道上穿梭而不发生碰撞、或是闭着眼睛就能熟练地把咖啡倒进杯子里。

在更极端的情况下,消防员在浓烟弥漫的坍塌建筑中导航,凭借对结构稳定性和生存概率的瞬间判断,通过手势、肢体语言以及无法用语言替代的专业直觉进行沟通;

打开网易新闻 查看精彩图片

而婴儿在学会说话前的数月甚至数年里,正是通过与环境的嬉戏互动来认识世界。

这一切都源于直觉,自然而然地发生 —— 而这种熟练度,机器至今尚未掌握。

空间智能也是人类想象力与创造力的基础。从远古洞穴壁画到现代电影,再到沉浸式电子游戏,叙事者在脑海中构建出独特而丰富的世界,并通过多种视觉媒介将其呈现给他人。

无论是孩子们在沙滩上堆沙堡,还是在电脑上玩《我的世界》,基于空间的想象力都是真实或虚拟世界中交互体验的核心。

打开网易新闻 查看精彩图片

在众多行业应用中,对物体、场景和动态交互环境的模拟,支撑着从工业设计、数字孪生到机器人训练等无数关键业务场景。

历史上诸多定义文明进程的时刻,空间智能都发挥了核心作用

古希腊时期,埃拉托色尼将影子转化为几何工具 —— 在赛伊尼的太阳直射无影之时,测量亚历山大城的日影角度为 7 度 —— 从而计算出地球周长;

打开网易新闻 查看精彩图片

哈格里夫斯的 “珍妮纺纱机” 通过一项空间洞察革新了纺织业:将多个纺锤并排安装在一个机架上,使一名工人能同时纺多根线,生产力提升了 8 倍;沃森和克里克通过搭建三维分子模型,不断调整金属片和金属丝的位置,最终找到了碱基对的空间排列方式,从而发现了 DNA 的双螺旋结构。

打开网易新闻 查看精彩图片

在这些案例中,当科学家和发明家需要操控物体、可视化结构并对物理空间进行推理时,空间智能成为推动文明前进的动力——而这些能力,仅靠文本是无法实现的。

空间智能是人类认知构建的基石。无论是被动观察还是主动创造,它都在发挥作用;它驱动着我们的推理和规划,即便面对最抽象的议题亦是如此;它对于我们与他人、与环境的交互(无论是语言交流还是物理接触)至关重要。

打开网易新闻 查看精彩图片

虽然大多数人并非每天都能像埃拉托色尼那样揭示新的真理,但我们的思考方式本质上是相通的 —— 通过感官感知复杂世界,再利用对其物理空间规律的直觉理解来赋予世界意义。

遗憾的是,如今的人工智能尚未具备这样的思考能力。

过去几年,AI 领域确实取得了巨大进步。多模态大型语言模型(MLLMs)通过海量文本数据与多媒体数据的联合训练,已具备初步的空间感知能力,如今的 AI 能够分析图像、回答相关问题,并生成超逼真的图像和短视频。

打开网易新闻 查看精彩图片

借助传感器和触觉技术的突破,最先进的机器人已能在高度受限的环境中操控物体和工具。

但坦诚而言,AI 的空间能力与人类水平仍相去甚远,其局限性也暴露无遗。

最先进的多模态大型语言模型在估计距离、方位和尺寸,或是通过从新角度重建物体来实现 “心理旋转” 等任务上,表现几乎与随机猜测无异;

它们无法导航迷宫、识别捷径,也无法预测基本的物理现象;AI 生成的视频虽尚处萌芽阶段且极具吸引力,但往往在几秒后就会失去连贯性。

尽管当前最先进的 AI 在阅读、写作、研究和数据模式识别等方面表现出色,但这些模型在表征或交互物理世界时,仍存在根本性局限。

人类对世界的认知是整体性的—— 不仅包括我们所看到的事物,还包括万物之间的空间关系、其内在意义及重要性。

打开网易新闻 查看精彩图片

通过想象、推理、创造和交互(而非仅仅通过描述)来理解世界,这正是空间智能的力量所在。缺乏空间智能,AI 便与它试图理解的物理现实脱节,无法有效驾驶汽车、在家庭和医院中引导机器人、创造全新的沉浸式学习和娱乐交互方式,也无法加速材料科学和医学领域的发现进程。

哲学家维特根斯坦曾写道:“我的语言的界限,意味着我的世界的界限。”我并非哲学家,但我深知,至少对于人工智能而言,世界远不止于文字。

打开网易新闻 查看精彩图片

空间智能代表着语言之外的前沿领域 —— 它连接想象力、感知与行动,为机器真正改善人类生活开辟了可能性,从医疗健康到创意创作,从科学发现到日常辅助,无所不包。

人工智能的下一个十年:构建真正具备空间智能的机器

那么,我们该如何构建具备空间智能的人工智能?通往能够像埃拉托色尼那样洞察、像工业设计师那样精准设计、像叙事者那样富有想象力、像急救人员那样熟练与环境交互的模型,路径何在?

构建空间智能 AI 需要比大型语言模型更宏大的目标:世界模型(world models)。

打开网易新闻 查看精彩图片

这是一种新型生成式模型,其理解、推理、生成和交互语义、物理、几何及动态复杂世界(无论是虚拟还是真实)的能力,远超当前的大型语言模型。

该领域尚处萌芽阶段,现有方法涵盖从抽象推理模型到视频生成系统等多个方向。World Labs 于 2024 年初成立,正是基于这样一种信念:基础方法仍在建立之中,这将是未来十年人工智能领域的核心挑战。

在这一新兴领域,最重要的是确立指导发展的原则。对于空间智能,我将世界模型定义为具备以下三项核心能力:

生成性:能够生成具备感知、几何和物理一致性的世界

解锁空间理解与推理能力的世界模型,必须能够自主生成模拟世界。它们需要能够根据语义或感知指令,生成无限多样的模拟世界,同时保持几何、物理和动态的一致性 ——无论所表征的是真实空间还是虚拟空间。

打开网易新闻 查看精彩图片

研究界正在积极探索,这些世界是否应该基于内在几何结构进行隐式或显式表征。此外,除了强大的潜在表征能力,我认为通用世界模型的输出还应能够为多种应用场景生成明确、可观测的世界状态。

特别是,它对当前状态的理解必须与过去(即导致当前状态的先前世界状态)保持连贯。

多模态:天生具备多模态处理能力

与动物和人类一样,世界模型应能够处理多种形式的输入(在生成式 AI 领域被称为 “提示词”)。给定部分信息 ——无论是图像、视频、深度图、文本指令、手势还是动作—— 世界模型都应能预测或生成尽可能完整的世界状态。

打开网易新闻 查看精彩图片

这需要模型既能以真实视觉的保真度处理视觉输入,又能同等熟练地解读语义指令。这使得智能体和人类都能通过多样化输入与模型进行关于世界的沟通,并获得多样化输出。

交互性:能够根据输入动作输出下一状态

最后,如果动作和 / 或目标是世界模型提示词的一部分,其输出必须包括世界的下一状态(无论是隐式还是显式表征)。

打开网易新闻 查看精彩图片

当仅输入动作(无论是否包含目标状态)时,世界模型应生成与世界先前状态、预期目标状态(如有)、语义意义、物理定律和动态行为一致的输出。

随着具备空间智能的世界模型在推理和生成能力上变得更加强大和稳健,未来当给定目标时,世界模型或许不仅能预测世界的下一状态,还能基于新状态预测后续动作。

这一挑战的规模远超人工智能以往面临的任何任务。

语言是人类认知中一种纯粹的生成现象,但世界的运行遵循着复杂得多的规则。例如,在地球上,重力支配着运动,原子结构决定了光线如何产生颜色和亮度,无数物理定律约束着每一次交互。

即便是最奇幻、最具创意的世界,其构成的空间物体和智能体也必须遵循定义它们的物理定律和动态行为。

打开网易新闻 查看精彩图片

要始终如一地协调语义、几何、动态和物理等多方面因素,需要全新的方法。

表征一个世界的维度复杂度,远高于语言这种一维序列信号。

要实现具备人类级通用能力的世界模型,需要克服多个严峻的技术障碍。在 World Labs,我们的研究团队正致力于朝着这一目标取得基础性进展。

以下是我们当前的部分研究方向:

一种新的通用训练任务函数

定义一种像大型语言模型中的下一个词预测那样简单优雅的通用任务函数,长期以来一直是世界模型研究的核心目标。

打开网易新闻 查看精彩图片

其输入和输出空间的复杂性使得这种函数的设计本身极具挑战性。尽管仍有大量探索空间,但这一目标函数及相应表征必须反映几何和物理定律,彰显世界模型作为想象力与现实基础表征的本质。

大规模训练数据

训练世界模型需要比文本数据复杂得多的数据集。好消息是,海量数据来源已经存在:互联网规模的图像和视频集合构成了丰富且易于获取的训练材料——关键挑战在于开发算法,能够从这些二维图像或视频帧信号(即 RGB)中提取更深层次的空间信息。

打开网易新闻 查看精彩图片

过去十年的研究已经证明了语言模型中数据量与模型规模之间的缩放定律;而世界模型的关键突破,在于构建能够以相当规模利用现有视觉数据的架构。

此外,高质量合成数据以及深度、触觉等额外模态数据的潜力也不容小觑。它们在训练过程的关键阶段对互联网规模数据起到补充作用。

但前进的道路取决于更先进的传感器系统、更稳健的信号提取算法,以及更强大的神经模拟方法。

新的模型架构与表征学习

世界模型研究必将推动模型架构和学习算法的进步,尤其是突破当前多模态大型语言模型和视频扩散模型的范式。

打开网易新闻 查看精彩图片

这两种模型通常将数据 token 化为一维或二维序列,这使得简单的空间任务(如统计短视频中独特椅子的数量,或记住一小时前房间的样子)变得不必要地复杂。

替代架构可能会有所帮助,例如用于 token 化、上下文处理和记忆的三维或四维感知方法。

例如,在 World Labs,我们最近推出的实时生成式帧基模型(RTFM)就体现了这一转变 —— 它利用基于空间的帧作为空间记忆形式,实现高效的实时生成,同时保持生成世界的连续性。

显然,要通过世界模型完全解锁空间智能,我们仍面临巨大挑战。但这项研究并非纯理论探索,它是新型创意和生产力工具的核心引擎。而 World Labs 取得的进展令人鼓舞。

打开网易新闻 查看精彩图片

我们最近向少数用户展示了 Marble——首个能够通过多模态输入提示,生成并维持一致的三维环境,供用户和叙事者在创意工作流中探索、交互和进一步构建的世界模型。我们正努力尽快将其向公众开放!

Marble 只是我们构建真正具备空间智能世界模型的第一步。随着进展加速,研究人员、工程师、用户和企业领导者都开始认识到其非凡潜力。

下一代世界模型将使机器在空间智能方面达到全新高度 —— 这一成就将解锁当前 AI 系统中仍大量缺失的关键能力。

利用世界模型构建更美好的人类世界

打开网易新闻 查看精彩图片

人工智能的发展动力至关重要。

作为助力开启现代人工智能时代的科学家之一,我的动机始终明确:人工智能必须增强人类能力,而非取代人类。多年来,我一直致力于使人工智能的开发、部署和治理与人类需求保持一致。

如今,技术乌托邦和世界末日的极端叙事层出不穷,但我依然秉持更务实的观点:人工智能由人类开发、供人类使用、受人类监管。

它必须始终尊重人类的能动性和尊严。其魅力在于拓展我们的能力边界,让我们更具创造力、更紧密相连、更高效且更有成就感。

空间智能正是这一愿景的体现:人工智能赋能人类创造者、护理人员、科学家和梦想家,实现曾经看似不可能的目标。

这一信念驱动着我将空间智能视为人工智能的下一个伟大前沿。

空间智能的应用跨越不同时间维度。

创意工具已崭露头角——World Labs 的 Marble 已将这些能力交付给创造者和叙事者;

机器人技术代表着中期的宏大愿景,我们正在完善感知与行动之间的循环;而最具变革性的科学应用虽需更长时间,但有望对人类福祉产生深远影响。

在所有这些时间维度中,有几个领域尤其有望重塑人类能力。这需要集体的巨大努力,远非单个团队或公司所能独立完成。

它需要整个人工智能生态系统的参与,研究人员、创新者、企业家、企业乃至政策制定者,朝着共同的愿景努力。

但这一愿景值得我们追求。

以下是未来的发展图景:

创意领域:赋能叙事与沉浸式体验

“创造力是智能在享受乐趣。”这是我个人偶像阿尔伯特・爱因斯坦的名言之一。

打开网易新闻 查看精彩图片

早在文字出现之前,人类就开始讲故事 —— 将其绘制在洞穴墙壁上、代代相传、在共同叙事的基础上构建整个文化。

故事是我们理解世界、跨越时空连接彼此、探索人性意义的方式,更重要的是,它让我们在生活和爱中找到归属感。

如今,空间智能有望以尊重故事核心价值的方式,重塑我们创造和体验叙事的方式,并将其影响从娱乐拓展至教育、设计和建筑等领域。

World LabsMarble平台将前所未有的空间能力和编辑可控性交付给电影人、游戏设计师、建筑师和各类叙事者,使他们能够快速创建和迭代可完全探索的三维世界,而无需承担传统三维设计软件的高昂成本。

创意行为本身仍然保持着人类特有的生命力和核心地位;AI 工具只是放大和加速了创造者的成就。

这包括:

多维度叙事体验

电影人和游戏设计师正利用 Marble 摆脱预算和地理限制,自由构建整个世界,探索在传统制作流程中难以实现的场景和视角。

打开网易新闻 查看精彩图片

随着不同媒体和娱乐形式的界限逐渐模糊,我们正迈向一种融合艺术、模拟和游戏的全新交互式体验 —— 个性化世界,让任何人(而非仅仅是工作室)都能创造和栖息于自己的故事中。

随着将概念和故事板快速转化为完整体验的方法不断涌现,叙事将不再局限于单一媒介,创造者可以自由构建跨越多种平台和载体、拥有共同主线的世界。

设计中的空间叙事

本质上,几乎所有人造物体或建筑空间在物理创建之前,都需要在虚拟三维环境中进行设计。

打开网易新闻 查看精彩图片

这一过程具有高度迭代性,且在时间和金钱上成本高昂。借助具备空间智能的模型,建筑师可以在投入数月设计时间之前快速可视化结构,在尚未存在的空间中漫步 ——本质上是讲述我们可能如何生活、工作和聚集的故事。

工业设计师和时装设计师可以将想象力瞬间转化为实体形态,探索物体与人体和空间的交互方式。

全新的沉浸式交互体验

体验本身是人类创造意义的最深刻方式之一。

在整个人类历史中,我们只有一个统一的三维世界:我们共同生活的物理世界。

直到最近几十年,通过游戏和早期虚拟现实(VR)技术,我们才开始瞥见共享自己创造的替代世界的可能性。

打开网易新闻 查看精彩图片

如今,空间智能与虚拟现实(VR)、扩展现实(XR)头显和沉浸式显示器等新型设备相结合,以前所未有的方式提升了这些体验。

我们正迈向一个未来。

前沿动态
前沿大会

前沿人物

「在看」,给前前加鸡腿