李飞飞最新文章原文 — 从文字到世界：空间智能是人工智能的下一个前沿领域|人工智能|机器人|李飞飞|知识库|空间智能|超级智能

1950年，计算机技术还仅限于自动算术和简单逻辑运算，艾伦·图灵提出了一个至今仍影响深远的问题：机器能思考吗？他拥有非凡的想象力，预见到智能或许有一天可以构建而非天生。这一洞见后来开启了一场名为人工智能（AI）的不懈科学探索。在我从事人工智能工作25年后，图灵的远见卓识依然激励着我。但我们距离目标究竟有多近？答案并不简单。

空间智能：人类认知的基础

人工智能从未如此令人兴奋。诸如LLM之类的生成式人工智能模型已经从实验室走向日常生活，成为数十亿人创造、提高效率和沟通的工具。它们展现出了曾经被认为不可能的能力，能够轻松生成连贯的文本、海量的代码、逼真的图像，甚至是短视频。人工智能是否会改变世界已不再是问题。无论从哪个角度来看，它已经改变了世界。

这种看似孤立的从外部世界获取信息的能力——无论是捕捉一丝光线还是感受质地——在感知与生存之间架起了一座桥梁，并且随着世代更迭，这座桥梁变得越来越牢固、越来越复杂。一层又一层的神经元从这座桥梁上生长出来，形成了能够解读世界并协调生物体与其周围环境之间相互作用的神经系统。因此，许多科学家推测，感知和行动成为了驱动智能进化的核心回路，也是自然创造我们这个物种的基础——感知、学习、思考和行动的终极体现。

历史上充满了空间智能发挥核心作用的、定义文明的时刻。在古希腊，埃拉托色尼将阴影转化为几何图形——在太阳于塞恩（Syene）投下无影的那一刻，测量亚历山大港（Alexandria）的7度角——从而计算出地球的周长。哈格里夫斯的“珍妮纺纱机”凭借其空间洞察力彻底革新了纺织制造业：将多个锭子并排排列在同一个框架中，使一名工人能够同时纺多根纱线，生产效率提高了八倍。沃森和克里克通过构建三维分子模型，操纵金属板和金属丝，最终使碱基对的空间排列完全吻合，从而发现了DNA的结构。在这些例子中，空间智能推动了文明的进步，因为科学家和发明家需要操作物体、可视化结构并推理物理空间——而这些都无法仅用文字来描述。

尽管当前最先进的人工智能在数据阅读、写作、研究和模式识别方面表现出色，但这些模型在表征或与物理世界互动时却存在根本性的局限性。我们对世界的认知是整体性的——不仅关注我们所看到的事物，更关注万物之间的空间关系、意义以及重要性。通过想象、推理、创造和互动（而不仅仅是描述）来理解这一切，正是空间智能的力量所在。缺乏空间智能，人工智能就无法与它试图理解的物理现实相联系。它无法有效地驾驶汽车，无法引导家中和医院里的机器人，无法创造全新的沉浸式和互动式学习和娱乐体验，也无法加速材料科学和医学领域的发现。

哲学家维特根斯坦曾写道：“我的语言的界限就是我的世界的界限。”我并非哲学家，但我知道，至少对于人工智能而言，语言远不止于此。空间智能代表着超越语言的前沿——它连接着想象、感知和行动，并为机器真正提升人类生活开辟了无限可能，涵盖医疗保健、创造力、科学发现以及日常辅助等诸多领域。

人工智能的下一个十年：构建真正具有空间智能的机器

那么，我们如何构建具有空间智能的人工智能？如何才能构建出能够像埃拉托色尼一样进行推理、像工业设计师一样进行精确工程设计、像讲故事的人一样进行创造性创作、像急救人员一样流畅地与环境互动的模型？

构建空间智能人工智能需要比逻辑逻辑模型（LLM）更具雄心的方案：世界模型。世界模型是一种新型生成模型，其理解、推理、生成和交互语义、物理、几何和动态上复杂的世界（无论是虚拟的还是真实的）的能力，远远超出了当今逻辑逻辑模型的能力范围。该领域尚处于起步阶段，目前的方法涵盖了从抽象推理模型到视频生成系统等各个方面。世界实验室（World Labs）正是基于这样的信念而于2024年初成立：基础方法仍在不断建立，这将是未来十年面临的关键挑战。

在这个新兴领域，最重要的是确立指导发展的原则。对于空间智能，我通过三种基本能力来定义世界模型：

1.生成式：世界模型可以生成在感知、几何和物理上都保持一致的世界。

2.多模态：世界模型从设计上就是多模态的。

3.交互式：世界模型可以根据输入动作输出下一个状态

最后，如果行动和/或目标作为世界模型的输入，其输出必须包含世界的下一个状态，无论该状态是以隐式还是显式的方式表示。当仅输入行动（无论是否包含目标状态）时，世界模型应生成与世界先前状态、预期目标状态（如有）及其语义含义、物理定律和动态行为相一致的输出。随着空间智能世界模型的推理和生成能力日益强大和稳健，可以设想，在给定目标的情况下，世界模型本身不仅能够预测世界的下一个状态，还能基于新状态预测下一步行动。

这一挑战的规模超过了人工智能以往面临的任何挑战。

运用世界模式为人类建设更美好的世界

在所有这些时间线中，有几个领域因其重塑人类能力的潜力而脱颖而出。这需要巨大的集体努力，远非单个团队或公司所能完成。它需要整个人工智能生态系统的参与——研究人员、创新者、企业家、公司，甚至政策制定者——共同朝着一个共同的愿景努力。但这个愿景值得追求。以下是未来展望：

创意：赋予故事讲述和沉浸式体验超强力量

叙事体验迈向新维度：电影制作人和游戏设计师正利用 Marble 构建完整的世界，摆脱预算和地域的限制，探索在传统制作流程中难以实现的各种场景和视角。随着不同媒体和娱乐形式之间的界限日渐模糊，我们正在迈向融合艺术、模拟和游戏的新型互动体验——个性化的世界，任何人（而不仅仅是工作室）都可以创造并沉浸于自己的故事之中。随着将概念和故事板转化为完整体验的更新、更快捷方式的出现，叙事将不再局限于单一媒介，创作者可以自由地在各种表面和平台上构建具有共同主线的世界。

通过设计构建空间叙事：几乎所有制造的物品或建造的空间都必须在实体化之前进行虚拟3D设计。这个过程需要高度迭代，耗时耗力。借助空间智能模型，建筑师可以在投入数月设计之前快速可视化结构，漫步于尚未存在的空间——这本质上是在讲述我们未来生活、工作和聚会的方式。工业和时尚设计师可以瞬间将想象转化为形式，探索物品如何与人体和空间互动。

全新的沉浸式互动体验：体验本身是我们人类创造意义的最深刻方式之一。纵观人类历史，我们始终生活在一个单一的三维世界中：我们共同拥有的物理世界。直到近几十年，通过游戏和早期虚拟现实（VR），我们才开始窥见共享我们自己创造的平行世界意味着什么。如今，空间智能与新型设备（例如VR和扩展现实（XR）头显以及沉浸式显示器）相结合，以前所未有的方式提升了这些体验。我们正迈向一个未来：步入完全实现的多维世界将如同打开一本书般自然。空间智能使世界构建不仅对拥有专业制作团队的工作室而言触手可及，也对个人创作者、教育工作者以及任何拥有分享愿景的人而言触手可及。

机器人技术：具身智能的实践

从昆虫到人类，动物都依赖空间智能来理解、导航并与周围环境互动。机器人也不例外。自该领域诞生以来，具备空间感知能力的机器一直是人们的梦想，包括我在斯坦福大学实验室与学生和合作者们所做的研究。正因如此，我对利用世界实验室正在构建的这类模型来实现这一梦想的可能性感到无比兴奋。

具身形态的拓展：人形机器人在我们构建的世界中扮演着重要角色。但创新的全部益处将来自于更加多元化的设计：例如，用于输送药物的纳米机器人、在狭小空间中穿梭的软体机器人，以及专为深海或外太空打造的机器。无论其形态如何，未来的空间智能模型都必须整合机器人所处的环境以及它们自身的具身感知和运动。然而，开发这些机器人的一大挑战在于，缺乏涵盖如此多种具身形态的训练数据。世界模型将在模拟数据、训练环境以及基准测试任务中发挥至关重要的作用。

更长远的视野：科学、医疗保健和教育

除了创意和机器人应用之外，空间智能的深远影响还将扩展到人工智能能够增强人类能力、拯救生命和加速探索的领域。下文我将重点介绍三个具有变革意义的应用领域，当然，空间智能的应用场景远不止于此，它涵盖了众多行业。

在科学研究中，空间智能系统能够模拟实验、并行检验假设，并探索人类难以到达的环境——从深海到遥远的行星。这项技术可以革新气候科学和材料研究等领域的计算建模方式。通过将多维模拟与真实世界的数据采集相结合，这些工具可以降低计算门槛，并拓展每个实验室的观测和理解范围。

在医疗保健领域，空间智能将重塑从实验室到临床的方方面面。在斯坦福大学，我的学生和合作者多年来一直与医院、养老机构和居家患者合作。这段经历让我确信空间智能在医疗保健领域具有变革性的巨大潜力。人工智能可以通过模拟多维分子相互作用来加速药物研发，通过帮助放射科医生识别医学影像中的模式来增强诊断能力，并实现环境监测系统，从而在不取代治疗所需的人际互动的前提下，为患者和护理人员提供支持。更不用说机器人能够在各种不同环境中帮助医护人员和患者的巨大潜力了。

在教育领域，空间智能能够实现沉浸式学习，使抽象或复杂的概念变得具体化，并创造迭代体验——这对我们大脑和身体的学习机制至关重要。在人工智能时代，无论对于学龄儿童还是成人，更快、更高效的学习和技能提升都显得尤为重要。学生可以探索细胞机制，或以多维视角体验历史事件。教师可以通过交互式环境获得个性化教学的工具。从外科医生到工程师等专业人士可以在逼真的模拟环境中安全地练习复杂技能。

在所有这些领域，可能性是无限的，但目标始终如一：人工智能增强人类的专业知识，加速人类的发现，并增强人类的关怀——而不是取代作为人类的核心的判断力、创造力和同理心。

结论

过去十年，人工智能已成为全球现象，并成为科技、经济乃至地缘政治的转折点。但作为一名研究人员、教育工作者，如今又成为一名创业者，最激励我的依然是图灵75年前提出的问题背后的精神。我依然和他一样充满好奇。正是这种好奇心，让我每天都充满动力地迎接空间智能带来的挑战。

历史上首次，我们即将制造出与物理世界如此契合的机器，它们将成为我们应对最严峻挑战的真正伙伴。无论是加速我们在实验室中对疾病的理解，革新我们讲述故事的方式，还是在我们因疾病、伤痛或年老而最脆弱的时刻给予我们支持，我们都站在科技的前沿，这项科技将提升我们最珍视的生活品质。这是一个更深刻、更丰富、更有力量的生活愿景。

在自然界于远古动物身上展现出空间智能的最初迹象近五亿年后，我们有幸成为技术专家的一代，或许很快就能赋予机器同样的能力——并且有幸能够利用这些能力造福世界各地的人们。如果没有空间智能，我们对真正智能机器的梦想将是不完整的。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。