当地时间2月3日,英伟达专注于机器人基础模型、多模态学习及物理人工智能(Physical AI)等前沿研究的高级科学家范麟熙(Jim Fan)在社交媒体平台X上发帖,系统阐述了他对人工智能预训练范式正在发生根本性转变的判断。
在范麟熙看来,过去十余年推动人工智能飞速发展的核心方法——“下一词预测”,正在逼近其能力边界。当人工智能开始真正走向物理世界,承担驾驶、操纵、装配以及与环境持续交互等任务时,语言不再是最高效的中介。现实世界并非由离散的文本或符号构成,而是由连续的空间、运动、接触、力与因果关系所主导。
他指出,一种新的预训练目标正在浮现:从预测下一个词,转向预测下一个世界状态。在这一范式下,模型需要在给定动作条件下,学习世界将如何合理地演化。视频生成模型是这一思想的初步体现,但其真正意义并不在内容生成,而在于为机器人学和物理人工智能构建可扩展的基础能力。
范麟熙进一步批评了当前主流的视觉-语言-动作模型路径,认为其在架构设计与参数分配上过度偏向语言与知识记忆,而忽视了对物理因果关系的系统建模。他强调,真正高带宽地连接感知、运动与现实世界的,并非语言,而是视觉。
在他看来,大型世界模型(Large World Models)的成熟,可能标志着机器人学迈向“GPT-3 时刻”的前夜。这并非一次应用层面的迭代,而是一场回到第一性原理的研究转向,也预示着人工智能研究正在重新进入以探索和基础问题为核心的阶段。
以下为范麟熙题为《第二种预训练范式》的全文:
下一词预测是第一种预训练范式。如今,我们正经历第二次范式转变:世界建模,或称“下一物理状态预测(Next Physical State Prediction)”。很少有人真正理解这一转变的深远意义。不幸的是,目前世界模型被炒作得最厉害的应用,仍然是AI视频“工业废料”式内容(紧随其后的,将是游戏领域的同类产物)。我可以非常确信地断言:2026年将成为大型世界模型(Large World Models)为机器人学习以及更广泛的多模态AI奠定真实基础的第一年。
在此背景下,我将世界建模定义为:在给定动作条件下,预测下一个合理的世界状态(或更长时间序列的状态)。视频生成模型是这一思想的一种具体实现形式,其中“下一状态”表现为一段RGB帧序列(通常为 8–10秒,最长可达数分钟),“动作”则是对要执行内容的文本描述。训练过程涉及对数十亿小时视频像素中未来变化的建模。
从本质上看,视频世界模型是可学习的物理模拟器与渲染引擎。它们捕捉了反事实推理——即推理如果采取另一种动作,未来将如何以不同方式展开。世界模型从根本上将视觉置于首位。
与之相对,视觉-语言模型(VLMs)本质上是语言优先的。从最早的原型(如LLaVA,Liu等,2023年)开始,其基本路径几乎未变:视觉信息进入编码器,随后被路由至语言主干。随着时间推移,编码器不断改进,架构日益精炼,视觉试图变得更加“原生”(如Omni模型)。但它始终处于二等公民的位置,被研究界多年围绕大语言模型构建的“肌肉”所远远压制。
这一路径固然便利。我们熟知语言模型的扩展规律,架构直觉、数据配方以及基准测试(如VQA)也高度针对语言优化。
在物理AI领域,2025年由视觉-语言-动作模型(VLA)主导:在预训练的VLM检查点之上,嫁接一个机器人电机动作解码器。更准确地说,这是LVA:语言>视觉>动作,重要性依次递减。这同样是一条便利的路径,但问题在于,VLM的大部分参数容量被用于知识记忆与符号识别,而非物理因果建模。VLA在知识检索方面表现出色,却在结构上将资源堆积在错误的位置。多阶段的“嫁接式”设计,也违背了我对简洁与优雅的偏好。
从生物学角度看,视觉主导了我们的大脑皮层计算。大约三分之一的皮层区域(枕叶、颞叶和顶叶)用于处理像素信息,而语言依赖的区域则相对紧凑。视觉是连接大脑、运动系统与物理世界的最高带宽通道,它闭合了机器人学中最关键的“感觉-运动环路”,且在中间无需任何语言介入。
大自然本身提供了一个存在性证明:一种高度灵巧的物理智能,却仅具备极其有限的语言能力——猿类。
我曾亲眼见过猿类驾驶高尔夫球车,并像人类技师一样使用螺丝刀更换刹车片。它们的语言理解能力,充其量也只相当于BERT或GPT-1级别,但其物理技能却远远超越我们当前最先进的机器人。猿类或许没有强大的语言模型,但它们无疑拥有稳健的“如果……会怎样”的心理图景:物理世界如何运作,以及对其干预将如何产生反馈。
世界建模的时代已经到来。这完全符合“苦涩教训(Bitter Lesson)”的精神。正如吉滕德拉·马利克(Jitendra Malik,计算机视觉和机器人学著名的研究人员)常提醒我们这些沉迷扩展的人所说:“监督是AI研究者的鸦片。”整个YouTube以及智能眼镜的兴起,将以远超我们迄今所有文本训练数据规模的方式,持续捕获真实世界的原始视觉流。
我们将见证一种全新的预训练方式:下一世界状态不再局限于RGB,还将涵盖三维空间运动、本体感觉以及触觉感知——这些领域才刚刚起步。
我们也将见证一种全新的推理形式:在视觉空间而非语言空间中进行思维链。物理问题可以通过模拟几何、接触与碰撞来解决,而无需将其转化为字符串。语言是瓶颈,是脚手架,而非基础。
与此同时,一系列开放性难题也将随之而来:即便拥有完美的未来模拟,电机动作该如何解码?像素重建是否仍是最佳目标,还是应转向其他潜在空间?我们究竟需要多少机器人数据?扩展远程操作仍是答案吗?在经历这一切之后,我们是否终于接近机器人学的“GPT-3 时刻”?
伊利亚·苏茨克弗(Ilya Sutskever,SSI联合创始人之一)终究是对的:通用人工智能(AGI)远未收敛。我们重新回到了研究的时代,而没有什么比挑战第一性原理更令人振奋。(文/腾讯科技特约编译无忌,编辑/博阳)
热门跟贴