打开网易新闻 查看精彩图片

它能告诉你十种喝水的正确姿势,但让它倒一杯水就傻眼了。它能生成漂亮的房间效果图,却不知道门应该怎么开。它能模拟医生跟你问诊,但真让它扶个老人过马路,根本做不到。说白了,现在的AI只会说不会做,就像个只读过书没干过活的书呆子。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

很多人以为语言是智能的基础,但事实正好相反。你看小孩子,还不会说话的时候就已经会抓东西、扔东西、摸来摸去了。这些动作看起来简单,其实是在学习空间规则。

我们每天做的事情,停车要判断车轮和马路牙子的距离,接钥匙要估算飞过来的速度和轨迹,倒水不看杯子也能倒准,这些全靠对空间的理解。这些能力对人来说太自然了,根本不用想就能做到,但背后涉及的计算其实很复杂。

打开网易新闻 查看精彩图片

人类历史上那些重大发现,很多都是靠空间理解得来的。古希腊的埃拉托色尼看太阳影子的角度,算出了地球周长。沃森和克里克摆弄铁丝模型,摸索出了DNA的双螺旋结构。这些发现不是算出来的,是看出来、摆出来的。

12月初,科技日报报道了一个机器人实验室的情况。研究人员让机器人学习抓取不同形状的物体,传统方法是给机器人编程,告诉它每种物体该怎么抓。

但遇到新物体就不行了。后来他们改用空间智能的方法,让机器人通过观察物体的三维形状,自己判断抓取点。虽然还在实验阶段,但这个思路跟人类婴儿学抓东西是一样的。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

机器人也是一样。工厂里的机器人看起来很厉害,能装配零件,能搬运货物。但那都是在高度定制的环境里,轨道是固定的,参数是预设的,全靠脚本控制。换个环境就不行了。它们不会像人一样随机应变,不会理解物体之间的关系。

打开网易新闻 查看精彩图片

人民网11月底报道过一个案例。某物流公司引进了一批智能分拣机器人,在测试环境里表现完美,但到了实际仓库就问题不断。因为实际环境里包裹大小不一,摆放位置也不规则,机器人经常识别不出来该怎么抓。技术人员说,这些机器人只学会了"看图抓货",没学会"理解空间"。

李飞飞说得很直接,这些AI没有"住在世界里",只是"读了关于世界的说明书"。要让它们真正有用,必须让它们学会参与世界,而不只是描述世界。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

李飞飞提出的解决方案叫"世界模型",这不是普通的多模态大模型,而是能生成一个完整的、可以持续存在、可以交互的世界。传统大模型训练的是"下一句话",世界模型训练的是"下一帧世界状态"。

打开网易新闻 查看精彩图片

再比如你说"把水壶拿给我",普通AI理解的是这句话的意思。世界模型理解的是你和水壶之间的空间关系,它要规划路径,避开障碍物,判断怎么抓取,怎么递给你。这不是语言理解,而是空间推理和行为预测。

打开网易新闻 查看精彩图片

新华社12月中旬报道了建筑设计领域的一个应用。某建筑公司用AI生成了一个虚拟建筑模型,设计师可以直接"走进去"体验空间感,发现原来图纸上看不出来的问题。比如走廊太窄,采光不好,动线不合理。这种沉浸式体验让设计质量提高了不少。

这就是世界模型的价值,它把AI从"会讲故事"变成了"能创造世界"。