打开网易新闻 查看精彩图片

抓住风口

本期要点:AI为什么没办法像人一样?

你好,我是王煜全,这里是王煜全要闻评论。

最近,尽管AI的发展如火如荼,但许多人可能会感到困惑——为什么是AI去写诗画画,抢走程序员、分析师这样的高端工作,而人类依旧需要自己洗衣做饭、端茶送水呢,不是说AI是来服务人类吗?

现状确实如此,不过,可能要有转折了!

前段时间,一直对大语言模型(LLM)持批评态度的图灵奖得主、Meta首席AI科学家杨立昆(Yann LeCun),终于发布了“世界模型”的初步成果。

杨立昆详细介绍了他们的新型视频理解架构V-JEPA 2,即Video Joint Embedding Predictive Architecture。他强调,这不是另一个大语言模型的变种,而是基于海量视频数据进行学习的“世界模型”。

据称,V-JEPA 2的训练分为两个阶段。首先,通过观看视频进行预训练,让模型建立对物体恒常性、重力、碰撞等物理概念的直觉。然后再引入机器人与环境互动的视频数据进行微调,以提升模型的动作预测能力。

无独有偶,被称为“AI教母”的斯坦福大学教授李飞飞,在知名风投机构a16z的播客中提到,当前AI系统普遍缺乏一种至关重要的能力——空间智能(Spatial Intelligence)。

例如,当你蒙上眼睛,会发现很难仅凭语言完成复杂任务。但是睁开眼睛后,你能够迅速构建物理空间并高效操作。对于AI及其控制的机器人来说也是同样的道理。

我们认为,两位路径不同的顶尖学者共同给出了一个清晰的信号:大语言模型一定不是终点,AI的下一步应当是物理AI,也就是能够感知、理解、推理乃至改变物理世界的模型。

不过,要注意的是,物理AI仍然无法实现通用人形机器人,最多只能创造出更灵巧的机械臂。今天的思想荟文章就来好好聊聊。

鹦鹉学舌

首先,世界模型和空间智能,或者用一个更大的概念——物理AI,确实是一个重大进步。

当前主流的AI模型都具有根本性缺陷。它们虽然“能说会道”,还能生成图片、视频,甚至可以为你完成一些具体的工作,但本质上这仍然只是“鹦鹉学舌”。

因为,说白了,当前主流生成式AI的底层原理是基于海量数据进行统计分析,从而预测下一个Token。可是,由于缺乏对物理世界法则的理解,它们的表现高度依赖于训练数据的质量。

所以,我们会看到,当ChatGPT3.5刚推出时,尽管看上去能像人一样聊天,但会频繁出现幻觉和低级错误。而Sora等视频生成工具也会产生不合物理规律的内容,比如让椅子漂浮起来,或是让蚂蚁一会儿四条腿、一会儿六条腿。

这些问题确实可以优化,却无法彻底消除。其根本原因在于,基于大语言模型的生成式AI无法自行评判结果准确与否。

杨立昆

因此,杨立昆和李飞飞所倡导的正是AI发展的下一步方向。

就像婴儿通过看、听和触摸来探索世界,物理AI也可以通过多模态数据让AI学习物理世界的规则,获得自我判断的能力。

AI也得“社会”

但是,从更长远的角度看,物理AI也有局限性。

即便AI掌握了物理世界的规律,能够像物理学家一样思考,还能像工匠一样进行精细的操作,但要让它服务人,依然差着认知的鸿沟。

比如,服务人的AI应当至少具备情感共情的能力,也就是需要AI通过理解面部表情、语气语调、生理信号等信息,感知人的情绪、想法,甚至预判人的动作。这是机器人刚刚开始涉足的领域,但却是每个普通人的基本能力。

人类大脑中有丰富的镜像神经元(Mirror Neuron),让我们能够直觉地感受到他人的喜怒哀乐。基于这种理解,未来也许可以构建能和人共情的AI模型。

更重要的是,MIT的Rebecca Saxe等教授的研究表明,大脑中的颞顶联合区,能让我们直觉地理解他人的想法、推测他人的意图。也就是说“子非鱼”,确实“焉知鱼之乐”,但我们都是人,甚至不需要学习就可以“知他人之乐”。如果AI要达到类似人类的认知水平,可能也需要具备类似的模块和能力。

所以,虽然AI大模型可以识别讽刺、开玩笑等表达方式,但这是因为它们掌握了文本数据中的一些人类行为模式,并没有内化社会互动背后的动机与情感。我们也就更不能指望AI会突然“开窍”,而是要对所谓的“涌现”现象持谨慎态度。

人是有自由意志的自主行为体,机器人要想服务好人,必须要对服务对象的思想和情绪有充分的了解,对人的行为能做出预判。而这些,甚至都还没列到现阶段AI研发的日程上来。

所以,最后,我想强调的是,我们距离实现真正的通用机器人,还有不少难关。

如今像特斯拉等公司大举投资人形机器人,当然是看中了它的“通用性”。马斯克自然不会希望自己的机器人只能在工厂拧螺丝,而是能在人类的生活环境中提供服务。也只有这样,才能支撑他所说的“全球机器人数量将达到100亿台”的设想。

但这意味着,此时机器人不仅要会干活,还要能服务人。

可是,要注意,物理AI只能做到“会干活”。物理AI可以让机器人拿起杯子,但无法让机器人理解在何种情境下、以何种方式递上这杯水。如果把没有社会智能的机器人强行塞进人类社会,你就会发现,这些机器无法真正融入,也就不能提供服务。

当然,物理AI可以提升机械臂处理多样化零件或完成复杂装配任务的能力,比如裁剪衣服和组装手机。这或许有助于进一步提高生产自动化水平,特别是在目前仍依赖人工的劳动密集型产业。

但仅仅让机器人可以从事柔性生产,显然意义并不重大。这只是替代了一小部分人工,也没有产生新增的价值。尤其是用人形机器人,在工业生产的场景中,其性价比很难超越非人形的特定用途机器人。

那么,当机器人被证明无法胜任普遍需求时,一场“寒冬”可能就会到来。那些专注于按摩、做饭、工业生产等垂直领域的机器臂或机器手企业,反而可能存活下来,并在物理AI的赋能下成长为行业巨头。

所以,我们反复强调,在技术热潮中,坑往往比机会多。

只有那些真正理解底层规律但仍然谨慎乐观的人,才能在泡沫中存活,并在萧条中崛起。

以上就是今天的内容。在今晚的特训营直播课上,我将为你深度剖析汽车产业的风险和机遇。如果你感兴趣,现在购买或续费“前哨•科技特训营”,还可额外获赠2个月的学时!欢迎扫码加入,和我一起,先人一步,领先一路!

另外,我们将每天的前哨科技新闻速览转化成AI播客,每天下午6点左右在全球风口的视频号里播放,希望你在下班路上能轻松获取科技新闻,欢迎前来试听。

王煜全要闻评论,我们明天见。

↓长按图片扫码报名先人一步,领先一路

最后,鉴于公众号推送机制的改变,你未来刷到要闻评论的机会可能没那么多了,建议你加入粉丝群,第一时间得到我的独家前沿分析,而且我们还会每天在粉丝群里发布独家资料,快快扫码加入吧!

【科技特训营】看懂科技产业,离不开长期观察。线上书院模式,与王老师深度链接!为未来五年做好准备,先人一步,领先一路!

↓¥399,掌握王煜全AI产业预测精华(iOS用户请在电脑端打开)

打开网易新闻 查看精彩图片

此外,我们还为您准备了一份思维导图,扫描加群即可领取

“全球AI独角兽一览表”