2024年已经过去,但2024年最后几个月的车圈动向,给2025年留下了很多遐想空间。

相比于“飞行汽车”在汽车领域的长周期提及和迭代,2024年最后一个月,“具身智能”这个词在车圈出现频次非常之高。12月26日,广汽发布了人形机器人GoMate,比亚迪也宣布招募具身智能团队。小鹏、长安、奇瑞、上汽、北汽、东风,都在2024年组建团队或者和创业公司签约联合开发。而赛力斯和小米则稍早一点,在2023年开始动作。华为和宁德时代、地平线、 速腾 参数 图片 )聚创、科大讯飞等供应商,也在投资机器人业务。

事实上,这也不是一个全新领域,只不过车圈刚介入而已。自2023年英伟达CEO黄仁勋高呼“AI的下一个浪潮将是具身智能”,这个概念就火了。而特斯拉2024年10月展示的机器人,研发至少启动两三年了。两年时间,中美有关具身智能的创业公司多如牛毛,就在车企当回事的时候,非头部具身智能创业公司拿融资已经很困难了。

具身智能≠人形机器人

那么问题来了,“具身智能”是否就是“人形机器人”?后者已经在科幻片里出现好几十年了,而前者只能追溯到几年前。两者在外观形态上可能有少许交集,但概念上完全不是一回事。

具身智能(Embodied Intelligence)之所以看着别扭,多少带点翻译腔,但确实是目前最为简洁的描述。

虽然具身智能没有共识的定义,但不妨碍大家争着给它定义。斯坦福大学AI学者李飞飞给出的定义是:“具身的含义,不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。”

这个定义不那么易懂,但可以看出,具身智能必须与物理执行能力有关,是不是人形倒不重要(但应有实体,而非单纯的代码)。我们可以将其简单理解为一种认知-行为智能,就像自动驾驶是某种意义上的认知-空间智能一样。

假设,我们支使一个“具身智能”去“倒掉厨房垃圾”,这个指令的理解和执行对人类来说再简单不过,但对于机器人却很复杂。后者应该将其拆解为一系列“子指令”——运动到厨房,搜索并辨识垃圾,分类装袋(获取袋子是另一个任务分支),确认无遗撒,抓握提起,打开房门,乘电梯下楼,搜索定位垃圾桶,移动到位,分类放入,原路返回。

打开网易新闻 查看精彩图片

图:目前的机器人只能在特定场景中执行固定任务

这些动作牵扯的技术栈非常广,包括语音识别、自然语言辨识,指令拆解,任务目标辨识、3D姿态稳定、机械移动、执行评估反馈等,更别提可能的任务分支。这就是本 世纪 初炒作了一阵子的人形机器人概念,最后偃旗息鼓的原因。因为人们发现,根本写不出通用机器人的代码。机器人只能在特定场景中执行固定任务,比如扫地机器人、跳舞机器人、工业喷漆机器人(机械臂)等。

好消息是,现在的大模型训练带来了新灵感。大家都看到了VLM(视觉和自然语言处理模型)、LLM(大语言模型)可以辨识模糊语义(人类也擅长辨识模糊语义),也可以教会AI在从未定义过的场景中做自主决策。再往前一步,走到物理执行层面,即解决本体与环境互动问题,那不就做出具身智能来了吗?有人将具身智能训练(多模态输入增强模型对物理现实的理解),描述成为智能注入灵魂(主观性),确实有些道理。

具身智能依然处于初级阶段

和大模型不同,发展到具身智能阶段,就不应该等着人类“填喂”给它数据并训练它(虽然初始可能这么做),它应该主动获取数据,并自我训练,然后扩张自己的能力。这里面的主动性,也是区别具身智能和人形机器人的关键。

顺便说一句,人类与环境互动,多数时候无须中央算力(大脑)。我们的小脑、肢体关节、皮肤,都能瞬时完成与环境互动,当然前提是我们对特定环境熟悉(自我训练)。

现在这股风吹到了汽车圈,除了特斯拉投资比较早,似乎也做出了产品(是否拥有典型的具身智能,尚存疑问),跟进的基本都是中国车企,这一现象很有意思。

诸多的券商投研报告,都很乐意用数字来描述某新兴产业的未来市场价值,动辄百亿千亿,还得是美元。这种饼画多了,报告都看得麻木。但毫无疑问,具身智能如果做成,商业前景无疑广阔,远超智能驾驶的商业价值,甚至还能和汽车产业掰一下手腕。

打开网易新闻 查看精彩图片

图:具身智能产业发展历程

现在全球汽车产业大概价值30多万亿人民币(2023年数据),而其带动的上游产业链,解决的就业岗位和周边产业,其经济乘数效应,在所有工业门类中无出其右。

相比而言,具身智能如果以产业标准来看,依然处于相当初级的阶段,即长期不招投资人待见的“备胎”学术门类,只不过,现在窥见了可能的技术路径,具备了工程化的可行性(即工程当中的“可研”)。

但如果从投资角度来看,又完全不一样了。一个具备广泛应用前景的商业模式,投资人会急切地寻找投资标的,抢着将支票塞到创始人口袋里。这种事,10年前已经看到多次了。只有当第一波创业企业在PPT和demo做出来之后裹足不前,耗尽前期资金,才能迫使部分投资人冷静下来。

做个不完全严谨的比喻,目前的具身智能,无论投资还是技术阶段,可能相当于智驾产业在2016年时的状态。

智驾护城河已变浅

一个依然处于雏形的产业,为何依然让诸多车企纷纷投资?

理由与投资飞行汽车有相似之处。毕竟智驾和具身智能,对大模型投资是贯通的。两者的软件(感知、视觉、算法、规控策略)技术路径相近,硬件上电池、电机、控制芯片要求差不太多(具身智能对环境工况要求稍低),何况两者都是大模型的商业变现途径。智驾对空间控制精度的要求不及具身智能,但智驾对于时间精度的要求又往往高于后者。总之,两者在技术和工程上,彼此映照。

换言之,智驾相当于具身智能的子集,理论上具身智能可以替代任何人类非创造性劳动。

对于现在的主流车企而言,投了上万张算力卡构建大模型,广泛部署了用户端数据采集能力,招募了如此庞大而高成本的人力资源,为什么不顺带进入具身智能领域?

再进一步分析,现在智驾收敛到“端到端”路径,加之车企同时在组织人马自研,智驾公司的商业道路收窄,拿到车企的长期订单越来越困难(除了少数供应商),而相关知识的扩散速度超出了此前的估计,智驾产业的护城河正在日益变浅。

打开网易新闻 查看精彩图片

图:智驾与具身智能的大模型投资是贯通的

业内普遍的共识是,L4目标(Robotaxi)无法用端到端路线解决。现在致力于L4的商业变现的公司,仍陷在亏损的烂泥坑里,原因并非是L2+那种规模效应不足的问题,而是技术上没有彻底走通。所以,车企智驾起步普遍晚于创业公司(除了特斯拉),而入局之后才认识到智驾的商业变现存在瓶颈

既然投资如此庞大,那么做具身智能也就成为必然选择。车企的意图,恐怕尝试利用既有资源(人力和技术资产)开辟第二商业战场。

有意思的是,2024年12月,小米、地平线、百度等负责智驾的高管,纷纷离职创立或者加入具身智能公司。技术出身的智驾研发一线高管,对行业趋势的认知,想必更敏感一些。

两者技术至少部分相通,智驾的商业想象力正在走弱,而具身智能则显得前途无量,转投新业态太正常不过。

无共识阶段才是最大机会

即便智驾与具身智能投资逻辑一贯而通,但业内更愿意强调二者的差异性。

前者,智驾车辆行为由规则兜底,依靠数据驱动迭代;后者,学习的是生物体,通过长期与环境交互,进化出复杂的行为模式。也就是说,具身智能因此也必须重点提升自主性和适应性。

很多公司的智驾部署量,现在已经达到几十万甚至百万,海量数据来源不成问题。数据和训练是智驾成长的基石。具身智能也需要数据输入,数据量严重偏少,且现在还看不到具身智能主动摄取数据的管道。

有些公司(譬如蔚来),希望透过构造世界模型,形成解释现实世界的认知框架,并最终解决智驾的预测问题(基于对物理和交通规则,预测未来几秒,是人开车的普遍思维模式)。世界模型的本质,是AI构造AI。准确地说,是AI构造“经验库”。

现在,也有人试图用世界模型,分层解决具身智能的执行精度问题。简言之,就是VLM叠加物理世界的运行常识,但根据LLM做高级决策(像人那样,用直觉实现从模糊语义到精确执行),这样就能避免使用大量数据训练。但是,如此直接输出动作,泛化能力可能相当有限。

打个比方,我们从桌面拿起一本厚重的书,大脑不会给肢体输出各个手指应该张开多大角度,每根手指发力多少的指令。我们甚至无须根据重量和静摩擦力感知来微调,因为我们的经验库已经非常适应这一任务。若换做拿起纸杯咖啡,就不会用同样的力度,因为早就知道会把杯子捏变形。我们不愿意教具身智能识别所有物体(也做不到),我们希望它自己悟出合适的拾取方式。

打开网易新闻 查看精彩图片

图:目前所能看到的机器人表演,可能都不是严格意义的具身智能

我们怀疑,现在看到的很多机器人做家政表演,开发人员都在几个有限动作数据上“过拟合”了而已,根本无法适应泛在场景。所以,从严格意义讲,这并不算具身智能。无法摆脱对海量训练数据的依赖,具身智能就不会获得泛在能力。

尽管技术实现存在多个瓶颈,具身智能仍然具有潜在的非凡商业价值。现在,具身智能从定义到技术路径,再到首批应用场景,都没有形成共识。而无共识阶段恰恰是最佳创业阶段,很多资本都有在发展初期布局的宏大意图。

车企自然也不例外。如今车企凭借优势资源大规模进入,短期内可能缓解了具身智能行业投资焦虑,但从长期来看,则有可能将多数具身智能的创业公司收编或者挤出这一行当,重演智驾的发展规律。

注:图片部分来源网络,如有侵权,联系删除。

低空经济 还在梦想阶段日产+本田 尚未清晰的效率之战雷克萨斯国产 能复刻特斯拉吗