今年的具身智能赛道进入到了共识与分化并存的时刻。
硬币的一面是频频获得融资的具身智能初创公司,另一面是对具身智能商业化的大讨论。从不同的时间维度看待具身智能,会做出截然相反的选择。
目前,具身智能特别是人形机器人的软硬件路线还没有收敛,但经过多年的探索期,已来到模型和本体之间的技术交叉点。如果当下没有大规模的研发投入,未来就不可能有具身智能公司的成熟。
九合很早开始在机器人领域布局,2019年投资移动协作工业机器人,2023布局具身智能公司。近期,九合创投创始人王啸和被投企业自变量机器人创始人王潜,共同参与了腾讯科技的“具身之路”直播,从核心卡点、技术路径、应用落地等多个角度,讨论大模型给具身智能带来的本质变化。自变量机器人本周宣布连续完成了两轮数亿元融资,由美团独家投资A轮。
核心观点:
目前人形机器人的出货量低,是因为它们还不能完成真正有价值的任务,更多停留在“演示品”阶段。机器人若要具备“实用性”,核心在于自主操作能力和思考能力,以及二者的结合。一旦其智能实现突破,出货量将大幅提升。
中国在工业基础、工程师资源方面具备优势,有潜力成为机器人产业的主要出货国。长期看,机器人可能会成为继手机、汽车之后,与人关系最紧密的第三大硬件品类。下一步需要的是“耐心”,产业链成熟需要多个关键节点的协同努力。
机器人“走路”更偏向硬件问题,而“操作”和“思考”则更多是AI问题,如今大模型带来了全新方法论,能够突破长久以来机器人无法自主操作的问题,当下最需要的是直接能控制机器人、实现物理交互的模型系统。
人形机器人的两种技术路线中,专家模型更适用于垂类任务,统一模型则具有更高的潜力。如果依靠系统化的方式进行列举和枚举,一旦涉及的情况变多,规则之间就会相互干涉,导致难以运作。选择通用模型这条困难但正确的道路,更有可能实现真正的突破。
以下是本期直播的精彩回顾。
来源:腾讯科技《AI未来指北》
作者:小燕 陌通
01
科幻照进现实:“人形”是否是最优解?
如何看待人形机器人在科幻与现实之间的差距?未来的发展趋势又会是什么样?
王啸:人形机器人不仅可以实现仿人步态,在面部表情等多个技术方向上也正逐步接近现实。比如美剧《西部世界》中虽然有很多科幻元素,但部分设想正逐渐成为现实——外观逼真、具备思考与操作能力,能够执行多样化任务。
我认为这些已不再是遥远的幻想,而是在快速推进的现实。未来五到十年,我们或许将看到外观几可乱真、具备情感陪伴与家务处理能力的人形机器人。随着大模型的发展,机器人的综合能力也在不断提升,我们所投资的企业正朝着这个方向努力。
王潜:人形机器人当前的发展方向主要集中在两个方面:一是外观更像人类,包括走路姿态、皮肤、面部等;二是提升其操作和思考能力更接近人类水平,更加有用。
目前我们更关注后者。自变量已能完成像拉拉链、整理柔性物体、叠衣服等复杂操作,集合Google、PI目前的模型表现,具身智能与2019年年初GPT-2发布时的自然语言所处的阶段相当。当前正处于类似于从GPT-2过渡到GPT-3的阶段,尽管硬件、传感器和模型仍有限制,但技术突破的潜力十分明确。
在运动能力方面,如步态控制和平衡性,机器人已达甚至超越人类水平。至于皮肤、表情等外观方面,技术本身并没有理论性障碍,只需通过工程积累逐步推进。
操作能力方面,我们也在提升机器人对复杂任务的思考能力。自变量构建的多模态“思维链”已能支持机器人进行长序列的复杂推理。
我相信未来五年,机器人将在能力上取得惊人进展。正如2019年无人预料到2022年底会出现像ChatGPT那样的产品,我们对机器人的发展也充满信心。具身智能的真正落地将出现在可预见的时间内,甚至可能超出目前大众的想象。
人形是否会成为未来的标准?它是技术发展的必然结果吗?
王潜:关于类人形机器人,我认为双足行走和仿人外形是技术上可行的,但是否是最优路径仍值得探讨。
自变量正在做的尝试之一是让所有人将自己的技能手艺变成微调模型,让机器人像下载APP一样获取特定技能。这种方式能突破人类传统技能无法复制、难以流通的问题。从这个角度看,人工智能、机器人的终极目标不仅是模仿达到人类水平,更是实质意义上超越人类水平。
虽然人形机器人在情感价值层面具有不可替代的作用,因为人类天然对外形像人产生情感链接,但从长期看,可能会出现效率更高、功能更强的非人形形态。就像人类并未通过模仿鸟类飞行,而是发明了飞机,机器人未来的形态也不一定局限于仿人路径。
王啸:我们在投资时主要关注机器人能解决哪些问题,适用于哪些场景。机器人是一个多样化概念,例如工厂中的机械臂和叉车也属于机器人范畴。人形机器人只是其中一种形态,也包括双足、轮足等多种形式。是否采用人形取决于具体问题和场景需求,而非单纯追求模仿人类。
02
应用落地的挑战:从展览样机到家用助手
如何打破当前这种“只能展示,难以应用”的困境?如何推动人形机器人实现更广泛的应用?
王啸:目前在工厂中大量使用的机器人,虽然并非人形,但已相当普遍,例如机械臂、流水线自动化设备等。在商业闭环场景中,如酒店、餐厅、清洁等领域,服务型机器人也已被广泛应用。如果将“机器人”概念适度泛化,可以说它们已经在生产生活中实现了一定的渗透。
但从现在到未来,要实现“具备人类思考与操作能力”的人形机器人,仍有较长的路要走。核心挑战并不完全在硬件上,而是“智能性”。能像人类一样理解任务、完成复杂动作才算是“机器人”。目前虽然走路等技术已大幅突破,但思考、操作仍未完全实现。
这也是为何现在人形机器人的出货量比较低。因为它们还不能完成真正有价值的任务,更多停留在“演示品”阶段。一旦其智能能力实现突破,出货量会大幅提升。
当前的大语言模型可用于理解指令、传递知识,但不能直接解决机器人在物理世界中的操作问题。我们需要的是一个端到端的系统,将语言理解与动作执行结合起来,这才是机器人真正的“突破点”。
这要求团队同时具备硬件、大模型、数据与系统工程能力,正是目前机器人研发最难的部分。一旦在这个关键节点实现突破,机器人产业将迎来爆发。真正的核心在于“智能系统的通用性”,就如同安卓系统之于手机。
王潜:我也认为,尽管波士顿动力、ASIMO等公司在“走路”这一方向研究了很多年,取得了很大进展,但在“手部操作”与“思考”层面,仍存在很多不足。过去常见的fancy的机器人操作演示(demo)大多基于预设轨迹。每一笔都是在不停重复预设好的轨迹,并不是机器人自主完成的。甚至一些机器人能完成精细的操作,比人类实现得更好,但也依赖于背后的人手遥控。
事实上,直到2018至2020年之间,机器人才真正意义上第一次在“自主抓取”任务上实现了相对完整的突破。之前市场做了几十年机器人硬件,比人手的执行能力要强很多,但唯独机器人不能自主操作。
总结来说,机器人“走路”更偏向硬件问题,而“操作”和“思考”则更多是AI问题,如今大模型带来了全新方法论,能够突破长久以来机器人无法自主操作的问题,但无法直接应用语言模型,语言模型可以解决规划、推理、长序列认知,并不能直接与物理世界交互,因此仍需直接能控制机器人、实现物理交互的模型系统,无论是端到端模型,还是其他实现形式。
当然,机器人还具有情绪价值、展示价值。但若要具备“实用性”,核心仍在于自主操作能力和思考能力,以及二者结合。
产业目标是走向C端,资本在其中的布局策略是怎样的?
王啸:从整体来看,人形机器人产业链相当长,涵盖了芯片、关节、控制系统,以及像自变量机器人这样的“大脑”模块,还需要不同场景的深度配合。资本只有在形成共识并集中投入一个方向时,产业才有机会快速成熟。
随着大模型的发展,机器人逐渐具备思考能力和操作能力,通用性显著增强。同时,硬件层面,如双足步行与灵巧操作手的逐步成熟,也提供了基础。
中国在工业基础、工程师资源方面具备优势,我认为中国有潜力成为机器人产业的主要出货国。长期来看,这会成为继手机、汽车之后,与人关系最紧密的第三大硬件品类。
商业化真正落地还需5年甚至更长的时间,才能形成性价比高、消费者可接受、功能实用的产品形态。因此,社会和资本都应给予行业足够的耐心。
产业链成熟需要多个关键节点共同突破,这不是任何一家公司能独立完成的任务,而是多个主体在多方向上的协同努力。
产业化的制约因素有哪些?目前产业链中还缺少哪些关键环节?
王潜:首先,价格是一个极度关键的问题,它涉及产品的投入产出比及PMF(产品与市场匹配)点,而PMF点的设计是商业化中最重要的环节。
人们对于一件物品的期待与其价格有非常强的关联性,例如,消费者购买一台几百元、几千元的扫地机器人,并不期望其执行复杂任务,只需把地扫干净即可,这就是一个清晰的PMF点。
如果我们希望机器人能完成所有人类能做的事情,甚至超越人类的某些能力,那么就要愿意为其支付更高的价格。问题在于,我们是否能在两者之间找到一个合适的商业化落点,让产品既具备实用性满足大家需求,又能被大规模接受。这是产业化的重要课题。
另一个制约因素是产业成熟度。例如,灵巧手尽管已经做了很多年,但目前仍处于行业早期,目前市场上自由度高、可靠性强的灵巧手价格仍偏高,这也是受到产量和前期研发投入等的制约。但从长期看,其成本一定会降到一个合理区间。
此外,目前行业在关键技术上尚未达成共识,例如灵巧手的技术路线、如触觉反馈等还没有收敛,关键子系统仍处在技术探索阶段,因此更需要时间和耐心。
未来随着产业自然成熟的发展、AI能力的持续提升,我们有望找到符合市场需求的PMF点,从而实现出货量的提升和成本的大幅下降。
03
智能核心与硬件支持:技术路径的多元探索
有的技术路线倾向将所有功能通过大模型端到端实现,有的路线更支持系统工程化,通过多个小模型或传统算法组合实现复杂功能。怎么看待这两种不同的技术路径?
王潜:目前技术路线存在实质的分歧。一类路径是构建多个专家模型,形成功能集或“技能库”;另一类则是自变量正在做的——在一个统一的模型中实现所有功能,即通用模型,通才模型。我认为专家模型更适用于垂类任务;但如果要实现通用能力,需要通过一个完全统一模型。这正是当前推进大语言模型和多模态模型的根本原因。
专家模型的能力存在天花板,而统一模型具备更高的潜力突破现有边界。当然选择哪种路径也取决于最终应用方向。过去几十年,大量的系统工程策略确实取得了一些成果,但与人们的期望仍存在巨大差距。因此,我认为应把更多精力投向通用模型方向——这是更有可能突破技术上限的方向。
王啸:我们希望机器人具备泛化能力,能够处理各种不常见的问题。如果依靠系统化的方式进行列举和枚举,一旦涉及的情况变多,规则之间就会产生相互干涉,导致难以运作。虽然在有限的情境下可以实现部分功能,但系统规模扩大时就会难以维持。因此,我认为这种技术路线短期或许可以尝试,但长期来看并不可行。
我倾向于采用大模型进行端到端解决方案。因为只要人为介入设计,就可能存在漏洞,任何额外的算法调整都可能带来新的问题。
统一模型的技术难点在于模型的构建、数据处理和算法优化,同时还要考虑与现实场景的适配。这些挑战极为严峻,但也正因如此,只有选择这条困难但正确的道路,才有可能实现真正的突破。方向已经明确,关键在于数据规模、算法优化以及时间节点,仍处于探索阶段。
目前不断出现新的模型架构,例如Figure的Helix,请从技术角度谈谈它的特点。
王潜:自变量的模型架构与π0整体方向相似,均为端到端、完全统一模型。虽然过去较长一段时间内,端到端路线并不被认可。但由于机器人手部操作有其特殊性,许多操作任务如果不采用端到端模式,根本无法完成。只要操作难度超出简单抓取的范畴,传统分层模型就很难胜任。目前“完全端到端、一体化、通用模型”是具身智能的一个大的发展方向。自变量研究团队也正走在这条路上。
同时,自变量的模型也与π0存在一些区别,比如在high-level的思考、规划、推理方面,PI通常采用另外的独立模型实现。由于π0的架构本身较少涉及以上几个方面,虽然有现成的VLM模型作为基础的backbone,但在进行动作的训练之后,其语言与视觉能力会有所退化,因此需要额外的模型承担高层架构。
自变量的模型则包含了完整的能力体系:思考、推理、以及low-level的动作控制等全部集成,训练的自研模型WALL-A是目前世界上最大参数规模的具身VLA模型,在任务难度、高级别的语义泛化、动作泛化、模态对齐等方面的表现实质上超越π0。
我们的做法在本质上更优,因为随着任务复杂度提升,非端到端模型都会面临一个根本性问题——模块之间如何结合。一旦前序处理中出现错误,后续环节将受到严重影响。机器人操作这一问题的本质驱使自变量选择端到端大模型的路径,
如今这一技术已经逐步发展至相对成熟的水平。无论是使用仿真还是端到端方法,实际上都源于操作任务本身的特点,我们很早就确定了端到端的技术路线,认为尽可能减少人为干预是一个长期趋势,其实人类自身也难以明确解释自己的认知过程。
如今大模型方法的兴起,是方法论上的一次重大创新和本质变化。无论是π0 模型还是自变量的模型,我认为都走在正确的道路上。即使未来出现新的技术突破,也仍会在当前(端到端的)框架之下,不太可能回归过去的分层架构,或回到“专家模型”(一个或几个任务做一个模型)的旧范式。
从算力角度来看,是否有必要开发专门针对机器人的硬件?这一方向在产业上是否具有重要意义?
王啸:机器人的核心是计算,并且需要支持人工智能的运作。过去的CPU和GPU厂商依然是机器人的计算能力核心供应商,但也会有一些新的小型厂商进入这一领域并进行专属开发。我们已经开始布局并投资机器人领域的芯片,整体来说这一领域的发展仍在初期阶段。
王潜:从我们目前的角度来看,车载芯片非常好地满足了机器人端侧推理的算力需求,尽管这些芯片最初是为自动驾驶设计的,但自动驾驶在算力方面与具身智能的需求有部分重叠。
其间也有一些差异。与自动驾驶芯片相比,机器人芯片在物理层面上要求不那么严格。例如,机器人所需芯片不需要像自动驾驶芯片那样承受极端的高温或低温,因此成本相对较低。但从计算角度来看,现有的GPU和端侧推理芯片已经能够很好地满足具身智能的需求。
未来,自动驾驶模型可能不需要像人形机器人那样庞大的算力,但随着机器人算力需求的增加,具身智能将需要更强大的芯片来支持。
04
人形机器人的未来:AGI时代下的差异化发展
请两位谈一谈DeepSeek对我们的影响,怎么看待这个变化?
王潜:DeepSeek对大环境产生了深远的影响。之前很多人认为原创性工作更多出现在美国,DeepSeek极大程度上地改变了人们的这一成见,尤其是在海外,大家开始意识到中国在AI领域的强大实力。
它不仅改变了人们对中国的看法,也推动了全社会对这一问题的认知。因此,对于我们这类从0到1进行前沿探索的中国公司来说,DeepSeek无疑提供了良好示范。
在具体的技术层面,DeepSeek的成果为我们提供了有价值的参考,但DeepSeek主要关注的是语言模型和推理模型,而自变量专注于具身智能模型,两者在问题性质上的差异很大。
许多人可能会认为,既然都是大模型,可能会非常相似,但其实各个领域的特性会导致技术路线及具体选择产生极大区别。比如自动驾驶与机器人在很多方面并不相同。机器人操作所面临的问题几乎都是自动驾驶不会遇到的;而自动驾驶面临的安全性等,是具身智能领域不会遇到的,所以两者的技术路线也完全不同,几乎没有复用的可能性。
我们和DeepSeek相比也类似,如DeepSeek-R1更多地关注长程推理和长思维链,自变量也会做思维链,但更多是多模态的思维链,比如预测某个动作的状态,或者动作质量的高低等,且不需要特别长的思维。DeepSeek的长思维链和强化学习更多适配它的领域,但对自变量来说,这些并没有直接的技术影响。
当然,DeepSeek也在推进多模态模型,这对于我们来说是一个参考,包括其中一些强化学习算法,但总体来说,DeepSeek所做的与具身智能分属AI的两个大方向。
王啸:两三年前,我曾说过,中国的模型不会比美国差,凭借中国工程师的数学能力和勤奋程度,我们的模型完全可以做到不逊色于美国。DeepSeek证明中国能够创造出与美国不相上下,甚至更优的模型,让我们更加自信。
DeepSeek像是开源的安卓系统,降低了应用开发的成本和门槛。开发者不再需要依赖收费API,而是可以直接使用开源模型,这使得应用开发变得更加低成本和灵活。
如果自变量机器人能够成功推出机器人领域的大模型,整个行业有可能会迎来一次爆发,就像应用层的爆发一样。通过降低成本,机器人行业的应用层将迎来真正的拐点。
热门跟贴