出品|搜狐科技
作者|梁昌均
编辑|杨 锦
具身智能越火,越逃不开到底该如何商业化的追问与质疑。
2025世界机器人大会第二天的主论坛上,中关村智友研究院院长王田苗、蓝驰创投联合创始人曹巍、智平方创始人郭彦东,UniX AI创始人杨丰瑜,在德国慕尼黑工业大学教授Alois C. Knoll(阿洛伊斯·诺伊)的主持下,围绕具身智能的商业化路径进行了探讨。
王田苗认为,人形机器人会先在商超和工业特定场景落地,而泛化到任何工厂、养老、陪护等领域,还需要漫长的时间。
在曹巍看来,具身智能落地应从简单场景、简单任务,逐渐过渡到复杂场景、复杂任务。短期可在工厂、零售等场景落地,并同样认为进入家庭将是一条非常漫长的路。
不过,杨丰瑜认为,制造业并不是人形机器人的最佳切入点,因此现在的具身智能模型还缺乏稳定性,因此公共服务或商业服务领域会是落地的第一步。
嘉宾们还探讨了具身智能大规模应用还需要的技术突破。杨丰瑜表示,具身智能本体的价格已经不是瓶颈,真正需要压缩的是边际训练成本。
郭彦东则认为,具身智能还需在三个方面突破,一是尽可能通用的算法,能够自主学习真实环境;二是数据策略,需融合互联网、仿真和真实世界数据;三是便宜且稳定的硬件。
曹巍也提到硬件的重要性,希望它超级便宜、极度可靠、易于维护,且能大规模量产,“但现阶段,我们还处在小规模、非常有限的产能阶段”。
此外,在3D场景数据感知、更简洁的模型架构、面向垂直领域的高质量监督微调,以及强化学习的高效应用等都还是具身智能需要探索的领域。
从中可以看到,具身智能还远未形成高度共识,无论商业化落地路径,还是技术挑战,业内关注的点都有所不同。不过,机会往往就来自非共识,就看最后谁能跑通了。
以下是论坛内容精编:
阿洛伊斯:哪些现实世界的应用会催生具身智能的发展,我们已经看到人形机器人已带来需求,这种需求的价值是什么?
王田苗:我个人觉得在我们的人类社会里,机器人或更加泛化的具身智能,最重要的是服务于生产效率,并且提供社会的服务价值。具身智能真正的价值就在于它能够学习推理,然后模仿人去高效地在生产效率和服务价值上进行匹配。
阿洛伊斯:人形机器人会在哪些场景落地?
王田苗:如果我们把具身智能定义在提高生产效率和服务价值的时候,与形态没有关系。人形机器人有可能会在商超、工业特定的环境下落地,而不会泛化到任何工厂、养老、陪护等领域,这些我觉得还需要漫长的时间。
曹巍:长远来看,我们在追求一种无限生产力,尽可能便宜、尽可能强大。第二个是人类文明的再生产,也就是把人类文明复制或延展出去。
短期内,要从简单场景、简单任务,逐渐过渡到复杂场景、复杂任务。短期内人形机器人会走进具体场景,如工厂、零售门店,它确实能帮助生产或服务流程。
郭彦东:具身智能的需求早已存在,而且由来已久。全球的劳动力短缺一直是个非常严重的问题,有很多工作对人类来说既枯燥又不安全,甚至危险。
我们需要人形机器人,或者更广泛的机器人设备,来承担这些任务。唯一的新变量在于,大模型和具身智能的飞速发展,使机器人能处理非结构化的任务,并能在不同场景下快速适应。
杨丰瑜:我认为具身智能的需求一直存在,关键取决于技术成熟到什么程度,以及企业和研究者能否找到合适的产品市场契合点。
我们并不认为制造业是人形机器人或具身智能的最佳切入点,公共服务或商业服务领域会是最先落地的第一步。然后,利用这些场景不断积累数据,最终能把这些数据用到更复杂的场景,例如家庭。
阿洛伊斯:所以过渡到第二个问题,到底需要哪些技术突破,才能让具身智能足够鲁棒、能够真正大规模使用?
杨丰瑜:想让机器人在非结构化环境里既鲁棒又可靠,最难的点就是环境本身不可预测。所以有一项经常被忽视、却极其关键的技术——就是遥操。
第二点是可靠性红线。即便机器人在受控状态下与人互动,也必须保证安全,因此力控/柔顺控制是底线,再加上遥操作去兜底失败场景。
王田苗:现在具身智能应用中有两条路线。一条路线是理想主义者,重构世界模型,然后再加上通用人形、丰富的数据,能够泛化到很多场景。
但现实中可靠性、稳定性非常难,所以还有一种路线,就是从构建的世界模型去解构落地到客户的现实物理模型,我们叫智能定界,就是给智能画个框,而不是泛化。
基于这个思路,特定的不同场景,如咖啡场景、扫地场景、手术场景,甚至物流场景,突然感觉好像可以突破,可以解决稳定性和可靠性问题。
郭彦东:我认为实现技术突破需要三大关键要素,一是尽可能通用的算法。端到端的大规模模型能够从系统里自主学习,需要算法具备常识级的学习能力。
二是数据策略,我一年半前提出过把三类数据资源整合——互联网数据、仿真数据、真实世界数据,共同训练出强大的具身智能系统。
三是便宜且稳定的硬件,便宜意味着能快速把设备铺到真实场景当中,稳定意味着所有产品在性能、可靠性上保持高度一致。
曹巍:首先硬件要超级便宜、极度可靠、易于维护,且能大规模量产。但现阶段,我们还处在小规模、非常有限的产能阶段。因此,必须先找到真正有用的场景,实现大规模量产,从而把成本打下来。
第二,算法层面,而算法离不开数据,现有传感器处理二维场景数据已经非常成熟,但在三维空间理解上还有大量待解问题。
模型架构本身也需要创新,何让模型架构更简洁、更优雅,例如采用自回归方式,是目前研究的重点之一,我们也看到越来越多的新颖架构正在涌现。
第三,监督微调(SFT)。大模型若要落地到垂直行业,就必须针对具体场景做高质量监督微调,但如何降低过程中的采集成本、提高效率,仍是持续研究的课题。
最后是强化学习(RL)。RL非常强大,经典的PPO算法已经问世二十多年,但仍不够理想,根本机制存在局限。目前,前沿研究尝试将生成式模型与RL结合。
阿洛伊斯:怎样才能让这些系统变得可信,让人们真的愿意与机器人共事,让它们融入日常生活,而不会产生抵触或排斥?
曹巍:帮助人类建立对机器人的信任是一条漫长的路,这次看到孩子们在跟机器人一起踢球,我觉得这是非常好的开始。让他们在很小的时候就接触机器人,从小培养人机之间的信任。
从技术层面讲,机器人本体现在大多以金属为主,金属本身就很危险:重量大、惯性大,一旦跑动起来,对人来说风险很高,这是从物理安全的角度。
从算法层面,透明度极为关键。人们并不知道神经网络到底在想什么,因此需要一系列安全护栏,把基本的安全红线写进模型里,同时给机器人配备急停机制,确保能随时中断。
王田苗:我有两个观点,第一就是关于可信度还没有形成第三方的标准,要分类,包括陪护、工业操作等,这非常重要。
第二就是万一出现失误谁负责?目前看有四方:运营方、制造方、客户使用不当方,以及商业赔付方。如果保守发展就慢,如果激进就可能会逐步提高客户使用的信任度。
杨丰瑜:我认为最关键的是可预期性,端到端模型的好处是能涌现意想不到的能力,坏处是很难预判何时会失败。
这与软件的透明度紧密相关,我们的做法是在模型里加入可供人类检查的“中间步骤”。这样既能验证是否符合人类常识,又能在失败时回溯、分析原因。
郭彦东:提高系统可信度,可以把基座模型开源。我们开源了最新模型,不仅为了宣传,更想倡导,只有让大家看得见、摸得着模型内部,才能真正信任机器人。
阿洛伊斯:如何让这些系统真正商业化?除了刚才说的大规模量产降本,还有别的方法吗?
郭彦东:硬件成本已快速下降,但AI成本越来越高,训练模型需要大量算力。因此,关键在于高效训练——如何组织GPU集群、组织数据以及做增量学习,把GPU利用率提到最高。
具身智能的数据量远大于语言模型,不能只靠自己采集,要回收真实场景数据,并鼓励开源数据集。最后是通用性,拥有强大的基座模型,定制化成本就会骤降,这是最核心的降本思路。
王田苗:我觉得有两个突破口,一是从运营切入,二是加强基础数据和算力,从而带动相应的通用载体平台和核心部件的供应链发展,这有可能加快推动未来3到5年具身智能的规模化应用。
杨丰瑜:具身智能本体的价格已经不是瓶颈,真正需要压缩的是边际训练成本。每进入一个新场景,都要重新采集数据、重新训练,这部分成本最高。我们主攻的小样本模仿学习能把场景迁移的边际训练成本压到最低,形成良性循环。
曹巍:我认为机器人行业的发展关键在于,要先找到那些简单能大规模复制的应用,先把规模做起来,别一上来就啃高复杂度任务。研究交给大学教授,企业家就专注商业化和规模化。
运营编辑 |曹倩审核|孟莎莎
热门跟贴