出品 | 网易科技《态度AGI》对话
作者 | 崔玉贤
编辑 | 丁广胜
2025年,具身智能赛道正以惊人的速度从实验室迈向产业前沿。一方面,资本热情高涨,机器人企业融资捷报频传,估值屡创新高;另一方面,机器人订单量快速攀升,喜报刷屏。此时,如此拥挤的赛道,依然有新的创业公司加入。
2025年12月18日,大晓机器人正式宣告亮相。与一般创业公司不同的是,大晓机器人依托于商汤科技,创业团队汇集来自AI、互联网、机器人、智能驾驶等领域的顶尖产业专家:
商汤科技联合创始人、执行董事王晓刚出任董事长,世界级AI科学家陶大程担任首席科学家。
对于此时进入具身智能赛道的机会点与原因,王晓刚在与网易科技等媒体交流时表示,具身智能赛道头部卡位尚未完成,该领域还远未成熟。
从技术路线来看,王晓刚认为技术路线还未收敛,机器人原有的技术路线比如VLA模型存在明显缺陷。“VLA模型是以机器为中心的,通过输入指令、图像和视频,直接输出动作,它不太需要去理解真实的物理世界和物理规律。简单粗暴地使用端到端或VLA并不能解决具身智能对‘大脑’的期望。”
在产业落地方面,也尚未出现规模化的应用。“尽管机器人赛道如今十分火爆,但现实情况是,目前能够成规模量产的机器人场景,要么是提供情绪价值的表演性质产品,要么是作为科研平台存在,尚未出现能大幅提升生产力的规模化应用。”
而在产业链整合方面,王晓刚认为,机器人行业的产业链分工尚未完善,从零部件、传感器到计算芯片等环节,都存在很大的垂直整合空间。而这正是大晓机器人的机会。
大晓机器人推出了首创的ACE技术范式,其构建了“环境式采集+世界模型+具身基模型”的全链路技术体系。
“我们采集的数据是以人为中心的,人带上第一视角传感器,比如视觉或触觉传感器,同时结合周围其他第三视角的摄像头和传感器,观察人在真实生产生活中的行为,再通过视觉手段、多模态手段分析人的活动,而非关注机器的活动。这样一来,采集效率会非常高,且能在真实场景中完成,还能记录人在长程、复杂环境下完成的动作。”王晓刚解释道,“另外,我们也会使用合成数据,但这种合成数据并非来自传统仿真器——它是通过世界模型完成的。世界模型的优势在于,可以快速、无限地放大现有的真实数据,并且能实现各种元素的编辑可控。”
将这两种技术路线结合起来就是大晓机器人目前要走的技术路线,这也是大晓机器人最核心的优势,但不是唯一。据王晓刚介绍,大晓机器人强项不仅在于大脑和软件,还有软硬一体方案。
“现有本体硬件与实际需求差距大,必须根据场景联合优化、重新设计。”他表示,大晓已投资钛虎、鹿明等硬件企业,与国内领先的具身智能企业合作,推出“具身超级大脑模组A1”,赋予机器狗空间自主导航能力,并与商汤“方舟”视觉平台打通,延展上百种AI应用功能。
在落地节奏上,王晓刚提出了三个阶段的目标:短期(1年内):以具备自主导航能力的四足机器狗为主,在安防、巡检等B端场景快速推广;中期(2-3年):聚焦前置仓、闪购仓等物流场景,解决人力密集型作业痛点;长期(5年以上):探索家庭场景,但需解决安全性、责任界定等复杂问题。
(一排从左往右:李鸿升、陶大程、王晓刚、潘新钢
二排从左往右:吕健勤、赵恒爽、刘子纬、刘希慧)
以下为网易科技等媒体与大晓机器人董事长王晓刚的对话部分内容:
一、发布首创ACE技术范式 公司对标Figure AI
提问:大晓机器人的名字是如何确定的,以及这些名字背后有着怎样的意义?
王晓刚:关于这个名字的由来,我们确实琢磨了很久。它取自大程名字里的一个字,也用了我名字中的一个字,背后是有特别寓意的。你看,这大千世界里,机器人与生命的联结本身就充满想象空间,未来这个赛道必然广阔,潜力更是无限。而我们希望通过科技的力量,让机器人真正落地应用,精准洞察人们生产生活的需求,用具体可感的服务切实改变大家的生活。这便是这个名字所承载的心意了。
首先我和陶老师,还有其他几位教授之间,原本就有着很好的信任基础。我们彼此之间,有的是汤老师的学生,有的是我的学生,现在有的已经成为教授,还有的是陶老师的学生。我今天想讲的是,具身智能赛道之所以吸引我们,是因为人工智能的发展从1.0到2.0再到3.0,始终在不断实现跨越式进步。而每进入一个新的发展阶段,创业往往是推动创新、加速技术落地的最佳方式。我们这些教授组成的核心团队之所以能聚在一起投身具身智能领域,也是因为这个赛道需要持续的创新驱动。
我和陶大程本身都是汤晓鸥教授的学生,在香港中文大学求学期间就建立了深厚的互信基础。在这个团队里,陶大程主要负责带领教授团队聚焦具身智能方向的持续研究创新,以强化我们的前沿科技属性;我这边则主要负责公司整体战略规划与商业落地,同时推动优秀研究成果的产业化、工程化转化。
提问:商汤科技将具身智能业务剥离出来成为一个独立的公司,是出于哪些方面的考量呢?
王晓刚:我们就是“1+X”的一个战略,这本身就是商汤现阶段既定的战略。这个战略其实也受到了市场和投资人的广泛认可,因为它既能保障集团尽早实现盈利,又能在基础设施和大模型方面保持领先,同时顺应人工智能持续创新的发展趋势,维持业务的生命力。今天提到的具身智能,我认为与商汤之前的业务相比,是一个难能可贵的拓展和补充机会。回顾商汤成立十多年来的发展,过去更多聚焦于To B软件业务,是一家人工智能软件公司。近年来随着大模型的发展,我们布局了大装置和基础设施,但在端侧的软硬协同整体产品方面仍有空白。而机器人的出现恰好提供了这样一个良好契机,让我们有机会在具身智能赛道实现软硬件整合,我们对大晓还是充满了期待的。
提问:就您个人而言,从商汤到大晓的经历对您来说是怎样的角色转换呢?
王晓刚:关于商汤这边的情况,具体的业务管理工作我承担的很少。我的精力会更多集中在AI产业落地的大晓业务上。另外,过去我在商汤曾负责过手机、互联网、汽车等多条业务线,对商汤的研发体系也非常熟悉,各业务线的同事都曾是一起并肩作战的战友。所以现在我们能很好地推动商汤与大模型业务形成联动,开展良好的合作,我觉得这一点是很有优势的。
提问:大晓机器人主要侧重于机器人本体还是大脑?
王晓刚:大晓机器人在产品化落地方面,输出的是软硬一体的方案,针对各个场景。长期以来,商汤在不同场景积累了较多经验,对客户需求理解比较充分。从我们团队来看,比较强的部分在大脑和软件。同时,在过去两年里,商汤也投资了一系列本体和零部件公司。然而,在实际场景应用中,现有的本体硬件与实际需求仍存在较大差距。因此,我们会根据场景需求进行软硬件联合优化,协同供应链生态伙伴,重新设计硬件,使产品更符合客户需求。
具身智能被期待拥有一个强大的“大脑”,这源于过去几年在大语言模型和多模态模型上取得的突破,大家期待将这种语言模型的能力赋予机器人,以实现通用化能力。
但是,我们能够看到现有技术路线的明显缺陷,包括VLA模型。VLA模型是以机器为中心的,通过输入指令、图像和视频,直接输出动作,它不太需要去理解真实的物理世界和物理规律。我们期待将来有一个更强的“大脑”能去理解世界,这就是我们提出的世界模型。与之伴随的是我们提出的ACE环境式采集范式。以前以机器为中心,基于不同物理结构的本体采集真机数据,很难综合得到一个比较通用化的“大脑”。现在环境式采集是“以人为中心”,通过第一视角、第三视角和多模态数据,更好地对人和物理世界的交互进行建模,并利用这些数据训练我们的世界模型。简单粗暴地使用端到端或VLA并不能解决具身智能对“大脑”的期望。
提问:你们正在构建以视觉为基础的‘环境式采集+世界模型+具身智能模型’全链路技术体系。想请您介绍一下,这一技术体系在具体的大晓机器人产品上意味着什么,又能实现怎样的效果?
王晓刚:环境式采集,它并非单纯局限于视觉模态,而是融合了多种维度的信息。除了图像、视频外,还涵盖相机位置、物体的3D轨迹等,未来还将纳入力、触觉等多维度、多模态的数据。我们的核心目标是对人和其所处环境进行建模——这里所说的世界模型,正是围绕人与他所接触的世界、所处的环境展开,需要对人与环境交互中的物理规律进行建模,这就离不开视觉之外的诸多维度。
我们可以看到,像特斯拉和Figure AI提出的所谓“视觉方案”,实际上也并非只有视觉维度。特斯拉采用视觉方案的思路源于自动驾驶领域的启发,毕竟基于视觉的自动驾驶解决方案已取得成功。但自动驾驶与具身智能存在本质差异:自动驾驶场景中不会发生物理接触或交互碰撞,而具身智能场景下,无论是人还是机器人,都需要与周围物体和环境产生物理接触,因此必须纳入其他维度的信息。
其实在过去长期的研究中,人体工程学、力学等领域已对人体受力、触觉相关信息有了深入研究,但由于此前的研究多以机器为中心而非以人为中心,这些成果无法直接应用于具身智能领域。如今我们提出的新研究思路,为人体工程学和力学的重要成果应用于具身领域打开了一扇门。
环境式采集是数据采集的关键入口,我们在这方面已有不少积累。比如今年年初,我们团队的刘子纬教授带领研究团队发布了Ego Life数据集,通过各类传感器记录了人们在真实生产生活环境中数百小时的数据,基于这些数据开发出了具身世界模型。再比如去年商汤在巴黎奥运会上,通过架设的视觉传感器实时分析乒乓球、三人篮球等项目中运动员的动作与球速,为现场解说提供支持,这些实践都为我们奠定了良好基础。
有了数据之后,如何利用数据构建强大的“大脑”——也就是理解世界的世界模型。我们的世界模型主要分为三个部分,而现有多数世界模型更多基于生成网络,比如李飞飞团队的World Lab等,多以生成为主要目的。今天我们提出的世界模型分为三部分,第一部分是多模态数据的融合理好的,这里面的多模态包含了刚才提到的图像、视频、相机位置、3D轨迹,还有力学元素、触觉等一系列内容,它们能够实现较好的融合。比如,最近我们团队与南洋理工大学合作了一项名为Puffin的研究,在具身智能领域,输入一张图像就能反推出相机的位置。如果机械臂或机器人身上装有摄像头,当机械臂运动时,摄像头随之移动,我们就能推测出其看到的图像和视频会如何变化;反之,通过观察变化的图像和视频,也能反推出机械臂的运动轨迹,这就与物理世界建立了关联。
其次,理解物理世界后,需要生成复杂的机器具身行为,包括长时序行为,这些行为需具备物理和因果一致性,并形成长时间记忆。此次我们发布的具身世界模型“开悟”3.0,已开放基于云服务的API。用户可以选择不同场景,让机器人完成各类动作,还能选择不同类型的机器人本体,比如宇树、芝能、银河等品牌的机器人。系统会根据所选机器人本体、场景及任务,合成机器人完成动作的视频,以及各关节轨迹参数。这些数据可用于训练机器人“大脑”,利用世界模型合成的大量数据提升机器人性能。
第三部分是预测功能,根据所选机器人本体、观察到的图像及视频状态,可预测机器人后续动作。这种“理解-合成-预测”的融合能力,正是我们强大的世界模型的核心。最后,通过具身机模型,我们能将强大的具身“大脑”迁移到不同机器人本体上,指挥机器人完成各类操作。因此,环境式素材、世界模型与具身机模型共同构成了我们以人为中心的研发新范式。
提问:对于大晓机器人来说,有没有明确的短期或长期目标?或者说,想要在行业内达到一个什么样的位置?
王晓刚:我们有几个方向,首先从产品目标来看,其实我们分为短期、中期和长期。最短期的话,除了刚才提到的提供情绪价值的表演类机器人外,我们认为短期内能够规模化落地的,是搭载了导航能力与各类AI应用能力的四足机器狗。此前这类产品未能广泛应用,很大原因在于空间自主能力不足。而现在我们已突破这一技术瓶颈,且将其与后端各类AI应用相结合,因此我们认为它有望实现广泛应用。
中期目标则聚焦于未来两到三年的时间范围。我们看好工业场景与商业服务场景,其中会优先选择闪购仓、前置仓这类商业服务场景。因为从明年开始,国内将出现大量前置仓与闪购仓,这类场景需要大量人力支持7×24小时服务,而机器人的加入不仅能提升生产效率,还具备较强的可复制性,能够充分发挥其在这类环境中的优势。
更远期的目标则指向五年后的家庭场景,但这更多涉及前沿技术的探索。例如Figure AI目前瞄准的就是这类场景,我们也将其作为重点研究方向。
若从技术与行业影响力的角度来看,首先是我们刚才提到的ACE这种新的具身智能范式,我们希望它能在行业中发挥引领作用。其次是我们的世界模型,在本次发布会上,我们将开源这一模型,并与云厂商及各类国产芯片厂商展开密切合作,以此找到关键生态位,推动整个世界模型生态的发展。
提问:您刚才多次提到的环境采集技术,目前主要的技术难点在哪里?大晓在开发过程中遇到了哪些技术卡点?积累的数据是否会构成公司未来的核心竞争壁垒?以及大晓公司的优势方面有哪些?
王晓刚:今天提到的环境式采集,我认为首先在采集装备方面,目前行业内还没有一套已形成共识、足够鲁棒稳定的环境式采集设备,这是我们需要突破的方向,并且要实现规模化应用。这类设备的采集方式需要降低成本、便于部署,人穿戴后不影响正常生产生活,周围部署时也应较为便捷。这其中还涉及硬件稳定性、数据同步等一系列问题,所以打造一套低成本、易部署、高可靠的设备是行业内比较关键且缺失的环节。
第二个方面,当这些设备完成数据采集后,我们需要借助自动化手段分析人的行为,有效提取多模态数据。由于环境式采集记录的是人类行为,产生的数据量非常庞大,不可能完全依赖人工标注,因此更需要实现自动化的信息提取,这也是一个重要方向。
第三个点,正如我们之前提到的,今天的环境式素材不仅要基于视觉,还需结合力觉、人体工程学等其他维度。这些维度涉及的新技术、新度量指标以往不在我们的研究领域内,需要跨学科合作,将其他学科的研究成果引入环境式素材采集领域,这样才能更充分地理解物理环境与物理规律。
二、具身智能卡位未确定 软硬件一体更有优势
提问:现在具身智能赛道的竞争其实已经非常激烈了,今年人形机器人的价格甚至已经降到万元以内。在这个节点上,商汤宣布要加入具身智能赛道,您认为这背后的契机是什么?大晓的核心竞争力又体现在哪里?
王晓刚:我觉得有两点,刚才说到的第一点是我们看到了一个与以往不同的新研究范式,也就是以人为中心的ACE研究范式。这种研究范式的转变,往往会给行业带来颠覆性的变化。比如特斯拉、Figure AI等企业都在迅速朝着这个方向调整,他们的新研究思路与我们在某些方面不谋而合。从时机角度来看,这是一个关键的时间点——如果一直沿着原有的范式前进,追赶或超越会非常困难,只有在这种革命性变化出现时,我们才有机会实现突破。
第二点是产业落地。虽然目前做具身的公司很多,但我们走访了大量客户后发现,他们对具身领域软硬件一体的产品充满期待。因为在过去十年里,商汤在各个垂直领域深入了解了客户对人工智能的需求。商汤过去十几年积累了几千家客户,覆盖众多行业方向,每个方向都有专门的应用开发团队,但此前缺少机器人载体的软硬件平台。因此,当我们进入这个领域时,能够快速实现规模化的场景落地,让机器人的价值成倍放大。
我举个例子,这次发布会上我们推出的具备自主导航能力的机器狗,就解决了现有产品的痛点。目前市面上的机器狗大多需要人工操控,即便用于巡检,也只能在固定线路依赖高精度地图,在预设点位拍照,产业价值十分有限,而且缺乏空间自主能力。而我们这次发布的机管平台可以同时控制多条机器狗,每条狗都具备独立的空间导航和自主行动能力,在地图上选定任意地点,它就能自主前往,无需人工干预。更重要的是,机器狗的视频数据会与商汤后台强大的视觉平台“方舟”打通。方舟平台目前已接入几十万路摄像头的数据,能支持各类视觉应用和分析。一旦机器狗与方舟打通,上百种相关的人工智能应用都可以迁移到机器狗平台上。相比之前只能在固定巡检场景拍照,现在机器狗一下子被赋予了上百种AI功能,价值得到了充分释放。更何况商汤在国内外拥有丰富的渠道和客户资源,所以在这个时间点推动具身智能加速落地,正是市场所期待的。到26年,也就是明年、后年。
提问:就机器人赛道,尤其是具身智能赛道而言,过去一年热度很高,已经涌现出不少本体厂商和零部件厂商,其中一些还在推动规模化落地。商汤在此时进入具身智能赛道,想请教您如何看待商汤在整个市场中的生态卡位,以及相较于其他厂商,商汤具备哪些优势?”
王晓刚:我们离具体场景和应用更近,目标是输出软硬结合的一体化产品,切实解决各行业及场景中的实际问题。因为行业里有多种本体硬件方案可供选择,我们需要做的,就是结合场景需求,以及刚才提到的ACE新研发范式的要求,去选择最适合其发展的硬件方案及组合,并与这些本体和零部件企业紧密合作,推动我们的机器人实现规模化推广,最终达成共赢的目标。
提问:我们注意到大晓机器人项目汇聚了包括陶院士在内的全球顶尖AI科学家。想请教一下,这样一支实力雄厚的团队,在具身智能赛道上的核心优势,将如何转化为产业落地的实际效能?”
王晓刚:我觉得首先在具身这个赛道里,目前技术还没有收敛,仍有很多创新点需要推进,所以这是一个需要持续创新的赛道。我和大程以及这些年轻教授正结合在一起形成合力,包括刚才提到的ACE新范式,从数据采集到具身基模型,要攻克的技术难点还有很多,单一团队很难完成整个链条,所以我们需要更好地结合。我们这个团队的基础是非常互信的,我和大程在硕士阶段跟着汤老师读书时就是室友,有很好的默契;其他几位老师也都是我们的学生,大家传承着汤老师坚持原创的理念,能在合作中形成默契。其实很多教授自己也想过创业,这些明星教授任何一位都可以去创业,但今天我们要团结起来,集中科研力量和创新能力去做更大的事,把规模做大。同时,这些先进技术要落到产业中,大晓聚集了一批产业界卓越的专家,他们有丰富的产业落地经验,负责搭建工程化软硬件平台,还会和硬件结合。这样就能把研究上的领先性、创新性与现实中的落地工程化能力结合起来,让项目持续领先,不断扩大规模。
提问:目前这个具身智能这个行业里边头部卡位,您觉得它已经完成了吗?新的创业公司他们的机会点会在哪?
王晓刚:我认为头部卡位还没有完成,这个领域其实还远未成熟,首先从技术路线来看,目前机器人行业原有的技术路线存在明显缺陷。比如特斯拉和Figure AI在过去两三个月内,都放弃了以真机为主的技术路线,转向以视觉为主的技术路线。但我刚才也提到,视觉为主的技术路线并非终极方案,所以我们提出了ACE研究范式。当研究范式和技术路线发生重大转变时,会给整个产业带来深远影响——类比自动驾驶领域,过去长期的研发积累在端到端自动驾驶这一新路线出现后,包括数据、研发体系在内的前期成果很快被颠覆。而在正确技术路线的指引下,产品体验和技术成熟度会快速提升,这是从研发范式角度的第一个观点。
第二点看场景落地,尽管机器人赛道如今十分火爆,但现实情况是,目前能够成规模量产的机器人场景,要么是提供情绪价值的表演性质产品,要么是作为科研平台存在,尚未出现能大幅提升生产力的规模化应用。各垂直领域的场景中,机器人还未广泛进入并实现量产,这意味着巨大的发展机会。只有当机器人规模化进入场景,通过软硬件协同迭代,整个产业格局才会发生显著变化。
第三点是产业链层面,机器人行业的产业链分工尚未完善,从零部件、传感器到计算芯片等环节,都存在很大的垂直整合空间。
正如大家提到的成本问题,当前机器人成本依然很高,而在质量、可靠性、一致性等方面,行业也还处于相对初期的阶段。因此,我认为整个机器人产业的格局远远没有确定下来。
提问:在零部件方面,我们投资了一些企业。大晓机器人的硬件方面,包括传感器、电机、减速器、控制器等,是与哪些企业合作?有没有技术亮点和创新可以分享?
王晓刚:我们背投的企业中,例如钛虎、鹿明等未来都会有合作关系,它们与硬件相关。在传感器的方面,我们应用了全景相机。现有的传感器视角较窄,在路口等场景中,机器人可能看不清全路,例如机器狗过马路看不到红绿灯。我们与影石Insta360合作,将全景相机的能力赋予到机器人上,这是一个关键的零部件亮点。机器人的产业链条比较长,我们在场景应用中会不断改进零部件,并与供应链上下游企业密切合作。
提问:我们现在一个单体的制造成本是怎么样的?
王晓刚:这个方案目前仍处于持续优化阶段。这次发布中,我们以这个机器狗,也就是四足机器人为例推出了一款“具身超级大脑模组A1”产品。该产品的本体部分目前采用的是现有的硬件方案,像宇树、智元、云深处等品牌的机器狗都能较好地适配我们现有的导航零组件,从而使其具备空间自主能力。不过未来,我们还需要与各硬件生态企业展开合作,共同推动相关成本的降低。
提问:目前是否有已签约的外部合作订单?
王晓刚:关于具身智能超级大脑模组A1,我们本月将要发布。实际上,我们过去走访了大量客户,发布会后也正积极与这些客户推进产品试点。从软件层面来看,例如世界模型、具身相关大模型以及数据领域,我们已经有了一些订单。但说到未来重点推出的软硬一体产品,我们期待明年能实现大规模落地。
提问:目前大晓在数据规模层面区别于传统模式?传统模式多以纯真实数据或纯仿真数据为主导,而我们则在数据领域开辟了一种全新的范式?
王晓刚:是的。这种方式与特斯拉和Figure AI最近采取的记录人类活动的数据采集方式比较接近。像Figure AI,目标场景是家庭场景。家庭场景会涉及不同的户型和房屋结构,所以他们和Brookfield等知名的资产管理公司合作。这些公司在全球拥有几百万套不同的公寓户型,他们可以进入各种不同户型采集数据。不过现在我们有了世界模型这个手段,就可以在虚拟世界里改变这些户型。比如这次发布会,我们也会和西南设计院合作,他们历史上积累了大量不同的房屋户型、布局和类型,这些数据能和我们现有机器人产生的数据相结合。这样一来,我们就能让机器人在合成的不同房屋布局、房型和户型中模拟活动。
三、未来1-2将进入技术收敛关键期
提问:您觉得在机器人的整个产业链条中,是整机企业能够成为产业链的链主,还是核心零部件企业在产业链中的话语权更大呢?
王晓刚:我认为目前输出的应该是整软硬一体协同产品,而且要以场景为导向。所以今天我们可以看到,咱们的机器人无论是软件还是硬件,和场景需求之间的差距其实都比较大。而且机器人和汽车、手机不同——汽车和手机的通用性非常强,但机器人和各个场景的关联度是非常密切的。这就是为什么我们觉得,在当下,只有从整机角度出发,以场景需求为出发点,才能把我们的公司乃至整个产业做大做强。
提问:目前真机数据与仿真数据存在争议的产业状况下,您更支持哪一种数据呢?
王晓刚:我们所说的“真机数据”,是指人操纵、摇控机器人所产生的数据,这是以前大家常用的数据采集方式,但它存在不少缺点。第一,采集效率非常低;第二,无法在真实的生产生活场景中采集数据,比如你没办法通过这种方式在工厂产线或家庭生活环境中获取这类数据;另外,它只能采集一些简单动作,可能持续十几秒,但像打扫房间这类持续几十分钟甚至更长时间的长程动作,或是机器人与人之间的交互动作,都无法靠真机完成。
而你提到的“合成数据”,是通过3D仿真器、仿真引擎合成的数据,这类数据与真实数据之间存在较大差距。所以说,这两种都是过去大家较多采用的数据采集方式,它们都无法解决当前具身智能领域的数据问题。
我们今天要做的,首先是——我们采集的数据是以人为中心的:人带上第一视角传感器,比如视觉或触觉传感器,同时结合周围其他第三视角的摄像头和传感器,观察人在真实生产生活中的行为,再通过视觉手段、多模态手段分析人的活动,而非关注机器的活动。
这样一来,采集效率会非常高,且能在真实场景中完成,还能记录人在长程、复杂环境下完成的动作。
另外,我们也会使用合成数据,但这种合成数据并非来自传统仿真器——它是通过世界模型完成的。世界模型的优势在于,可以快速、无限地放大现有的真实数据,并且能实现各种元素的编辑可控。比如,我可以把桌子换成不同颜色,把水杯换成不同型号,甚至更换机械臂也能实现。通过世界模型,我们能将有限的真实采集数据迅速放大。把这两种方式结合起来,就是我们要走的技术路线。
提问:具身智能的技术路线很多,您认为何时技术会出现收敛,然后收敛的关键因素是什么?
王晓刚:我认为今天我们提出的“以人为中心”的ACE范式,大方向是正确的。我们看到特斯拉、Figure AI等企业,其实也在朝着这个方向转变。所以我觉得接下来的一两年会是非常关键的时期。当然,尽管大方向明确,但仍有不少技术难题需要攻克,包括具体的实现细节,其收敛还需要一定时间。不过我想,我们今天已经找到了这个大方向,而要加速它的收敛,还需要充分结合场景验证——从客户的场景和需求出发,实现软硬件的协同优化。
提问:有说法说是2025年是机器人的量产之年,请您预测具身智能在工业,家庭等场景的一个规模化商用的时间表是什么样的?
王晓刚:我认为机器人要在工业和家庭场景实现大规模应用,目前还有相当长的距离。先看工业领域,如果我们讨论的是工厂产线这类场景,首先面临的是方案复制性问题,在某一条产线或某个场景中开发出的机器人方案,能否快速推广到其他工厂?这其实很难实现。另外,工业产线的数据安全性要求极高,各家产线都是核心机密,企业不愿让数据外流,所以产线数据的打通也面临巨大挑战。
再看家庭场景,我们期待机器人完成一些复杂任务,同时安全性是关键问题。家里有老人和孩子,不能让机器人伤到他们。就像自动驾驶领域有主动安全机制,L3、L4级自动驾驶若出事故,车厂和自动驾驶公司要承担责任;而机器人进入家庭后,如果碰到人,或是给老人、孩子端茶送水、递食物药物时出了安全问题,责任该如何界定?这些都是需要解决的问题。
不过,在一些其他场景,比如机器狗已经能在开放环境中稳定移动,我认为在各类TO B场景中是可以快速落地的。像闪购仓、前置仓这类物流配送场景,各个仓的环境相对类似,容易实现规模化应用。但目前也存在一些问题:一是机器人的数据采集并非在真实的生产生活环境中进行;二是机器人技术开发,无论是硬件还是其他方面,很多时候与实际场景脱节,更多是做Demo来展示机器人本体某方面的强大能力,和落地场景的实际需求存在差异,这是接下来需要重点解决的问题。目前的情况进工厂其实是可以的,但要实现规模化,也就是在工厂场景中取得很好的商业成功,这比较难,进家庭的话,可能距离更远一些。
提问:关于融资的问题,今年国内几家机器人企业的融资情况都非常好,而且整体速度也非常快。不过有观点认为,机器人赛道的融资速度已经超过了行业正常发展的速度。作为业内人士,您怎么看待这一热度现象?
王晓刚:我觉得这还是得看我们所处的赛道。毕竟机器人是一个几十万级的赛道,目前还处于相对发展的初期阶段。和过去的手机、汽车等领域相比,它的体量要大得多。所以我认为,当下大家在融资和投入方面的这些动作,未来还会持续,最终能给市场带来更大的回报。
另外,对比美国那些具身机器人公司,我觉得我们在融资和投入上还有进一步提升的空间。而且正如之前提到的,这个赛道还没到收敛阶段,仍在不断涌现新的机会点。我们和投资人交流时发现,他们原本以为相关领域已经被投得差不多了,发展方向也趋于收敛,但当我们把自己的思路、落地规划展示给他们时,他们还是看到了一些不一样的亮点和新方向。
热门跟贴