文|邱晓芬
编辑|苏建勋
CES 2026上,一家中国机器人公司的展台外挤满了人。大家围观的,不是CES上司空见惯的人形机器人或四足狗,而是一台双轮足、身躯四四方方、带有显示屏的机器人——只有15公斤重,40厘米高。
它在草皮上时不时抱着皮球行进,稳稳穿越不同状态的地面。看到有观众拍摄它时, 它会停下来与人互动,左右轻轻摇晃,并在屏幕上切换不同表情。仔细看,它上方还加装了全景相机,实时记录下被围观的画面。
这台机器Rovar X3人出自「深庭纪」,主打户外陪伴。
目前,这台机器人尚未正式发售,但「深庭纪」的创始人王弢告诉《智能涌现》,未来的价格会低于5000美金,“可能会击穿很多美国人对机器人品类的价格预期”。
△Rovar X3能踢球还能当摄影支架
这种全新的机器人构型,背后的设计者同样大胆——「深庭纪」的创始人王弢,享受一切不确定性。
这种偏好,体现在他过去每一项关键的职业生涯抉择中。2015年,在斯坦福攻读深度学习和视觉感知博士的他,和导师吴恩达联合创办了专攻L4的自动驾驶公司Drive AI。
在自动驾驶沉浮的岁月里,这一公司最终迎来一个不错的归宿——2019年,这家200人的硅谷明星公司被苹果“招聘式收购”,吸纳进苹果的造车项目“泰坦”。
但王弢没有像其他人一般加入苹果。“不是苹果不好,是我能看到十年后我在哪个位置,对于这种未来,我很抗拒”,王弢直言。
最后,他选择加入了小鹏。在时任自动驾驶副总裁吴新宙麾下,王弢用三年时间,从0到1搭建了小鹏汽车的视觉感知团队。
不管是2015年进入自动驾驶领域,还是2024年离开小鹏投身机器人创业,王弢喜欢在赛道尚未收敛的时候,趟出一条路——不确定性的背后,恰恰藏着“十倍增长”的红利。
△王弢,图源:受访者提供
享受不确定性的背后,王弢性格的另一面是,务实,关注落地。
在行业大讲人形机器人干活的故事时,王弢选择先从户外切入,并向家庭场景蜿蜒进发。他将他们的户外陪伴机器人Rovar X3,称为最有机会进入家庭的物理AI MVP(最小可行性产品)。
在硅谷生活了16年的王弢告诉我们,这种产品思路,源于他对身边人的观察。
在硅谷,当全世界最聪明的一群人聚集在一起时,最大的困扰是无聊,在当地有“湾区三俗”的说法——这群人在周末基本只做三件事:带孩子户外徒步、去野外摘樱桃、看房子。
寻求户外搭子,是这群硅谷人士的真实需求——在此前,大家的选择只有两个,宠物狗,或者售价高达7.5万美元的波士顿动力四足狗。
为此,王弢为Rovar X3设计了三大主要用途:
首先,它能充当“户外搭子”。其视觉系统通过识别主人的生物特征(人脸、步态、身形),紧紧跟随主人。在相对复杂的户外路面下不仅能灵活避障,还能 驮重物,整个过程不需要经过遥控;
其次,它还可以在帮忙照看小孩,和小孩躲猫猫、帮忙捡球、和人类踢球等等;另外,你还可以把手机和全景相机支在上面,让Rovar X3充当拍摄支架。
△2026年CES上,Rovar X3和观众打招呼
在机器人领域创业,王弢坦言,比曾经的自动驾驶领域,多了一份“造物”的兴奋感——现在的机器人,已不是冷冰冰的自动化设备,而是有自主性、有生命感的“物理AI”。
只是,现下“造物”的方向,五花八门。陪伴型机器人的产品形态明显尚未收敛。而王弢对于这个品类的很多判断,也和市面上的大多数人不一样。
在Rovar X3的设计逻辑中,相较于“机器人会不会聊天”,他更强调“有没有一起做过事”。让机器人参与到真实世界的行动中,与人协同完成任务,长久地陪伴才会发生。
这种启发,源于「深庭纪」公司的第九号员工——一只小狗。他观察到,在午休时间,员工们会自发把小狗带到草坪上,扔球、奔跑。现实世界里的互动,让人和小狗建立了深刻的情感链接。
△Rovar X3能捡球
建立链接后,更进一步的思考是:如何让机器人智能体持续变强?
大多数人的选择是,将机器人送进工厂,或者锁定在某一个细分的场景里,让模型进化。
王弢反而认为,这种做法虽然能带来交付,并不利于机器人智能体的提升——以工厂场景为例,特点是高度标准化,容错率低。
这意味着,能帮助模型进化的不确定性因素、信息也随之消失。而参考GPT,却是在复杂多样数据的加持下,才出现涌现时刻。
特斯拉是一个经典案例。马斯克一开始并不是直接去矿山或者封闭园区落地,特斯拉的MVP是直接在高速上跑L2辅助领航。“当时看起来并不是很fancy,但是它最早的使用场景,和最终FSD的场景,都是公共道路。数据的DOMAIN(范围)是比较接近的”。
在王弢看来,户外陪伴场景,正是一个天然更贴近家庭的选项,且两者数据诉求也基本一致。因此,在初步取得用户的信任之后,王弢还希望机器人进一步逐渐走入庭院、家庭,收集用户更多多样化的数据。
而这些数据,也将成为其训练操作模型的专有数据,加深机器人对于世界的理解,逐渐形成“数据飞轮”。
近期,「深庭纪」完成了亿元天使轮融资,由蓝驰创投领投,粒子未来基金跟投。《智能涌现》与王弢聊了聊,关于他鲜少披露的过往、以及他对打造具身智能MVP的理解。
以下是交流实录(略经摘编)
职业选择中,寻找“十倍增长”
《智能涌现》:之前你跟着吴恩达一起创办Drive.ai,这个项目被苹果收购后,你没有加入泰坦那个项目里,反而是加入小鹏。当时做出这种选择的人,多吗?
王弢:我是2009年在斯坦福大学读硕士,做深度学习和视觉感知,后来跟着吴恩达读博士。当时自动驾驶一下子火起来。吴恩达和他的太太、我们几个师兄弟联创一起创办了Drive AI ,做L4 无人驾驶。
我是联创,也是工程与研发总监,负责PNC模块,就是规划与控制模块、系统集成。Drive AI 是2019年被苹果收购。被收购之后没加入苹果的人,说实话不是很多,我当时的选择确实看起来有一点非主流。
《智能涌现》:不加入苹果,你当时怎么判断的?
王弢:第一点,对我来说,真正有吸引力的不是进入一家已经被证明的公司,而是去做一件还没有标准答案的事。苹果代表的是完成度,而我当时更在意的是创造的过程。
第二点,我当时对L4自动驾驶的判断是,这是一个非常长周期,可能很多年都看不到产品的赛道,作为一家创业公司,比较明智的选择还是要去抱一个口袋很深的“金主爸爸”。
在技术上面,L4需要全局地优化,感知、预测、规划、后台数据闭环、算力平台都是强耦合的。
但是苹果作为一家非常典型也很成功的公司,它的组织方块、组织模式是非常模块化的。我当时看到苹果的每个团队成员是把自己输入、输出的接口定义得很清楚,尽量减少耦合,这个很明显是一个硬件公司的做法。
所以我当时的判断是,在苹果做L4,会可能变成一个很难落地的科研项目。但我自己的风格是,希望把东西做出来,落到实地。
《智能涌现》:所以落地这件事情,对于你来说非常重要。
王弢:是的。
△Rovar X3有不同的表情
《智能涌现》:你刚刚说不希望进入一家已经被市场证明过的公司,为什么后面选择加入小鹏?
王弢:我是吴新宙招进去的。在小鹏的前三年我是从0到1搭建视觉感知团队,负责模型训练、数据采集标注、模型部署、工程化等。其实在小鹏相当于是一次创业的经历。
2023年初,我判断自动驾驶的感知和AI 已经比较收敛了,格局也已经定了。我自己的职业规划经历都是寻找10倍增长,我当时的判断就是,自动驾驶其实已经不是下一个十倍增长了。
《智能涌现》:后来是发生了什么,让你觉得创业的时机真正成熟了?
王弢:2023年,我在鹏行带AI团队。一线的实践当中,我们看到很多这个领域长期存在,但是被低估的很多问题。
比如说,真实世界数据的采集成本、标注成本很高,哪怕到今天还是存在;sim to real有巨大的鸿沟;硬件平台为了追求极致运动性能,存在过度设计的问题。我们当时内部也在非常频繁讨论,走路应该用轮式底盘还是双足?
这些问题会导致系统复杂度指数级上升,拖慢智能化的迭代速度。我就慢慢开始萌生了一个想法:如果我去解决这件问题,我有充足的资源,我会怎么去解决?
这种思考慢慢的指向了一个判断:真正要推动具身智能向前,需要一些全新的产品路径。
创业是一场持续的思考,不是一瞬间的灵感。我推演了一段时间,从鹏行出来是2024年1月,我4月份才成立新公司。我觉得具身肯定是下一个10年、10倍增长的机会。但如果要重新定义一代机器人,机器人应该是有自主性、有生命感、以AI为先的,而不是一个冷冰冰的自动化设备。我当时有一种造物的冲动、兴奋感,
《智能涌现》:推演的三个月,你在做什么?户外这个方向是怎么思考出来的
王弢:机器人我把它分成四个大的板块——移动、操作、智能、导航。
我觉得移动、操作、导航这三块很多可以复用自动驾驶能力。智能这一块,我当时判断它处于比较早的阶段,我当时思考的是,如何让智能体要持续地变强?
我们最终还是希望借鉴特斯拉或者小鹏数据飞轮的方法论。过去的经验是,谁能够把数据飞轮跑起来,谁就能够在具身智能趋势里面成为赢家。
进厂,对智能体训练不是好事
《智能涌现》:关于智能体要怎么去变强,你是怎么推演的?
王弢:第一,需要找到一个MVP,一个真正能够走入终局的场景。拿特斯拉来举例,它一开始并不是去矿山或者封闭园区,它的 MVP 是在车上去跑 L2 辅助领航。
当时这个技术并不是很fancy,只是在高速上做自适应巡航和车道保持。但是它的实际使用的场景,跟最终FSD需要使用的场景,都是公共道路,数据的DOMAIN(范围)是比较接近的。
我的判断就是,如果机器人最终要达到像马斯克说的几亿台甚至十几亿台,那一定是要走入家庭的。
虽然我们不是一开始就走入到家庭,我一定要尽可能贴近家庭,获取家庭用户的信任、获取家庭用户的数据。 第二,我认为机器人使用的场景一定是diverse(多样)的,不是限定几个垂域,不能在垂域里面去采数据。
《智能涌现》:但很多具身智能公司都在疯狂找垂域场景,比如工厂,但是你的MVP是落在家庭和户外。你们怎么看待这种分野?
王弢:我觉得在商业化上,Tob是不错的一个选择。Tob最大的优势是需求很清晰,只要把场景限定好,机器人是有机会做到稳定执行和交付的。
Tob的场景里面,最重要的目标是不出错,为了达成这个目标,产线也会把环境标准化。
这意味着有很多不确定的行为或者因素会在场景里面消失。我觉得这对于智能体的训练来并不是一件好事。GPT是在所有的领域都有数据的情况下才能涌现,不是只在少量的几个垂域训模型。
《智能涌现》:你是怎么发现户外场景有陪伴的需求?
王弢:大家都调侃湾区是高科技大农村,全球最聪明的人聚集一起,但高性价比的放松娱乐活动非常少。工程师、码农们周末最常见的活动就是徒步、摘樱桃还有看房子,我们叫“湾区三俗”。
我自己也是徒步大军中的一员。但走多了你会发现,风景很美、也很无聊。这时候我都在想,如果能有一台自主移动的陪伴机器人随行,它既能承担5公斤的负重,帮忙背包,在露营空地也能陪孩子做游戏,是非常有价值的。
这不是一个完全脱离生活的幻想,而是湾区人们的真实需求,特别是在科技行业的有孩人群。
《智能涌现》:那你们的机器人是怎么从户外场景,一步步进入家庭场景?
王弢:我们虽然是先切入户外的场景,但未来我们一定会走入家庭。
家庭室内的门槛非常高,任何一次失误都会摧毁消费者的互信。户外是一个切入点,它的付费意愿高,试错成本是比较低的。在户外哪怕是土坡上面摔了一下,其实只要自己能站起来,问题就不是很大。
其次,在户外的场景,我们可以复用很多在自动驾驶领域已经相对成熟的方法论。在户外自主移动,是在更加开放的环境中实现自动驾驶系统。在低速场景下和人的交互,又和新能源车舱内的智能座舱智能有一定的相似性。
我和很多土生土长的美国人去聊,美国的主流文化对于最先进的科技,持有一种既好奇又谨慎的态度。比如你看终结者系列,他们对于人形机器人有比较大的疑虑。
我们第一步用Rovar这种双轮足形态,个子也不高,不会像人一样跟你长篇大论的,有比较可爱的表情,更容易切入到家庭中。其次,它的主要使用场景是在户外,用户对它的疑虑也会更小一些,通过这样的一代产品,能够获得用户的信任,未来可以走到室内。
《智能涌现》:那后面的第二步、第三步,具体怎么走?
王弢:关于第二步、第三步,我们现在有很多的选择。一个是在户外做得更加重度、更硬核,我们会做一个客单价更高的产品。
第二就是从户外慢慢走入庭院,再走入家庭内部。我会鼓励用户利用机器人采集到更多的数据,比如用户在后院清理杂草、清理树叶、丢垃圾的数据。
这些数据我都可以鼓励用户去上传,最后变成我们训练操作模型的专有数据。这是用户真正从场景中得到的,和数据采集工厂里的数据不同。
《智能涌现》:这些数据去反哺到模型之后,能让机器人产生什么新的玩法?
王弢:从最简单的说起,比如说用户指某一个方向说,“你帮我把那个罐子拿过来”时,机器人需要先有对于世界的理解。我们希望未来机器人能够理解用户的指令,自己去执行命令。这是可以通过模型学习的。
《智能涌现》:你们未来这两个方向都会去兼顾?
王弢:我觉得在够长的时间维度里,这些都是可以做的选项。具身智能是一个10年的赛道,很多时候需要通过市场反馈来决定下一个发力点。大疆刚刚一开始在做无人机的时候,他也没有想到会变成飞行相机。
陪伴机器人,不应该只聊天
《智能涌现》:你们刚创业的时候是四足,但现在变成了轮足。为什么有这种改变?
王弢:我觉得现在物理AI最优的构型,远远都没有收敛。虽然大家都做人形机器人,但如果仔细去看,构型都是不一样的。
从四足到双轮足的演进,是因为我们产品定义逐渐清晰,才做了一次系统收敛。双轮足的电机数量首先比四足要少一半,系统复杂度的出错概率会低很多。双轮足的运动方式是靠轮毂、电机,运动的能效比足式要高很多。
《智能涌现》:陪伴,最重要的是什么?很多厂商更侧重语言上的陪伴,但你们好像不是这么想。
王弢:人其实也可以跟我们的机器人说话,通过手势或者语音。不过,我们不希望Rovar变成GPT聊天的工具。它可以输出一些简单的词汇来表达自己的情绪,但是他不会长篇大论。
我觉得陪伴,最重要的是和用户形成情感上的连接。这个连接来自于,在某一个场景中和用户一起去完成一些事情,这是最长效、最牢固的。 关于陪伴粘性的思考,启发自我们公司的9号员工,也是一条小狗。我们养了一个宠物,体验一下小狗跟人之间是怎么样建立连接。
我们发现中午午休的时候,我们的员工非常乐意带着小狗去草地上面去玩球,把球丢出去,小狗会把球叼回来。
现实世界里非常简单的事情,但是大家都乐此不疲。我觉得陪伴产品,应该去做一些力所能及的物理连接。
《智能涌现》:你曾说你们的受众可以归纳为“硅谷老男孩”,这群人有什么共性?
王弢:“硅谷老男孩”是一个统称,更加细化的话,其实是几个类别:
一个是企业主和公司高管,他们时间稀缺,愿意为高质量的产品体验付费;
第二个是创意工作者,比如抖音短视频制作者、好莱坞的人,他们对于新形态的产品、审美有很高的敏感度;
第三个就是医生、律师这类高收入专业人士,他们的共性是,不会问机器人是什么,更关心机器人能不能融入生活。他们中一部分人还是保留着探索的乐趣,有对少年感的向往。
我们做过一些审美取向的调研。“硅谷老男孩”们并不喜欢过度的科幻机甲风,产品必须好看,但又克制不浮夸。
《智能涌现》:你们的产品,具体有什么玩法?
王弢:我们有三个最大的使用场景。
一个是户外的陪伴,你在山上走,它像一个小宠物一样在走在前面,有简单的交互,让我感觉到不那么孤独,也可以帮忙背个水、背个相机。
从心理学的角度去分析,人在户外,特别是美国这种地广人稀的地方,心理上需要去寻找安全港湾。这也是为什么很多人会带着宠物狗出去徒步。
第二个场景是小孩陪护,比如躲猫、追逐、嬉戏。现在很多陪伴类的产品侧重对话式陪伴,但是据我的观察,粘性相对比较低。
为什么大家对于把球踢进门里这样一件简单的事情,会有成瘾,我自己踢球那么多年从来没有腻。我觉得这也是物理世界一部分的魅力。
第三个功能是可以加装各种配件,手机或者是全景相机。Rovar有大量想象空间,用户会找到千奇百怪的玩法,我们希望早期有一个发散的过程。
《智能涌现》:如果从技术的层面去拆解,背后都包含了哪些核心技术,有什么比较难的地方?
王弢:这背后的技术挑战是,如何让机器人做好社交导航,比如在步道上面能够进行避障,美国很多步道都不是铺装路面,而是泥土路或者沙石路。
其次,机器人在户外要能够持续识别到主人,不会被干扰,这首先考验我们的视觉能力。我们用了一个纯视觉的解决方案,没有去使用激光雷达,机器人通过深度特征去感知人类,比如人脸的特征、步态、身形。
在户外场景里,续航、重量、地形通过性其实是一个不可能三角,考验着我们做取舍和平衡的能力。
《智能涌现》:你们提出的端侧“慢脑 + 快脑”AI架构,但是市面上大家用的是“大脑+小脑”。两者有什么差异?
王弢:“大脑+小脑”架构中,大脑负责思考、小脑负责运动控制。但我认为这种划分方式并不十分全面。
现实情况下,有许多思考过程需要极快的处理速度,大脑的运行速度相对较慢,仅依赖大脑无法完成某些任务。同理,一些运动控制类操作,也并非单纯由小脑就能实现。
所以,我们所提出端侧的“慢脑+快脑”架构——“慢脑”负责把事情想清楚,而“快脑”则负责快速反应。
具体而言,“慢脑”处理那些无需毫秒级或亚秒级反应,但需要深入理解的事务。例如,自动识别当前所处环境是公园、家庭庭院、室内还是公共道路;识别用户及其偏好,如记住小孩和家长的长相。
“快脑”则进行实时响应。比如,当听到用户喊“你快回来”时,立刻停止当前任务并原路返回;当与机器人进行踢球时,在每次与球触碰后,机器人迅速判断下一步与球的接触方式。
快脑与慢脑,二者并行运行、产生交互数据。慢脑会提前向快脑传达大致的任务信息,快脑则在此基础上,负责向控制规划模块传达如何执行当前任务。
《智能涌现》:陪伴机器人这个赛道有同质化的趋势,你觉得这个领域核心的竞争力是什么?
王弢:陪伴这个赛道,产品形态是没有收敛的。我觉得最核心的能力是持续的用户洞察,和领先竞品一代的技术认知。这两个可能听起来稍微抽象,但是要做创新品类,这两点是最重要的。
《智能涌现》:要保持和竞品有一代的差距,行动上要怎么体现?
王弢:我觉得公司除了找PMF(产品和市场匹配度)之外,还需要找到PTF(团队和产品的匹配度)。我们团队在美国生活了很多年,在文化、场景的理解上,天生是有一些优势的,能够站在用户角度去思考产品的功能。
我更多的是从算法研发的角度,在现有的算法中,寻找高潜力的、还没有被使用到产品上的新技术,做出人无我有的体验。
比如说踢球,市面上没有任何一个机器人可以在草地上,像一条小狗一样跟你玩球。
《智能涌现》:这两年陪伴型的机器人密集爆发,背后有什么因素推动?
王弢:更多的就是物理 AI 概念的带动。之前大家说 AI 更多的是GPT,能够跟你对话、帮你解题,停留在虚拟世界当中。但是这一波首先是自动驾驶的AI能力有溢出,自动驾驶是一个物理AI非常初级的形态。
第二是硬件成本持续下降到有望走入家庭了。以前说到北美机器狗,大家想到的都是Boston Dynamics(波士顿动力),售价7.5万美元。
但是我们的产品能做到5000美金以下,会击穿很多美国人对机器人品类的价格预期。
《智能涌现》:陪伴机器人可能在什么时候达成你预期的“十倍增长”?
王弢:在我们的规划当中,26年、27年是我们探索MVP 的阶段,在鸿沟的左侧,去找早期的种子用户,持续寻找killer APP。
未来确切的时间点,我可能没办法很好去判断。你看马斯克在2012年说,还有两年就能实现全自动驾驶,最后证明他的时间判断基本上都是错的。
我自己的方法论就是,不会刻意从时间上面去做判断,但是我会关注实际技术的进展。
如果某一天具身智能的操作领域,大家都用同一个Benchmark(标准),那我判断“Alex moment”到来的时间,可能不会大于两年了。用自动驾驶来比喻的话,现在是在自动驾驶2012、2013年的阶段。
《智能涌现》:你觉得陪伴型机器人的PMF已经找到了吗?
王弢:我觉得初步是找到了,但是如果真的要形成爆款,我觉得可能还需要一定时间的用户洞察。我们在美国其实做了很多用户调研,初步找到一波种子用户。
但是种子用户和大众用户之间的鸿沟怎么跨过去,如何寻找到更精准的PMF,对于新品类来说是比较挑战的。
但是一旦这个鸿沟跨过去,作为新品类的定义者,也能收获到巨大的红利。
封面来源|受访者提供
end
end
热门跟贴