文|邱晓芬
编辑|苏建勋
2026年,全球的具身智能机器人创业者不约而同将目光方向调转向深水区:家庭。
点燃这份热情的,是近期行业里闪烁着的一丝丝Scaling Law苗头——
先是硅谷具身智能公司Generalist AI在GEN-1模型上验证了确定性,当他们给机器人喂进海量数据后,精细操作任务成功率竟从64%提升到了惊人的99%;
随后,硅谷当红的具身智能独角兽公司Sunday Robotics也试图解决家庭场景数据难关,不仅推出Umi手套数据采集方案,还直接将机器人Memo送进家庭做家务(收拾餐做、冲咖啡、叠衣服),因此吸引了大量的资本押注。
在大洋彼岸的中国,近期闯入家庭机器人领域的创业者中,还有一个熟悉的身影——许华哲。
“两年内,中国将会出现可用的家庭机器人”,他对于行业的判断,同样乐观且激进。
作为“伯克利归国四子之一”、清华大学交叉信息研究院助理教授,2023年,许华哲曾加入「星海图」任前首席科学家兼联合创始人,一起将这家公司打造成中国具身智能领域的明星公司。
不过,在这家公司估值冲破200亿、融资近30亿的巅峰时刻,许华哲又选择“单飞”并创办了全新的具身智能公司「破壳机器人」。
此次重新出发,他想做的是能在家庭场景干活的、真正有泛化性的具身智能机器人。
△ 许华哲
其实,想做一个家庭机器人公司并不是近期偶然的想法。初高中时的他读完《乔布斯传》后,内心便萌生创办一家伟大To C公司的种子。此后,在清华、伯克利、斯坦福的一路升学中,他一直深耕机器人强化学习方向,梦想便是把机器人送入千万家庭。
他理想中的家庭机器人,虽然不是无所不能,却能完成上一代机器人(比如扫地机、洗地机)无法完成的复杂任务,比如能进行更精细的清洁工作、有条理的完成诸如洗衣收纳的长序列、多步骤任务串联。
在他看来,这种创业方向的选择,也带有强烈的审美洁癖。许华哲直言,泛化性的本质是一种“美与影响力”——用最简洁优雅的模型,解决人类复杂的生活问题,并真正将AI转化为生产力,而非仅仅替代低端劳动力。
从更理性的层面,切入To C家庭场景也包含着许华哲的商业判断。在他看来,当前大量机器人厂商将人形机器人送进工厂,完成传统机械臂就能完成的上下料、搬运箱的工作,本质上只是在用新的人性在做旧时代的事情,机器人没有发挥出真正的通用性。
他认为,真正的AGI应该在家庭场景中诞生、运用,因为家庭场景任务比工厂场景更混乱随机,且数据丰富,恰恰是训练通用模型的最佳土壤。
因此,为了追赶时机,在创业的短短一个月内,新公司「破壳机器人」已经完成了融资、核心团队组建、具身模型的训练、以及硬件迭代工作。
《智能涌现》独家获悉,破壳机器人近期完成数千万美元天使轮融资,由云启资本领投,并获得顺为资本、弘晖基金等一线美元基金,小米战投、星海图等知名产业方,以及BV百度风投、英诺天使基金、水木清华校友种子基金、东方嘉富等一线市场化基金的支持。
快速得到资本押注,也因为许华哲在关键技术路线上有一些不同的选择。
为了实现泛化,在关键技术路线方面,他的选择也略显反常识。他完全放弃了行业主流的VLA(视觉-语言-动作)基座模型方案,转而构建一种能直接输入和输出“视频-动作”的世界模型。
在模型结构上,他也提出了独特的“UAG架构”,用并联式预训练替代过去的瀑布式级联,并将强化学习贯穿预训练与部署全过程,实现了训练效率的五倍提升。
打好模型基础之余,在数据与硬件层面,他也通过UMI、外骨骼和第一人称视角三层方案采集高质量数据,形成从任务定义到数据、模型、本体的闭环迭代。
据许华哲透露,「破壳机器人」第一代32B参数规模的具身世界模型已完成首轮训练,正处于数据迭代的关键爬坡期。在硬件层面,「破壳机器人」为数据采集量身定制的手套硬件已迭代了五六个版本。
近期,《智能涌现》与许华哲聊了聊,以下是交流实录(略经摘编)
为何出走「星海图」?
《智能涌现》:为什么选择离开星海图,创立一家新的机器人公司?
许华哲:这个想法其实酝酿了很久。在2023年8、9月份,我就开始和高继扬聊,加入星海图。但经过了两年,到去年11、12月份,我已经基本决定要离开了,真正办完手续是在今年,创立「破壳机器人」是最近一个月的事情。
离开的原因主要是因为我内心一直想做一些To C的、真正泛化的通用机器人。
《智能涌现》:既然一直想做To C,为什么一开始不直接做To C方向机器人的创业呢?
许华哲:原因是多方面的。2023年我加入星海图时,也考虑过要不要自己创业,但那时我刚从美国读完书回来,在叉院工作才一年左右,要自己开公司lead一摊事,还要兼顾教职,挑战很大。
那时星海图和其他一些具身智能公司也邀请我加入,我觉得先加入一个优秀的团队做联创,是一个更稳妥的选择,而且当时星海图的宣传里也提到大概是“让机器人服务千万人类”的话语,这和我的一部分想法是吻合的。
《智能涌现》:您现在新公司虽然只成立一个月,都有哪些进展?
许华哲:团队方面,目前有20人左右,AI侧有一些天才少年,硬件侧有很多做过To C量产交付的工程师。我们还在火热招聘中。
在技术上,我们的AI模型在“动得快”、“泛化强”、“成功率高”三个维度都有较好的前期积累,能让机器人完成某些复杂任务时达到接近100%的成功率。
我们第一代32B的模型已经完成了第一次训练,但还需要数据量的迭代才能展现出更好能力。我们的硬件手套也已经迭代了五六个版本。
第一个月要处理公司注册、选址、装修等各种事务。能跑出这个速度,我觉得还是比较快的。
《智能涌现》:您这次创业,和第一次创业时心态有什么不同?
许华哲:最大的不同是心态上更踏实、也更敢了。第一次创业前,我会担心,我没上过班怎么给别人“班”上?我没做过生意怎么办,没跟投资人、政府打过交道怎么办?
在星海图的两年,我接触过这些事,“没打过就硬打,没上过就硬来”,其实最终结果也挺顺利的,太多的顾虑没必要,出来混最重要是先出来。这次心理上更从容。
《智能涌现》:在2023年和2026年两个节点创业做家庭机器人这件事,区别大吗?
许华哲:区别挺大的。首先是硬件本体,这三年中国的硬件供应链打磨得更好了,有了更多能用的机器人,2023年时可能只能用工业臂;
第二是数据,2023年时机器人的数据几乎是0,现在网上开源数据就有几十万小时,还出现了大量的数据供应商,虽然数据质量和跨本体适配还是问题,但丰富度已经不可同日而语。
第三是融资和市场认知,2023年要做To C机器人可能很难融资,大家给的时间缓冲也更少。今天起步比2023年更好。
AGI应用于家庭,工厂是上一代技术的领地
《智能涌现》:一直想做To C的机器人,背后的触发点是什么?
许华哲:首先,一个核心思考是,我们做机器人到底在做什么?机器人是人类自古以来的追求,我们在海底捞、酒店、工厂都见过机器人,但如果我们只是用人形的外壳去工厂拧螺丝、搬箱子,那本质上还是在做旧时代的事情。
这一代机器人最核心的不同在于它的通用性。通用性该用在越混乱、越需要通用能力的地方。那答案就是家庭,或者广义的服务场景。我认为,通用的AGI(通用人工智能)应该用在家里。
第二,从个人偏好来说,做有品牌的事情是可以做得足够大、有梦想的。伟大的公司很多是To C的,比如苹果、小米。
第三,从数据角度看,通用性需要有丰富的数据,混乱的家庭场景恰恰能提供丰富的数据。如果你的数据源头错了,就得不到正确的模型。
基于这三点,我觉得做To C机器人是一件正确的事,我自己也特别感兴趣。
《智能涌现》:您认为AI模型什么时候可以支撑做家庭To C机器人?
许华哲:我的预测比较乐观激进,我认为两年内会出现可以用起来的机器人。它不是万能的,但会是一个有完善产品定义、能做相当多通用事情的机器人,但它会有一些明确不做的事,比如抱婴儿、烧热水。
《智能涌现》:机器人进家庭能做的事情都包括哪些?能否举一些例子?
许华哲:分两类。一类是本身很难的任务,比如更精细的清洁,比如清洁墙角霉点、擦掉干涸的饭汤、剥橘子、剥虾等等。
另一类是长序列、多步骤任务的串联。举个例子,一个完整的洗衣流程是——把脏衣服放进洗衣机、倒洗衣液、启动,然后机器人可以去做别的事,它会在监听到“洗完了”的声音后,把衣服拿出来放进烘干机,启动烘干,最后再把衣服拿出来叠好放进衣柜。
现在的机器人能做任何一个单一步骤,但没有机器人能像人一样,从头到尾,带着这些“任务间的缝隙”把它完成,我认为两年后的机器人能有这个能力。
《智能涌现》:家庭和工厂场景,最大的区别是什么?
许华哲:家庭和工厂某种程度上都是“混乱”的,但是本质上不同。工厂的混乱更多是“管理混乱”,比如东西乱扔、人走来走去,但它具体干的活,比如上下料、装配是高度确定性的。
家里的混乱是任务本身的混乱,比如衣服是团成一团的,杯盘狼藉需要收拾,这种混乱是需要通过工作去恢复秩序的。工厂的很多混乱并不需要去恢复。所以,这是两种完全不同性质的“混乱”。
《智能涌现》:您认为当前做家庭To C机器人,最大挑战是什么?
许华哲:机器人进家庭的逻辑和落地To B不同。To B的账很难算,因为工厂给人形机器人干的活价值很低,一台二三十万的机器人可能相当于一个人三四年的工资,还要考虑可靠性、维护,很难回本。再加上工厂里采集的数据可能过于专化。
To C的账不是简单的“替代人力”计算。它更像科技潮品+家庭助手+管家的复合体。用户买它,是购买一种先锋的生活方式、极致的便利,就像二十年前大家买车一样。我们考虑的是,当用户有一笔预算时,是买辆车还是买个能改变生活的机器人。
所以,关键是产品体验要足够好,价值感知要足够强。价格区间我们内部还在讨论,但肯定会是五位数起步。
追求泛化,也是追求美和影响力
《智能涌现》:所以To C并不是您离开星海图后才有的想法,而是一贯的想法?
许华哲:是的。我从小就想做To C,想创业。初高中的时候读《乔布斯传》、《迪士尼传》,读完了就很想创业,做一个像谷歌一样的公司,后来选电子系也是想要做IT,大学还修了管理学双学位,就是为了创业做铺垫。
后面去了伯克利、斯坦福,也是一直在做强化学习和机器人,后来还做了一些触觉相关的研究,也是在机器人大类里。
我博士毕业时(2021年),主要就是找教职还有找投资人聊,看看有没有创业机会,当时普遍观感是,下一代技术还远,这一代技术就是做扫地机、餐馆机器人,但是和AI关系不大,没看到特别匹配我专业技能的创业机会。
《智能涌现》:你判断一件事情做与不做,或者谈论你对某件事是否感兴趣时,你的标准是什么?
许华哲:一个是美,这件事要能给我带来好的审美体验。另一个是影响力,我们学术圈有一个词叫impact追问。
美,更多是个人体验,我做这件事创造出来的东西是优雅、简洁的,就像简单的公式能描述复杂的现象,泛化性的本质也是美;影响力意味着,我做的这件事要能对世界产生足够大的影响,改变人们的生活方式。
现在我们被迫用巨大的参数量来描述世界,是因为我们还没找到AI领域的牛顿定律,我相信大模型只是一个中间状态。我的博士生涯是带着“AI一定存在一个优美理论”的心理开始的,但后来发现理论越来越解释不了AI,这是一个痛苦但必须接受的过程。
所以现在我的使命是追求简洁和影响力,如果有另一个公式(而不是AI模型)能描述机器人与世界的所有交互,我会觉得它更好。
《智能涌现》:这次创业你希望找到什么样的合作伙伴?你会更欣赏什么样的公司文化?
许华哲:我对合作伙伴和团队文化有三个核心要求——
极致:我很喜欢戴密斯·哈萨比斯那本传记里的描述,里面说,一个人做事要做到什么程度,就像跑马拉松撞线后,有个救护车把你拉走了,但是你最后没死。虽然有点夸张,但是我觉得做事极致投入,永远想更进一步,是很重要的。
坦诚:对自己、对同事、对事情绝对坦诚。不会因为不会而装会,搞砸了就承认,不要为了面子影响效率。
利他:公司里有很多“缝隙”,如果每个人都只盯着自己的KPI,这些缝就没人填。对于初创公司,需要每个人在有余力时主动填缝,这种利他性长期看对个人和团队成长都有益。
(作者注:戴密斯·哈萨比斯(Demis Hassabis)是英国著名人工智能科学家、Google DeepMind 联合创始人兼CEO、神经科学家,被誉为“AlphaGo之父”。)
我很欣赏段永平的“本分文化”,也欣赏前段时间一篇报道中提到的,Kimi“没有部门墙”的协作模式,我倾向于弹性、扁平的组织,很赞同黄仁勋、亚马逊那种鼓励一线员工直接向老板直接发邮件反馈问题的文化。
做全新物种的家庭机器人
《智能涌现》:很多To C的机器人是曲线救国,先从陪伴场景切入,但是感觉你们的您的产品路径和其他家很不一样。
许华哲:完全不一样。他们做的是陪伴,核心能力是大模型提供的对话能力和娱乐。我们追求的核心是物理世界的通用交互和干活能力。
我们的机器人是“家庭助理”,要能实际处理家务,所以在技术上,我们需要非常强的模型能力来保证通用性,但是很多家庭陪伴机器人是没做基础模型的。本质上,我们和他们是两个不同的品类。
《智能涌现》:你们最主要的技术的差异点是在模型侧吗?
许华哲:我们的一大亮点我们的模型能用好强化学习。过去机器人对强化学习的使用一般停留在单机的后训练上,但是其实强化学习上有很多自己独特的东西。
第一个就是价值函数(value function)。价值函数可以对数据质量进行评估,让模型知道哪些数据好、哪些次优、哪些失败。数据带着权重,去让模型学习。
它带来的好处有两个,一是可以让模型学得更精准,二是可以理解失败的边界,这样模型就能够知道紧邻着成功的失败长什么样,让强化学习去把这些失败因素排除掉;
第二是,强化学习能同时在多个任务上保持高成功率高速度,而不过度拟合到单一任务。
第三是,强化学习也可以突破人类数据上限。以前我们用人采集的数据去做某件事,数据是什么样的,机器人就能做到怎么样的,甚至会更差,因为机器人是跟着数据学习的。但是强化学习就是根据数据以及后续的自我改进,持续突破自己的上限,最终可能做出比人类示范数据更好的表现,上限更高。
《智能涌现》:你们的强化学习只用在后训练上吗?
许华哲:我们的预训练也会用离线的强化学习。预训练现在还是有一些卡点的,比如说模型的选择上有很多种,市面上有用VLA+VLM的,也有世界模型的,还有VLWAM,就是VLM后面再内嵌一个世界模型。
《智能涌现》:那你们还是用VLA的路线吗?
许华哲:现在模型的路线还远远没有收敛,我们的选择是世界模型结合原生的机器人模型,不是用VLA的路线。
《智能涌现》:现在的世界模型有很多派别,有的人用的是偏3D视频的方向,有的又是偏向于世界仿真,你们对世界模型的理解方式是什么?
许华哲:我们输入的是视频和动作,在训练和推理的时候,输出的也是视频和动作。这些视频和动作里面是遵循物理规律的真实世界的数据。
《智能涌现》:你们做这些事情的过程中,遇到的最大的挑战是什么?
许华哲:要训练大模型所需的Infra(基础设施)是一个挺大的卡点,因为我们想做一个32B的大模型,要支撑比较大的数据量,GPU集群的并行效率、数据吞吐都是一个很大的挑战和壁垒。
《智能涌现》:在模型侧你们提到了一项“UAG”架构,这个怎么理解?
许华哲:UAG(Unconditioned Action Guidance)是我们的一种模型训练架构。
相对于传统的瀑布式级联的模型训练方式,我们采用的是一种并联的方式,核心思想是先对动作进行预训练,然后再对所有的动作做整体联合的训练,做一个动作预测器,然后再将动作预测器和视觉模型一起进行联合训练。
背后的原理是,一个小时的图片、视频是巨大的,但是一个小时的动作很少,可能就是一系列关节的运动,也就是一堆小的浮点数。这种方式可以最大程度保留基础模型的泛化能力,同时大幅提升训练效率,估计至少5倍以上。
《智能涌现》:数据也是你们新公司的亮点,你们大概有哪些方案?
许华哲:我们的数据方案主要分三层——
①外骨骼数据采集:提着机器人手臂直接操作,精度高,反馈更直接;
②UMI方案:让人戴一个和机器人手部构型完全一样的“硬手套”进行操作,好处是没有机械臂的负担,采集效率高,数据量大。手套做硬是为了保持和机器人手的一致性,确保人能做的动作机器人都能做;
③第一人称视角人类数据:在头上戴一个摄像头,记录人日常干活的视频。这是从人的视角(Ego-centric)采集海量自然行为数据。
《智能涌现》:这些采集方式其他家也在探索,你们最大的不同点在哪?
许华哲:采集的数据,表层方法可能相似,但内核有本质不同。比如umi手套是否打磨得足够好,足够通用?采集的数据质量如何保证?以及如何清洗和处理这些数据,提升数据质量?
我们一个很大的不同是,我们会大量使用评估数据,就是机器人自己做测试和探索的时候,自己在动的数据。这样的数据某种意义上是更“差”的数据,因为里面会有失败、会有次优。但是这种“差”其实也是“好”,会让模型更知道任务的目标是什么。
另外,手套的设计细节,比如摄像头位置、佩戴舒适度、是否适应不同手型等等,都需要针对家庭任务精心打磨,我们手套的构型设计是面向家庭任务,追求通用性的。我们会在8月末左右给大家看到我们和现在所有的形态都不一样的数采系统。
《智能涌现》:但是现在出来创业会不会太晚了?现在具身智能行业的融资环境怎么样?
许华哲:市场热度还可以,投资人还是比较有热情的。和之前比,投资人更懂了,大家被市场教育过一轮,所以会问得更细。
关于创业出来是否太晚,我认为——在技术没有收敛的今天,仍然有巨大的机会。同时,因为我们更晚,所以我们的时间压力更小、负担更小,但是各种基础设施比如本体等也更加成熟了。另一方面,走向通用家庭机器人,其实才刚上半场。虽然后发,但是谁能先至,也未可知。
封面来源|企业官方
end
热门跟贴