「破壳机器人」许华哲：两年内，中国将出现可用的家庭机器人|人工智能|家庭机器人|智能机器人|破壳机器人|视障人士|许华哲

文｜邱晓芬

编辑｜苏建勋

2026年，全球的具身智能机器人创业者不约而同将目光方向调转向深水区：家庭。

点燃这份热情的，是近期行业里闪烁着的一丝丝Scaling Law苗头——

先是硅谷具身智能公司Generalist AI在GEN-1模型上验证了确定性，当他们给机器人喂进海量数据后，精细操作任务成功率竟从64%提升到了惊人的99%；

随后，硅谷当红的具身智能独角兽公司Sunday Robotics也试图解决家庭场景数据难关，不仅推出Umi手套数据采集方案，还直接将机器人Memo送进家庭做家务（收拾餐做、冲咖啡、叠衣服），因此吸引了大量的资本押注。

在大洋彼岸的中国，近期闯入家庭机器人领域的创业者中，还有一个熟悉的身影——许华哲。

“两年内，中国将会出现可用的家庭机器人”，他对于行业的判断，同样乐观且激进。

作为“伯克利归国四子之一”、清华大学交叉信息研究院助理教授，2023年，许华哲曾加入「星海图」任前首席科学家兼联合创始人，一起将这家公司打造成中国具身智能领域的明星公司。

不过，在这家公司估值冲破200亿、融资近30亿的巅峰时刻，许华哲又选择“单飞”并创办了全新的具身智能公司「破壳机器人」。

此次重新出发，他想做的是能在家庭场景干活的、真正有泛化性的具身智能机器人。

△ 许华哲

其实，想做一个家庭机器人公司并不是近期偶然的想法。初高中时的他读完《乔布斯传》后，内心便萌生创办一家伟大To C公司的种子。此后，在清华、伯克利、斯坦福的一路升学中，他一直深耕机器人强化学习方向，梦想便是把机器人送入千万家庭。

他理想中的家庭机器人，虽然不是无所不能，却能完成上一代机器人（比如扫地机、洗地机）无法完成的复杂任务，比如能进行更精细的清洁工作、有条理的完成诸如洗衣收纳的长序列、多步骤任务串联。

在他看来，这种创业方向的选择，也带有强烈的审美洁癖。许华哲直言，泛化性的本质是一种“美与影响力”——用最简洁优雅的模型，解决人类复杂的生活问题，并真正将AI转化为生产力，而非仅仅替代低端劳动力。

从更理性的层面，切入To C家庭场景也包含着许华哲的商业判断。在他看来，当前大量机器人厂商将人形机器人送进工厂，完成传统机械臂就能完成的上下料、搬运箱的工作，本质上只是在用新的人性在做旧时代的事情，机器人没有发挥出真正的通用性。

他认为，真正的AGI应该在家庭场景中诞生、运用，因为家庭场景任务比工厂场景更混乱随机，且数据丰富，恰恰是训练通用模型的最佳土壤。

因此，为了追赶时机，在创业的短短一个月内，新公司「破壳机器人」已经完成了融资、核心团队组建、具身模型的训练、以及硬件迭代工作。

《智能涌现》独家获悉，破壳机器人近期完成数千万美元天使轮融资，由云启资本领投，并获得顺为资本、弘晖基金等一线美元基金，小米战投、星海图等知名产业方，以及BV百度风投、英诺天使基金、水木清华校友种子基金、东方嘉富等一线市场化基金的支持。

快速得到资本押注，也因为许华哲在关键技术路线上有一些不同的选择。

为了实现泛化，在关键技术路线方面，他的选择也略显反常识。他完全放弃了行业主流的VLA（视觉-语言-动作）基座模型方案，转而构建一种能直接输入和输出“视频-动作”的世界模型。

在模型结构上，他也提出了独特的“UAG架构”，用并联式预训练替代过去的瀑布式级联，并将强化学习贯穿预训练与部署全过程，实现了训练效率的五倍提升。

打好模型基础之余，在数据与硬件层面，他也通过UMI、外骨骼和第一人称视角三层方案采集高质量数据，形成从任务定义到数据、模型、本体的闭环迭代。

据许华哲透露，「破壳机器人」第一代32B参数规模的具身世界模型已完成首轮训练，正处于数据迭代的关键爬坡期。在硬件层面，「破壳机器人」为数据采集量身定制的手套硬件已迭代了五六个版本。

近期，《智能涌现》与许华哲聊了聊，以下是交流实录（略经摘编）

为何出走「星海图」？

《智能涌现》：为什么选择离开星海图，创立一家新的机器人公司？

许华哲：这个想法其实酝酿了很久。在2023年8、9月份，我就开始和高继扬聊，加入星海图。但经过了两年，到去年11、12月份，我已经基本决定要离开了，真正办完手续是在今年，创立「破壳机器人」是最近一个月的事情。

离开的原因主要是因为我内心一直想做一些To C的、真正泛化的通用机器人。

《智能涌现》：既然一直想做To C，为什么一开始不直接做To C方向机器人的创业呢？

许华哲：原因是多方面的。2023年我加入星海图时，也考虑过要不要自己创业，但那时我刚从美国读完书回来，在叉院工作才一年左右，要自己开公司lead一摊事，还要兼顾教职，挑战很大。

那时星海图和其他一些具身智能公司也邀请我加入，我觉得先加入一个优秀的团队做联创，是一个更稳妥的选择，而且当时星海图的宣传里也提到大概是“让机器人服务千万人类”的话语，这和我的一部分想法是吻合的。

《智能涌现》：您现在新公司虽然只成立一个月，都有哪些进展？

许华哲：团队方面，目前有20人左右，AI侧有一些天才少年，硬件侧有很多做过To C量产交付的工程师。我们还在火热招聘中。

在技术上，我们的AI模型在“动得快”、“泛化强”、“成功率高”三个维度都有较好的前期积累，能让机器人完成某些复杂任务时达到接近100%的成功率。

我们第一代32B的模型已经完成了第一次训练，但还需要数据量的迭代才能展现出更好能力。我们的硬件手套也已经迭代了五六个版本。

第一个月要处理公司注册、选址、装修等各种事务。能跑出这个速度，我觉得还是比较快的。

《智能涌现》：您这次创业，和第一次创业时心态有什么不同？

许华哲：最大的不同是心态上更踏实、也更敢了。第一次创业前，我会担心，我没上过班怎么给别人“班”上？我没做过生意怎么办，没跟投资人、政府打过交道怎么办？

在星海图的两年，我接触过这些事，“没打过就硬打，没上过就硬来”，其实最终结果也挺顺利的，太多的顾虑没必要，出来混最重要是先出来。这次心理上更从容。

《智能涌现》：在2023年和2026年两个节点创业做家庭机器人这件事，区别大吗？

许华哲：区别挺大的。首先是硬件本体，这三年中国的硬件供应链打磨得更好了，有了更多能用的机器人，2023年时可能只能用工业臂；

第二是数据，2023年时机器人的数据几乎是0，现在网上开源数据就有几十万小时，还出现了大量的数据供应商，虽然数据质量和跨本体适配还是问题，但丰富度已经不可同日而语。

第三是融资和市场认知，2023年要做To C机器人可能很难融资，大家给的时间缓冲也更少。今天起步比2023年更好。

AGI应用于家庭，工厂是上一代技术的领地

《智能涌现》：一直想做To C的机器人，背后的触发点是什么？

许华哲：首先，一个核心思考是，我们做机器人到底在做什么？机器人是人类自古以来的追求，我们在海底捞、酒店、工厂都见过机器人，但如果我们只是用人形的外壳去工厂拧螺丝、搬箱子，那本质上还是在做旧时代的事情。

这一代机器人最核心的不同在于它的通用性。通用性该用在越混乱、越需要通用能力的地方。那答案就是家庭，或者广义的服务场景。我认为，通用的AGI（通用人工智能）应该用在家里。

第二，从个人偏好来说，做有品牌的事情是可以做得足够大、有梦想的。伟大的公司很多是To C的，比如苹果、小米。

第三，从数据角度看，通用性需要有丰富的数据，混乱的家庭场景恰恰能提供丰富的数据。如果你的数据源头错了，就得不到正确的模型。

基于这三点，我觉得做To C机器人是一件正确的事，我自己也特别感兴趣。

《智能涌现》：您认为AI模型什么时候可以支撑做家庭To C机器人？

许华哲：我的预测比较乐观激进，我认为两年内会出现可以用起来的机器人。它不是万能的，但会是一个有完善产品定义、能做相当多通用事情的机器人，但它会有一些明确不做的事，比如抱婴儿、烧热水。

《智能涌现》：机器人进家庭能做的事情都包括哪些？能否举一些例子？

许华哲：分两类。一类是本身很难的任务，比如更精细的清洁，比如清洁墙角霉点、擦掉干涸的饭汤、剥橘子、剥虾等等。

另一类是长序列、多步骤任务的串联。举个例子，一个完整的洗衣流程是——把脏衣服放进洗衣机、倒洗衣液、启动，然后机器人可以去做别的事，它会在监听到“洗完了”的声音后，把衣服拿出来放进烘干机，启动烘干，最后再把衣服拿出来叠好放进衣柜。

现在的机器人能做任何一个单一步骤，但没有机器人能像人一样，从头到尾，带着这些“任务间的缝隙”把它完成，我认为两年后的机器人能有这个能力。

《智能涌现》：家庭和工厂场景，最大的区别是什么？

许华哲：家庭和工厂某种程度上都是“混乱”的，但是本质上不同。工厂的混乱更多是“管理混乱”，比如东西乱扔、人走来走去，但它具体干的活，比如上下料、装配是高度确定性的。

家里的混乱是任务本身的混乱，比如衣服是团成一团的，杯盘狼藉需要收拾，这种混乱是需要通过工作去恢复秩序的。工厂的很多混乱并不需要去恢复。所以，这是两种完全不同性质的“混乱”。

《智能涌现》：您认为当前做家庭To C机器人，最大挑战是什么？

许华哲：机器人进家庭的逻辑和落地To B不同。To B的账很难算，因为工厂给人形机器人干的活价值很低，一台二三十万的机器人可能相当于一个人三四年的工资，还要考虑可靠性、维护，很难回本。再加上工厂里采集的数据可能过于专化。

To C的账不是简单的“替代人力”计算。它更像科技潮品+家庭助手+管家的复合体。用户买它，是购买一种先锋的生活方式、极致的便利，就像二十年前大家买车一样。我们考虑的是，当用户有一笔预算时，是买辆车还是买个能改变生活的机器人。

所以，关键是产品体验要足够好，价值感知要足够强。价格区间我们内部还在讨论，但肯定会是五位数起步。

追求泛化，也是追求美和影响力

《智能涌现》：所以To C并不是您离开星海图后才有的想法，而是一贯的想法？

许华哲：是的。我从小就想做To C，想创业。初高中的时候读《乔布斯传》、《迪士尼传》，读完了就很想创业，做一个像谷歌一样的公司，后来选电子系也是想要做IT，大学还修了管理学双学位，就是为了创业做铺垫。

后面去了伯克利、斯坦福，也是一直在做强化学习和机器人，后来还做了一些触觉相关的研究，也是在机器人大类里。

我博士毕业时（2021年），主要就是找教职还有找投资人聊，看看有没有创业机会，当时普遍观感是，下一代技术还远，这一代技术就是做扫地机、餐馆机器人，但是和AI关系不大，没看到特别匹配我专业技能的创业机会。

《智能涌现》：你判断一件事情做与不做，或者谈论你对某件事是否感兴趣时，你的标准是什么？

许华哲：一个是美，这件事要能给我带来好的审美体验。另一个是影响力，我们学术圈有一个词叫impact追问。

美，更多是个人体验，我做这件事创造出来的东西是优雅、简洁的，就像简单的公式能描述复杂的现象，泛化性的本质也是美；影响力意味着，我做的这件事要能对世界产生足够大的影响，改变人们的生活方式。

现在我们被迫用巨大的参数量来描述世界，是因为我们还没找到AI领域的牛顿定律，我相信大模型只是一个中间状态。我的博士生涯是带着“AI一定存在一个优美理论”的心理开始的，但后来发现理论越来越解释不了AI，这是一个痛苦但必须接受的过程。

所以现在我的使命是追求简洁和影响力，如果有另一个公式（而不是AI模型）能描述机器人与世界的所有交互，我会觉得它更好。

《智能涌现》：这次创业你希望找到什么样的合作伙伴？你会更欣赏什么样的公司文化？

许华哲：我对合作伙伴和团队文化有三个核心要求——

极致：我很喜欢戴密斯·哈萨比斯那本传记里的描述，里面说，一个人做事要做到什么程度，就像跑马拉松撞线后，有个救护车把你拉走了，但是你最后没死。虽然有点夸张，但是我觉得做事极致投入，永远想更进一步，是很重要的。

坦诚：对自己、对同事、对事情绝对坦诚。不会因为不会而装会，搞砸了就承认，不要为了面子影响效率。

利他：公司里有很多“缝隙”，如果每个人都只盯着自己的KPI，这些缝就没人填。对于初创公司，需要每个人在有余力时主动填缝，这种利他性长期看对个人和团队成长都有益。

（作者注：戴密斯·哈萨比斯（Demis Hassabis）是英国著名人工智能科学家、Google DeepMind 联合创始人兼CEO、神经科学家，被誉为“AlphaGo之父”。）

我很欣赏段永平的“本分文化”，也欣赏前段时间一篇报道中提到的，Kimi“没有部门墙”的协作模式，我倾向于弹性、扁平的组织，很赞同黄仁勋、亚马逊那种鼓励一线员工直接向老板直接发邮件反馈问题的文化。

做全新物种的家庭机器人

《智能涌现》：很多To C的机器人是曲线救国，先从陪伴场景切入，但是感觉你们的您的产品路径和其他家很不一样。

许华哲：完全不一样。他们做的是陪伴，核心能力是大模型提供的对话能力和娱乐。我们追求的核心是物理世界的通用交互和干活能力。

我们的机器人是“家庭助理”，要能实际处理家务，所以在技术上，我们需要非常强的模型能力来保证通用性，但是很多家庭陪伴机器人是没做基础模型的。本质上，我们和他们是两个不同的品类。

《智能涌现》：你们最主要的技术的差异点是在模型侧吗？

许华哲：我们的一大亮点我们的模型能用好强化学习。过去机器人对强化学习的使用一般停留在单机的后训练上，但是其实强化学习上有很多自己独特的东西。

第一个就是价值函数（value function）。价值函数可以对数据质量进行评估，让模型知道哪些数据好、哪些次优、哪些失败。数据带着权重，去让模型学习。

它带来的好处有两个，一是可以让模型学得更精准，二是可以理解失败的边界，这样模型就能够知道紧邻着成功的失败长什么样，让强化学习去把这些失败因素排除掉；

第二是，强化学习能同时在多个任务上保持高成功率高速度，而不过度拟合到单一任务。

第三是，强化学习也可以突破人类数据上限。以前我们用人采集的数据去做某件事，数据是什么样的，机器人就能做到怎么样的，甚至会更差，因为机器人是跟着数据学习的。但是强化学习就是根据数据以及后续的自我改进，持续突破自己的上限，最终可能做出比人类示范数据更好的表现，上限更高。

《智能涌现》：你们的强化学习只用在后训练上吗？

许华哲：我们的预训练也会用离线的强化学习。预训练现在还是有一些卡点的，比如说模型的选择上有很多种，市面上有用VLA+VLM的，也有世界模型的，还有VLWAM，就是VLM后面再内嵌一个世界模型。

《智能涌现》：那你们还是用VLA的路线吗？

许华哲：现在模型的路线还远远没有收敛，我们的选择是世界模型结合原生的机器人模型，不是用VLA的路线。

《智能涌现》：现在的世界模型有很多派别，有的人用的是偏3D视频的方向，有的又是偏向于世界仿真，你们对世界模型的理解方式是什么？

许华哲：我们输入的是视频和动作，在训练和推理的时候，输出的也是视频和动作。这些视频和动作里面是遵循物理规律的真实世界的数据。

《智能涌现》：你们做这些事情的过程中，遇到的最大的挑战是什么？

许华哲：要训练大模型所需的Infra（基础设施）是一个挺大的卡点，因为我们想做一个32B的大模型，要支撑比较大的数据量，GPU集群的并行效率、数据吞吐都是一个很大的挑战和壁垒。

《智能涌现》：在模型侧你们提到了一项“UAG”架构，这个怎么理解？

许华哲：UAG（Unconditioned Action Guidance）是我们的一种模型训练架构。

相对于传统的瀑布式级联的模型训练方式，我们采用的是一种并联的方式，核心思想是先对动作进行预训练，然后再对所有的动作做整体联合的训练，做一个动作预测器，然后再将动作预测器和视觉模型一起进行联合训练。

背后的原理是，一个小时的图片、视频是巨大的，但是一个小时的动作很少，可能就是一系列关节的运动，也就是一堆小的浮点数。这种方式可以最大程度保留基础模型的泛化能力，同时大幅提升训练效率，估计至少5倍以上。

《智能涌现》：数据也是你们新公司的亮点，你们大概有哪些方案？

许华哲：我们的数据方案主要分三层——

①外骨骼数据采集：提着机器人手臂直接操作，精度高，反馈更直接；

②UMI方案：让人戴一个和机器人手部构型完全一样的“硬手套”进行操作，好处是没有机械臂的负担，采集效率高，数据量大。手套做硬是为了保持和机器人手的一致性，确保人能做的动作机器人都能做；

③第一人称视角人类数据：在头上戴一个摄像头，记录人日常干活的视频。这是从人的视角（Ego-centric）采集海量自然行为数据。

《智能涌现》：这些采集方式其他家也在探索，你们最大的不同点在哪？

许华哲：采集的数据，表层方法可能相似，但内核有本质不同。比如umi手套是否打磨得足够好，足够通用？采集的数据质量如何保证？以及如何清洗和处理这些数据，提升数据质量？

我们一个很大的不同是，我们会大量使用评估数据，就是机器人自己做测试和探索的时候，自己在动的数据。这样的数据某种意义上是更“差”的数据，因为里面会有失败、会有次优。但是这种“差”其实也是“好”，会让模型更知道任务的目标是什么。

另外，手套的设计细节，比如摄像头位置、佩戴舒适度、是否适应不同手型等等，都需要针对家庭任务精心打磨，我们手套的构型设计是面向家庭任务，追求通用性的。我们会在8月末左右给大家看到我们和现在所有的形态都不一样的数采系统。

《智能涌现》：但是现在出来创业会不会太晚了？现在具身智能行业的融资环境怎么样？

许华哲：市场热度还可以，投资人还是比较有热情的。和之前比，投资人更懂了，大家被市场教育过一轮，所以会问得更细。

关于创业出来是否太晚，我认为——在技术没有收敛的今天，仍然有巨大的机会。同时，因为我们更晚，所以我们的时间压力更小、负担更小，但是各种基础设施比如本体等也更加成熟了。另一方面，走向通用家庭机器人，其实才刚上半场。虽然后发，但是谁能先至，也未可知。

封面来源｜企业官方

end

「破壳机器人」许华哲：两年内，中国将出现可用的家庭机器人

热搜

热门跟贴

热搜

热门跟贴

相关推荐

索尼研发乒乓球机器人打败日本顶尖选手

对话许华哲：进家的机器人，先做好这10件事

当具身智能开始进厂，资本在押注什么？

前沿技术重塑物理世界：多国嘉宾在APEC数字周探寻具身智能“成都高地”

具身智能的「ChatGPT时刻」还没到，科沃斯先把机器人拆开了

接入AI agent的家庭机器人，离成为真正的「家人」还差什么？

人形机器人半马跑姿大赏 ，有的比人快多了！有的“状况百出”

万帧照片级仿真2

100多万人围观！没头没腿，神似充电宝的机器人全网走红？

搬货、烤面包、摆桌牌……每一个动作，都是从零开始的“第一课”

持续领跑世界模型驱动物理AGI，极佳视界再获10亿元B2轮融资

朗极智能面向构建智能机器人系统发力2

八个意识：数智时代的领导静力学新范式

在「想象」中练就真机能力1

36氪研究院 | 2026年中国智能硬件行业发展研究报告

动易科技PhyAgents无遥控 无预设双足人形自主对打羽毛球

亦庄机器人马拉松现场名场面合集

00后小哥复刻Claude最强神话模型OpenMythos

邱锡鹏：未来我们一定会进入泛情境智能时代

英伟达给 GPT 之父Ilya Sutskever花了50亿美元

人形机器人半马跑姿大赏，有的比人快多了！有的“状况百出”

动易科技PhyAgents无遥控无预设双足人形自主对打羽毛球