最大的竞争对手永远还是我们自己。
北京大兴,除夕夜,晚十一点的宇树机器人训练场。
程序员们飞速装载着各种机器人器械的包裹,这些机器人要在当晚运回杭州宇树总部。
王兴兴的桌子在靠墙的最里侧,桌上堆满了消炎药。23:30分,他被记者们簇拥开始群访。
训练场里飘荡起泡面的味道——程序员们开始了今天的晚餐。
这一天,宇树刚刚完成了马年春晚的表演节目《武BOT》。这是他们第三次登上中国春晚舞台,从牛年的机器牛,到 2025 蛇年的机器人扭秧歌,再到2026——25 台宇树机器人组成一个集群,和中国最顶尖的武术学校,塔沟武校的人类小演员们,一起完成了一场震撼的表演。
这场表演被外媒称为,展现了人形机器人运控的巅峰——不仅展现了全球最强的运控能力,也超越了宇树自己。
自 2025 年蛇年春晚爆红以后,宇树站在行业之巅,承受了不小的压力。
这次访谈,我们不仅聊到了春晚舞台背后的技术进步,还有宇树和王兴兴本人,这一年的成长和思考。
(️原版访谈的视频版可前往微博、B 站、视频号等平台观看;播客版可前往小宇宙等平台搜索同名账号《卫诗婕_漫谈Light the Star》)
漫谈Light the Star
PART ONE
三登春晚:
彩排和现场,用的是两套机器人
「过去一年,如果没有技术进步,
宇树也会是一家非常平庸的公司」
卫诗婕:这是第三次登上春晚,和前两次感觉有什么不同?
王兴兴:每次都是非常大的挑战。尤其去年效果比较好的基础上,这一次我们肯定要拿出更好的作品,心里压力非常大。我们一直知道最大的对手是我们自己。
卫诗婕:我看到一个特别的桥段设计,这次的节目融入了人、 AI 、机器人的关系。(情节上)先是一个小演员想要挑战机器人,机器人做了一个非常俏皮的动作,好像不太在意人。紧接着机器人开始打醉拳,倒在了地上。翻身起来的时候,周围的人对他竖起大拇指,最后人机牵手一起走向大家。感觉在讲述一个技术跟人的关系演进过程。
王兴兴:对,这也是导演组特别设计的。因为导演组也相信,机器人最终是为人服务的,人机互相学习、成长非常重要。这也是未来机器人真正走进生活,必将面临的一个问题。另外还有一层:其实当下十岁左右的小朋友,跟人形机器人其实是共同成长和长大的。可能对我们这一代来说,机器人目前还不够智能。但可能对 10 岁左右的小朋友来说,人形机器人的时代已经来临了。
卫诗婕:节目似乎还有一个隐喻,现在机器人发展的技术阶段,是不是跟一个 10 岁甚至更小的孩子(很接近)?
王兴兴:对。目前大家可以看到每年都有持续的技术进步,但离真正大规模的应用,去家里、工厂里干活,确实还需要一些时间。快的话可能 3 到 5 年,慢的话应该绝对不会超过 10 年。等现在 10 岁的孩子成年,可能整个机器人的技术已经有翻天覆地的变化。
卫诗婕:去年你们登上热搜的其中一个话题是:宇树机器人不穿裤子。今年 G1 还是没穿,但是两米高的 H1 (宇树全尺寸机器人)最后登场,穿上了非常威武的服装,这个是特别设计的吗?
王兴兴:对,这个是根据节目效果以及导演组共同决定,服装这块我们参与的比较少。
卫诗婕:我以为穿裤子它(机器人)就不方便运动了。
王兴兴:(穿了)也可以运动的。但毕竟是机器人,还是看整个呈现效果。有时候穿了不太好看,有时候穿了会比较好看。
卫诗婕:我的一些投资人朋友不约而同地盛赞宇树,觉得宇树定义了技术的高度。你自己觉得,宇树现在的运控水平,跟全球、海外比,是什么样的状态?
王兴兴:最近一年我们一直处于头部水平,很多方面基本上是最好的。总体层面上我们取得了很好的成绩,包括运动的灵活性、稳定性。
举个最直接的例子。大家可能想象不到,台上二十几台机器人,基本每次上春晚彩排的时候都没有提前测试过,因为节目现场没有那么多场地给我们做测试。在大兴有,但不可能每次把机器人从大兴运到舞台现场。所以我们在春晚的现场和大兴测试现场各放了几十台机器人,基本可以保证在我们大兴测试好的机器人算法,在舞台表演时候只要做个升级就可以,保证了算法的稳定性。
主要是算法的稳定性,对不同机型的适应性更强。我们去年出货了 5, 500 台机器人,写一套算法基本上要给 5 千甚至 1 万台机器人来用,所以对算法的稳定性的要求其实非常高,我们目前的算法稳定性比全球别的厂家会好一些。
卫诗婕:行业里的反馈是,宇树机器人可以做到开箱即用,极强的稳定性和兼容性,这种稳定性背后是什么?
王兴兴:这个其实更多还是时间,把硬件做得更可靠、更通用,这样算法稳定性更好。我们的目标是哪怕硬件都已经换了,算法跑进去都要保持机器的稳定。这两部分都非常重要。
卫诗婕:专家说做运控的护城河某种程度上就是时间。做的时间越久,碰到的 bug 越多,解 bug 就越多,就越有经验,是这样吗?
王兴兴:这是其中一部分吧。最重要的还是保持技术本身的持续进步。像我们去年初的时候,算法适应性是比较差的,这台机器人算法跑得效果不错,稍微换一台别的机器人可能效果就变得非常非常差,这说明软件的适应能力不太够。但是到了去年的中下旬,我们算法的稳定性就高了很多——各种奇奇怪怪的机器人,装上我们的算法后,稳定性都高了很多,这样才有机会实现大规集群机器人表演这件事情。
2026 年,最重要的还是要保持持续的技术进步。你不进步不行的,大家可以关注到,现在开源算法非常非常多——举个例子,为什么去年中下旬以后,中国很多公司的机器人都可以跳舞、打功夫了?原因非常非常简单——有人把 AI 算法开源了。
所以说整个行业会持续的进步,我们如果想做到比整个行业平均水平更高的水平。花的工作量和时间其实比大家想象的多很多。
卫诗婕:我知道的是 2024 年初,上海想搞一个机器人列队方阵,但当时据说只有两家公司的机器人能走得明白,其中一家是你们。后来仅仅半年过去,大家都能跑能跳了,背后就是 AI 本身的进步。
王兴兴:对,而且很多人愿意共享(AI 模型)。所以说,如果好几个月不进步,那就变成一家平庸的公司。如果过去一年,我们公司没有产品和技术上的进步,宇树现在就是一家非常平庸、甚至落后的公司了。
漫谈Light the Star
PART TWO
高处不胜寒?谈宇树的压力:
「我们的对手永远还是我们自己」
卫诗婕: coding agent (编程智能体)现在可以极大加速算法的迭代,我理解这件事情既可以帮助你们放大优势,但同时也有可能让宇树更快地被别人赶超。
王兴兴:那是不可避免的一件事情。因为在新的技术浪潮面前,唯一不变的就是你要保持进步,保持迭代。能不能保持第一不好说,这还有点运气成分在里面,但你至少要保持尽可能头部水平,如果你一旦懈怠了,这个社会是非常现实的,可能几个月、半年,你就处于落后水平。
卫诗婕:这也是我想问你的。2025 蛇年春晚之后,宇树带动了全行业爆火,行业涌入非常多的新玩家。中国人有句话叫「高处不胜寒」。当第一名的滋味如何?
王兴兴:其实压力肯定还是非常非常大的,因为各种资源和资金进来,对整个行业肯定是是好事。但对于我们来说,压力确实还比较大。但我过去这么多年总结下来,我们的对手永远还是我们自己。
我们自己只要保持产品和技术迭代,基本上别人是追不上的;但是我们自己松懈了,那可能就不好说了。所以这次春晚,包括未来几个月,包括今年。我们还在构想我们新的产品,构想新的技术,我们要努力把它做出来,做好了,我们就可以持续保持领先。
卫诗婕:以我有限的了解,机器人行业过去是按照两分法的:做本体的被称为 locomotion control (运动控制),宇树是代表;做大脑的是 manipulation (精细操作)。过去一年,我们可以看到做大脑的公司估值非常的高,而且行业好像更看好做大脑,你有什么想说的吗?
王兴兴:宇树其实本体和大脑都在做,但因为我们本体确实卖的比较多,大家可能喜欢把宇树当作一家本体公司。这也很正常吧。像苹果,自己做操作系统、做软件,也卖手机。但是在大家的印象中,苹果就是个做硬件的公司。
虽然我们一直强调本体很重要,但我一直也承认,最重要的是具身智能大模型。但在当下,具身智能 AI 的不确定因素还非常多。做大脑风险也比较高,因为没人能保证谁做的最好或谁做的最快, AI 领域变化非常非常快。
但是做硬件的公司,反而可能变化不会太大。今天是这家公司做得好,过几年会发现基本上也还是这家公司。所以,我们要持续地把自己的技术、硬件和软件都做的更好一些,产品也更加有竞争力。
卫诗婕:所以宇树要守好自己的硬件?
王兴兴:硬件肯定是基本盘,但是我们一直还是希望把软件做得更好。
卫诗婕:以前是 loco-motion 的做 loco-motion ;做 manipulation 的就做 manipulation 。现在好像有一个新的趋势叫「 loco-manipulation (全身协同控制)」,你有留意到吗?
王兴兴:这个倒不太注意。因为我们其实一直在做硬件、软件和具身模型。而且宇树已经开源了好几个模型,比如说基于视频生成的具身模型( UnifoLM-WMA-0 ),这个在全球是做得非常早了, 2024 年我们就做了一个版本。包括大家用的 VLA(Vision-Language-Action) 模型, VLA + RL (强化学习) 模型,也在推动。
在具身模型这块我们一直比较开放,会探索各种新的方向——发现哪个效果比较不错就多花点时间去做;发现第三方公司做的不错,也会开放地合作一下。像国内的几家大的具身模型公司大厂、互联网大厂,我们也都有推动合作。我觉得具身模型目前是全世界共同的门槛和天花板,只要一家做出来,对整个行业都是巨大的推动作用,大家都应该感谢他。
卫诗婕:所以宇树希望能做那个帮助大家、推动整个行业发展的人。
王兴兴:过去几年我觉得最大的成就感就是宇树推动了行业的进步,这比卖了多少台机器人,或公司有多少估值更令人有成就感和高兴。
卫诗婕:你刚刚提到苹果,苹果作为行业的领先者,它选择的是闭源。但你宇树会开源一些模型,而且你们致力于开源。
王兴兴:我们自己觉得比较重要的部分可能不开源,但有些东西值得开源。
卫诗婕:这次(春晚表演)有了那么大的飞跃,算法、算力、数据,这三方面都有突破吗?背后的原因是什么?
王兴兴:肯定有。比如说(数据方面),大家看到我们机器人可以做更多动作,(是因为)我们采集了各种人的动作喂给模型,这样(机器人)对各种动作的适应能力就更强了。对具身智能模型(来说),最根本的还是要把模型和数据做的更好,这两部分相辅相成。不是有足够的数据就一定会性能更好。跟语言模型一样,运动模型的数据清洗也很重要。采集一些比较优秀的、有代表性的动作数据,效果会比较好。像这次《武 BOT 》,我们罗列了全球所有的武术动作。
卫诗婕:我是否可以这么理解,过去一年 AI 技术在飞速发展,带动了具身智能底层技术的发展。
王兴兴:肯定的,我觉得全世界目前最大的驱动引擎就是 AI。它驱动了各行各业的发展,机器人行业肯定是离 AI 最近的一个行业,当然它本身也有些独有的技术在里面,但很多技术跟 AI 行业完全是共生的关系。
卫诗婕:水平面(提升)是大家都得到了的优势。但宇树今天从效果上来看,提升幅度更大,这当中的代差是什么?
王兴兴:我们确实做了不少工作。可能看上去机器人都在打功夫(别人也能打),但真正要让几十台机器人快速变队形、保持队形稳定,这都是全世界唯一一次。我们这次表演是先有个队形、打功夫、再快速跑位变队形——而且动作的剧烈程度都比较高。细节层面上是提升比较多,有些技术是目前别的厂家都做不了,有些技术是大家都能做,但我们比他们做的更好。
卫诗婕:变换队形这件事情,靠的是一种 AI 融合算法?
王兴兴:对,为了快速变队形,我们单独开发了一个算法。
卫诗婕:外行人看,会觉得不就是跑了个队形吗?实际上难点是在于定位会飘吗?
王兴兴:是的,跑队形的时候轨迹都是任意的。某种意义上,要实现在任意情况下都能跑到一个位置去的效果,有很大的泛化性要求。
另外一个挑战就是定位的稳定性问题。因为我们使用了激光雷达,跟一般的汽车激光雷达定位不太一样的是,机器人在空翻的时候(定位可能会丢),各种剧烈情况下,定位都不能丢,或者丢了以后要快速找回来,剧烈动作的时候都要保持稳定。
这次我们硬件上还遇到一个非常大的挑战是雷达坏得非常多。做空翻等剧烈动作的时候,直接能把雷达震坏。因为这种激光雷达并不是为剧烈动作设计的,一定高度落下来以后,腿部的铝合金都直接断掉。
卫诗婕:机器人 G1 跳起来能到几米?
王兴兴:目前借助弹射器大概可以(到)三点几米高。这个高度对硬件的要求很高。我们后面加了很多减震结构,让激光雷达减少损坏。但激光雷达的寿命在机器人剧烈动作上依然非常低,所以会出现今天这台激光雷达好,明天这台机器人到舞台上表演的时候突然坏了的情况。所以要靠算法去修正。
卫诗婕:所以你们上春晚很幸福,因为在舞台上总能遇到很多实验室里想象不到或没碰到过的事情。
王兴兴:对,这也是对我们的一个大考,我一直觉得这(春晚)是一个很好的机会,让我们有时间去集中攻破更尖端的技术。这些技术可能是很重要的,但是我们以前可能没有时间去关注这类事情。
卫诗婕:问一个人文的问题,我曾经主持过机器人的发布会,发现机器人背后其实是无数个程序员。刚才我也看到你们团队都在那收拾东西、吃泡面了。你跟你团队那些程序员们,每一次上完春晚之后是怎么沟通的?
王兴兴:(笑)大家都是搞技术的,比较简单。没太多感性的部分。
卫诗婕:但你能感受到,每一次在春晚上大获成功之后,大家精神气会不一样吗?
王兴兴:我觉得这是个荣耀,属于所有参与的人的荣耀。
卫诗婕:你能创业十年,一定是真的热爱机器人,也一定会找同好。
王兴兴:还是希望大家目标是明确的,而且觉得为了这件事情是值得拼搏的,并不只是做一个工作而已。我希望大家是喜欢技术,喜欢机器人,愿意为这个事业奋斗一生的,这样大家做任何事情都非常有成就感和开心。
漫谈Light the Star
PART THREE
谈技术突破:跑位、空翻、爆发力
「集群式的机器人功夫表演,
现场远比电视上震撼」
卫诗婕:这次《武BOT》的训练过程有多久?
王兴兴:大部分时间是花在细节微调上,为这个节目我们准备了几十天时间。
卫诗婕:整个过程中有没有最快乐的一刹那?
王兴兴:中间有几次的技术突破,是非常高兴的。不然呈现效果会比现在差挺多。
卫诗婕:哪几次技术突破最开心?
王兴兴:第一次就是可以有任意跑位,跑得很快。因为去年我们表演机器人扭秧歌,只能慢吞吞的走到下一个位置。非常的不好看,也不实用。今年我们攻坚了这个技术。
另外就是借助弹射器实现更高的空翻。我们一开始做出来的时候,可能只比平地的空翻高了零点几米,没感觉,完全没感觉(笑)。后来有一次真的能飞到天花板那么高的时候,如果你站在旁边看,特别震撼。另外也给观众分享一下,这种集群式的功夫集成表演,现场看的震撼程度远超电视,因为动作剧烈的时候,整个地面会震,气场非常强大。
卫诗婕:我们以后可以去哪里看到这样的表演?
王兴兴:因为这种大型表演确实比较花时间(笑),别的地方确实还是比较难看到,但是以后会有的。
卫诗婕:我今天都已经开始期待机器人舞台剧了。
王兴兴:这个肯定未来会有的。
卫诗婕:武术动作讲求爆发力。实现爆发力这件事情,对于机器人的硬件和算法有什么要求?
王兴兴:在大规模的爆发的时候,甚至会把腿杆、铝合金或钢全给搞坏了,因为力量实在太大了。尤其高空落地的时候,对整个电机甚至电池都有要求。
这里分享个点,高处落地的时候。电机会吸收能力反充电池。简单来说,机器人里面的电流突然变得非常大。把电池给损坏。有点像一个人突然血压高到非常多,导致休克了。我们在软件和硬件上做了改进,把这种能量给吸收或释放掉一些。
卫诗婕:所以之前如果机器人「犯高血压」就直接倒了,不能用了?
王兴兴:对,可能大家想不到,功夫动作特别剧烈的时候,对电池,对整个供电系统的要求非常高,可能突然间电池供电不够,又或者电流太大把电池给充坏了。
卫诗婕:你刚才讲的(部分)其实对电机、电池都有很大的考验。据我所知,宇树是自研电机的,这件事情应该也会利好你们自己的技术?反过来说,如果不是自研电机的玩家,他可能也很难做到?
王兴兴:对,这个没办法,因为我们确实在电机程序上面直接改。
卫诗婕:这算是一个护城河吗?
王兴兴:算是吧。
漫谈Light the Star
PART FOUR
谈灵巧手、硬件与强化学习:
「残障人士也能出色地干活,
机器人的硬件是够用的」
卫诗婕:武术的动作都是非常大开大合的,其实这对于关节的自由度要求也是极大的,是吗?
王兴兴:对,我们这次上的就是顶配版本,腰部有三个自由度,每条手臂有七个自由度,是有手腕的,灵活性比较高。甚至我们其中有几台还装了灵巧手,为了更好的抓棍子。
卫诗婕:对,我发现这次(表演)一共抓了四样东西——棍子、双节棍、葫芦和剑。体现了灵巧手的能力。所以灵巧手现在能够做到自由抓取吗?我记得你之前说过一句话, “目前机器人的硬件是完全够用的,我们缺的是模型。”
王兴兴:一般性的抓取还是可以的,但是不能抓太细的。根本性的问题还是 AI 模型。灵巧手目前其实某种意义上也够用,但不够好。我一直的观念就是只要 AI 模型够好,用一堆非常差的硬件照样可以干活。举个最简单例子,有些残疾人是没有手的,照样干活干的非常好,甚至可以雕塑。
卫诗婕:所以你觉得现在产业供应链的生态里,需求最强的环节是哪些?
王兴兴:这个就很难评价了。最重要的肯定是 AI 模型,硬件肯定要做的更好、更可靠,成本更低,更规模化。这肯定也有挑战,哪怕硬件没有根本上的技术问题,但要量产几万台、几十万台甚至几百万台的机器人出来,工程量还是非常吓人的。
卫诗婕:我看你们好像给强化学习重新做了一个框架,是吗?
王兴兴:对,因为这次的动作数量非常多。我们设计的训练动作可能超过 100 种。 100 种动作要快速训练做筛选,并把这些动作拼接,对整个训练要求更高一些。因为过去的很多训练算法,只能单独训练一个动作,或者没办法拼接。效率是非常低的。
卫诗婕:你们没有特别的强化学习的方法吗?
王兴兴:我们有自己的模型结构。
卫诗婕:我留意到一个小细节,(《武 BOT 》里)有人和机器人一起舞棍子的动作,那个棍子好像是有一点弹性,软软的,是不是为了人跟机器人能够更好的协作?
王兴兴:被你发现了。因为是要保护小朋友的。不然(万一)棍子可能打到小朋友。棍子还是尽可能软一些。
漫谈Light the Star
PART FIVE
多模态训练消耗算力太大,
纯机器人公司可能训不动模型
卫诗婕:从去年到今年,机器人进化这么快,底层最关键的要素有哪些?
王兴兴:软件和硬件都挺重要的。硬件的可靠性的提升,不然剧烈动作做一个机器人就废了。另外软件的运动能力得提升,剧烈运动包括硬件的兼容能力要强,都是细节问题。
卫诗婕:软件的挑战能够攻克,背后除了你们在细节和时间上面的积累之外,还有没有底层技术,比如 AI 技术的飞跃?
王兴兴:肯定的,我们模型结构优化都挺多的。模型结构怎么搭建,怎么优化细节,这个工作量也挺大。
卫诗婕: 2026 年刚刚过去两个月,Agent,尤其是 Coding Agent 的讨论度非常大。
王兴兴:Coding Agent 现在在机器人的训练非常有用,我编程大部分代码全是让 AI 写的。这个行业都会有加速的。
卫诗婕: 2 月份热议的话题是 Seedance 2.0 的发布,我采访了一些专家朋友,他们认为 Seedance 2.0 可以做到生成一些符合物理规律的视频。所以有一个问题想听听你的看法,这种符合物理规律的视频生成,能够帮助具身的训练吗?
王兴兴:肯定的,我们 2024 年开源了一个基于视频生成的具身智能模型 UnifoLM-WMA-0,想法也比较简单,既然我都可以生成一个机器人干活的视频了,那当然可以用这个模型去控制一个机器人。只要把视频生成的机器人逻辑映射到一台实物机器人上,就可以干活了。我觉得这个想法是非常自然以及第一性原理的,所以一直非常重视这个方向。我们后续也会做。
卫诗婕:但有人质疑 Seedance 2.0 只是生成了看上去符合物理规律、实际上跟真实世界的精度差很多的(视频),用来训练肯定效果很差。
王兴兴:但我觉得只要做到足够精细,甚至有可能突破(瓶颈)。因为如果抓一个东西的时候,(王兴兴用手抓起了矿泉水瓶)生成的视频连物体的弹性都能仿真出来,说明它本身接触仿真已经不错了。
某种意义上,我觉得如果按这个路线做,数据机器人数据足够多,用数据硬把具身智能模型给砸出来的概率还是挺大的。只是说当下没人有机会、有大规模机器人实物数据去用。
目前我们自己也在做视频生成的具身模型,最大挑战是视频生成的模型、动作,跟实物机器人没法很好匹配。两部分的数据本身无法对齐。可能视频生成的时候已经抓到这个物体了,但实物机器人就差点。我觉得用海量数据没准就可以把这个差距直接对齐掉。
卫诗婕:海量数据从哪里来呢?
王兴兴:目前只能(用)真实采集或仿真了。我们公司在想的办法是,能不能在没有海量数据情况下就能对齐;或者做一个新的模型做到闭环。
卫诗婕:所以现在很强调出货,大家觉得如果能够(把机器人)部署到一些真实场景里,边用的时候就可以边产生数据。
王兴兴:但是目前也知道,机器人自己产生的数据没法用,很多情况需要人在仿真环境里做采集,而且这个数据量可能也不太够。目前人类能掌握的 AI 核心原则只有一条,就是海量的数据,训练出来的效果是好的。但机器人领域哪怕有 1 万台机器人每天采集数据,数据还不够。而且最主要的问题是采集数据质量并不是很好。
卫诗婕:所以这就是你今天提醒大家要有耐心的原因,是吧?
王兴兴:对,但是说不好。因为相比过去一两年,视频生成模型的效果已经非常好了,但机器人领域比这个还要慢一些。
我个人比较看好视频生成模型,但对于机器人公司有个很不好的地方,(就是多模态模型)对于算力的要求太高了。
卫诗婕:因为多模态模型消耗的算力是语言模型的很多倍。
王兴兴:对,非常夸张,全世界的一般纯机器人公司可能都训不动。真的训不动。
卫诗婕:那怎么办?
王兴兴:我也不知道(笑)。如果对数据需求更小的模型,可能做出来更好一些。
漫谈Light the Star
PART SIX
谈世界模型 & VLA:
宇树都在尝试,但我很看好世界模型
卫诗婕:你去年其实有小小的争议,因为你是少数站出来说, VLA 可能会面临瓶颈和问题,有很多质疑的声音,你有听到吗?
王兴兴:我知道,但是您现在去问问别人,可能赞成我观点的人更多一点。
卫诗婕:这也是我关注到 2026 年的趋势,讨论世界模型的多了,讨论 VLA 少了。最近得到一个很有趣的信息跟你分享一下,我采了一个多模态领域的学者,他认为像 Seedance 2.0 这种视频生成模型,本身已经是世界模型的一部分。
王兴兴:对,本身就是世界模型。视频生成模型把很多语言、声音、视频加进去,是个多模态模型。在这种模型的基础上,某种意义上只要把实物、机器人轨迹和感知加在一起训练一下,就是万能模型了。既可以生成视频,也可以干活。肯定有大公司会这么做的,而且我觉得非常符合第一性原理,也非常正确的方向。
卫诗婕:所以 VLA 和世界模型,你是更偏向于世界模型这一派。
王兴兴:肯定的,目前我觉得世界模型的效果更好一点。当然 VLA 模型我们还在做,也会再优化。它现在肯定是有缺点的,但并不是说这个路线一定死掉了,因为大家也在改进,包括强化学习加进来。或者大家可能说 ,中间的 「L(语言模型)」 有没有必要呢?要不要变成一个 VA(Vision- Action) 模型?大家都有各种各样的想法。
卫诗婕:我理解不同的技术路线,可能最后带来的是不同的方案,但在做一件事情的时候,也许所有的方案都用得到。
王兴兴:对,因为在目前的 AI 领域,没有唯一正确的路线,变数还是非常多的。而且很多情况下以前做的 AI 模型即便成功了,但实际上还有更好的路线。
卫诗婕:这就是第一名很大的压力了,像你说的, AI 创新现在有一些随机性,很多你们都在试,但一定有你比较 believe 的方向,对吗?
王兴兴:对,但这个说不好,经常改主意的。对于我们公司来说,还是一定要保持相对比较开放。
漫谈Light the Star
PART SEVEN
每一天、每个月、每半年、每一年的
持续进步
「有价值的研究可能还埋在沙子里」
卫诗婕:过去一年你的时间是怎么分配的?
王兴兴:因为杂事比较多,所以真正在产品和技术上每天(用)的时间相对较少一点。但我觉得一定要保持对整个产品、对新技术的了解和认知,要跟上全世界的节奏。每天多看一些最新的论文、成果啊。
卫诗婕:现在海外的公司你最关注哪几家?
王兴兴:所有做的好的公司都关注。一直非常广,哪怕一个人做出好东西都值得关注。因为在 AI 目前的技术里,还是有些技术随机性的。举个最简单例子, Transformer 这个结构目前大家都在用,最早是 17 年谷歌做出来的。但到 2022 年 OpenAI 才开始大规模用。
可能未来真正的大脑或者非常好的模型已经有人做出来了,但大家(现在还)没有发现。大家可以多关注一下各种新的技术,可能现在看上去不太有用,但在未来会变成一个主流技术。
卫诗婕:你讲的很关键的一点是, Transformer 源自谷歌,但是谷歌却没有拿它做第一场胜仗,当然现在谷歌又重回王座了。公司变大的时候,有可能让机会悄悄溜走。
王兴兴:这个不可避免。有些技术可能被埋了十多年都有可能。
卫诗婕:宇树现在在变大吗?
王兴兴:对,我们公司人也多了,确实很多情况管理跟不上,效率反而更低了。或者说没有更好发挥每个人的价值、聪明才智。没有最优解,只能尽可能完善。
卫诗婕:我发现你还挺有节奏感的,会很客观的讲所有的事情,任之发生,但始终有非常坚定的目标。
王兴兴:对,我觉得还是要尽可能看到整个技术发展路线。我不能错过最重要的技术发展,不然别人做出来,我们公司没做,那真的是非常惨重的代价。
卫诗婕:宇树这一年相比过去,是速度更快了吗?
王兴兴:因为人也多了,整个迭代速度肯定比过去快一些。
卫诗婕:如果给 2026 年许一个小心愿的话,会是什么?
王兴兴:目前我们定的目标都非常简单——每一天、每个月、每半年、每一年都有持续的产品和技术进步,这是最重要的一件事情。
卫诗婕:「每一天的技术进步」怎么看出来?
王兴兴:关注前沿领域,做测试,尝试迭代。你总是可以获得进步。
卫诗婕: 2026 年你最期待的行业突破是什么?
王兴兴:一直期待全球的具身智能模型有更多突破,谁做出来对整个行业都是好事。当然如果我们公司自己做出来,肯定是最好的一件事情。
卫诗婕:宇树的位置有一个得天独厚的地方,今天只要你保证自己不退步,一旦有更好的模型做出来,哪怕是别人做出来,你还是能够保持领先。
王兴兴:对,保持头部水平其实相对容易,但是要保持全球第一肯定是更难一些。
卫诗婕:你的梦想跟第一天有产生变化吗?
王兴兴:我觉得没有,因为我从小就非常喜欢科技,希望做一个非常好的科技产品来推动整个社会的进步,这是我最大的理念和梦想。当下我们做的这个行业非常值得做,真的是能让人类文明迈到下一个台阶的。
漫谈Light the Star
PART EIGHT
「如果技术和产品落后了,
所有市场,哪怕已占领的市场,
都是浮云」
卫诗婕:你之前觉得机器人的 RL (强化学习)并没有做得特别好?
王兴兴:对,目前我觉得全世界的 RL 还没有真正把价值发挥出来。目前的视频生成模型、语言模型,用的 RL 相对比较少,包括它的规模也没有上来, Scaling Law 还没出现。
卫诗婕:机器人的 Scaling Law 怎样才能够出现?
王兴兴:没人知道。只是期待它能出现。但我给Scaling Law 定了一个指标,如果未来哪天,一台机器人到 80% 左右的陌生环境,给它发一个语音或者指令,它能实现 80% 左右的任务,我觉得就差不多达到了一个具身智能或者机器人的 ChatGPT 时刻,这非常重要。
现在的 AI 模型都是预训练的,如果我用很多数据去训练一个场景,它的成功率基本上可以做到 100%。但是我稍微换个场景,它的成功率就暴跌。所以目前机器人的泛化能力还不太够。
卫诗婕:你刚才讲,春晚舞台上的机器人对于它要跑到什么位置、怎么跑已经有一定泛化性了?
王兴兴:这个泛化性已经实现,但是不够,没有真正让它实现 80% 左右场景的干活。而且那个跑位也是提前先建图了。并不是说随便拎一台机器人到任何场景上都可以达到这种效果。
卫诗婕:机器人行业现在非常饱和,有一个判断是到 2026 年,机器人可能会「淤」——因为生产的机器人非常多,不一定有那么大的需求。在这个过程中,我发现大家需要跑马圈地。据我所知,宇树一直在 to Lab 非常强,在表演的 toC 层面也很强。在 toB 和工业这一块,你们是怎么想的?
王兴兴:我觉得最核心还是要保持持续的技术和产品进步,别的都是虚的。无论在别的领域卖多少台机器人,某种意义上都不顶用。
只要保持持续的技术和产品进步,哪怕一台机器人都不卖,永远都是全球最厉害的机器人和 AI 公司。但如果技术和产品落后了,那些市场,甚至包括已占领的市场,某种意义上都是浮云。因为真正的具身智能 AI 模型突破的那天,过往的东西跟它比起来都是没有价值的。
卫诗婕:所以在宇树的优先级里面,技术永远优先于订单。
王兴兴:肯定的,这是最重要的东西。
--End--
同期播客已经上线,欢迎前往小宇宙等平台收听
热门跟贴