打开网易新闻 查看精彩图片

对话 | 唐小引 嘉宾 | 王佳楠

责编 | 梦依丹

出品 | CSDN(ID:CSDNnews)

通往 AGI 的终点,是代码,还是身体?

王佳楠看来,答案明确指向了——具身智能。

她曾在牛津大学完成学业,加入 DeepMind,从事强化学习与持续学习研究,亲历了 AlphaStar 等标志性项目的诞生,也在国内生成式 AI 尚处早期阶段时,参与过统一生成框架的探索,走在 AIGC 爆发之前的科研前沿。无论是在“纯算法”的巅峰,还是在生成式模型的起点,她都站在浪潮内部。

2024 年,她加入星尘智能,选择直面一个更复杂、也更“真实”的问题:如何让大模型真正进入机器人,进入物理世界,成为可用、可落地、可持续演化的智能体。

这意味着不再只是比拼指标、参数或论文,而是要与硬件、数据、系统协作和真实场景中的不确定性正面交锋。

打开网易新闻 查看精彩图片

左:王佳楠,右:唐小引

在 2025 全球机器学习技术大会现场,CSDN &《新程序员》执行总编唐小引与星尘智能副总裁、前 DeepMind 研究员王佳楠展开了一次深入对话。从 AGI 的终极想象,到具身智能的现实瓶颈,从快慢系统的工程逻辑,到通用机器人的时间表与开发者应有的信念,她给出了一个既冷静、也充满长期主义色彩的答案。王佳楠在采访中提到的核心观点有:

  • 具身智能并非机器人或 AI 的“新分支”,而是各类 AI 技术(CV、NLP、大模型)在现实世界中的统一落点;

  • 从 DeepMind 到创业公司,本质是从“定义好问题”到“定义问题本身”;

  • “快慢系统 / 大小脑”是具身智能的核心系统观,而非模型数量之争;

  • 数据是当前最硬的瓶颈,高质量真机数据不可替代;

  • 世界模型很有潜力,但不是“等它完美了再做机器人” 世界模型能提供预测与提示价值,但它本身不是银弹,也不需要完美;

  • VLA 是通往通用机器人的关键一步,而非终点;

  • 通用机器人“走到人身边”可能只需 2–3 年,但完全自主还需要长期演化更现实的路径,是“可用先行、人类接管、逐步升级”,类似自动驾驶的发展节奏;

  • 具身智能是一条漫长但值得坚持的路:这是一个需要共创的时代,个人、公司与社区必须共同积累、持续反馈,才能真正推进边界。

欢迎 收听音频播客,如有兴趣观看完整视频,可在文末获取

打开网易新闻 查看精彩图片

从 DeepMind 到投身具身智能

唐小引:大家好,欢迎收看《万有引力》。我们今天在全球机器学习技术大会的现场,非常荣幸地邀请到了星尘智能副总裁、前 DeepMind 研究员王佳楠老师。

王佳楠老师会和大家深入分享自己的技术人生,希望能提供一些参考和共鸣,还将深入分享对于当下火热的具身智能赛道的见解,以及她在星尘智能的实践。欢迎王老师,您可以先和大家打个招呼,做一下自我介绍。

王佳楠:大家好,我是星尘智能副总裁王佳楠。更长的时间里,我其实是一个 AI 开发者。我 18 年在牛津大学毕业后,加入了 DeepMind 从事强化学习和持续学习的研究。疫情期间,大概 21 年左右回国,在深圳的 IDEA 研究院从事生成式 AI 的研究。24 年初,我加入了星尘智能,负责大模型与机器人的结合。

唐小引:您刚才定义自己是一个 AI 开发者,我很好奇具身智能和 AI 现在的关系。以前我刚接触机器人时,感觉它和 AI 是两个赛道,但现在我看到非常多 AI 领域的人在做具身智能,包括以前做 CV 的、做自动驾驶的,还有做大模型的,都在耕耘具身智能赛道。所以您认为,自己目前依然是一个 AI 开发者,这是一种融合的关系吗?

王佳楠:对,机器人现在是我们 AI 的一个终端平台。在过往很多年里,机器人本身也是一个历史悠久的学科,那时候大家可能会做很多定向开发,比如完成某个固定任务。现在我们希望的是智能机器人,让机器人变得更聪明,可以在开放环境中与人交互,完成复杂的任务。所以在这一波浪潮中,AI 变得非常重要。包括做 CV、NLP 等各个领域的 AI 从业者,都会把机器人当作一个终端平台进行开发,以实现智能机器人的最终目标。

唐小引:您是怎么选择这个赛道,为什么投身具身智能机器人的?

王佳楠:这要从很久之前说起。我 18 年从牛津毕业加入 DeepMind 时,公司当年的目标就是 AGI。在那个年代,很难想象,AI 并不是一个非常流行的词汇,很多人不相信甚至不知道 AGI 是什么。在公司内部,关于大家心目中的 AGI 是什么,也有非常多的讨论。当时有很多派系,比如讨论 AGI 是否需要一个机器人的身体?如果不需要,它需要解决什么样的问题?观点非常多样。那时我就在思考,在我心目中AGI 意味着什么。随着这些年 AI 技术的发展,我看到了机器人更多的可能性,也慢慢觉得这才是最终目标。对我来说,AGI 就是智能机器人,所以就收敛到了这个赛道。

唐小引:所以,我们现在讨论的通往 AGI 的路径,它的终局是具身智能吗?

王佳楠:不同的人会有不同的观点。但对我,或者对一批开发者来说,这会是一个终极的幻想。人类幻想这件事已经很久了,在各种科幻小说里,都希望有智能机器人来帮忙做事。它可能作为朋友,扮演不同的角色,在我们的生活中占据重要位置。

打开网易新闻 查看精彩图片

DeepMind岁月:见证 AlphaStar 的诞生

唐小引:您和机器人的结缘是在 DeepMind 吗?

王佳楠:在 DeepMind 时,我开始思考关于 AGI 的问题。当时 DeepMind 也有自己的 Robotics Lab。我去做了一些调研,看看他们在做什么。那时候大家主要是在做摞小方块之类的任务,比如把红色的方块放在蓝色的上面。当时我的想象力还没有完全打开,感觉机器人非常受局限。但是,近些年国内硬件的发展,尤其是我看到了星尘智能的机器人之后,思路突然被打开了。机器人其实可以更自然地出现在我们生活中,能做更多的事情。

唐小引:您有三段主要的职业经历。可以先谈谈您从牛津大学毕业后,是如何加入 DeepMind 的吗?对于国内所有做 AI 的人来说,那几乎是一个信仰般的地方。

王佳楠:加入 DeepMind 对我来说是一件很自然的事情。对于很多人来说,心中都会有一些圣地,当时在英国读书的我,也觉得那是一个非常了不起的地方,希望加入其中做研究。读书期间,牛津组织了一些活动,可以去 DeepMind 参观,和里面的科学家交流,当时深受鼓舞,觉得有机会一定要加入。刚好毕业时确实有这样的机会,所以很幸运地加入了当时的浪潮,去从事研究。

唐小引:您是在 AlphaGo 之后加入 DeepMind 的。能否和我们分享一下,您在 DeepMind 期间主要参与了哪些研究方向或项目?

王佳楠:我加入的时候,AlphaGo 项目已经完成了。我大概是 18 年加入 DeepMind 的。那时我们做了很多用 AI 打游戏的工作,以此作为验证平台,来验证强化学习方法是否能通用,是否能像人一样做决策。我见证了“AlphaStar”打星际争霸的过程,那是一个非常大型的游戏,对很多游戏玩家来说是一个圣杯。我们将强化学习应用在这样一个需要大规模交流、协作和复杂决策的游戏当中。我见证了它的诞生,以及它逐渐向更通用平台扩展的过程。我们不止是打一款游戏,而是希望设计一个足够统一的框架和学习方法,让它在不同游戏中都能表现出色。这就要求模型有更高的智能、更强的适应能力,对模型和数据的要求也更高。我在不断追求通用的这条路上参与了一段时间。

打开网易新闻 查看精彩图片

回国发展:从纯粹研究到追求落地应用

唐小引:那您后来为什么选择回国呢?我看到很多 AI 科学家、研究人员或开发者会一直留在海外发展。

王佳楠:原因有很多。第一是时代原因,21 年左右正好是疫情期间,大家都在远程工作,所以我就回国了。回国后,我见证了国内有非常多不错的 AI 公司和 AI 成果,这是其一。

其二,在 DeepMind 做了三年之后,我个人的心态也发生了一些变化。当时的 DeepMind 本身不做任何应用,它有专门的部门叫“DeepMind for Google”负责做应用,但英国的 DeepMind 只做纯算法开发。那是一段非常有趣且令人鼓舞的旅程。

但在经历了三年之后,我希望能更多地接触和解决真实世界的算法问题,因为算法最终还是要服务于我们的生活。那时我个人的心态和追求的目标发生了一些变化,刚好有这样的时机巧合,就决定留在国内发展了。

唐小引:所以作为一名研究者,您还是希望自己的研究能更多地进入真实场景,实现落地应用。您回国后加入了 IDEA,但它本身也是一个偏研究的机构。

王佳楠:研究是其中的一部分。但当时 Harry 沈院长(沈向洋)有更高的目标,他希望我们能真正孵化出一些独角兽公司,为社会做贡献,这也是他成立研究院的目标之一。在他的蓝图中,研究院处在一个把研究转化成产品、创造影响力的重要阶段。所以,它既有很重的科研成分,也有很强的商业化目标。

唐小引:您在 IDEA 是在机器人中心吗?

王佳楠:计算机视觉与机器人中心。

唐小引:在这段经历中,您做出了哪些自己认为是重要成果的成就?

王佳楠:我的成果主要是在生成式 AI 方面。我当时负责生成式 AI,包括现在大家熟知的文字、图像等视觉领域,其中视觉包括图片、视频、3D等。当时生成式 AI 还处于初期阶段,不像现在 AIGC 这个词这么普及,有这么多投入。那时还是以科研探索为主,希望能够用更统一的框架去解决不同的生成类问题。所以,当时主要是在算法推进方面做了很多尝试并取得了一些成果。

唐小引:那星尘智能是什么吸引并打动您加入的呢?

王佳楠:首先,我和我们的联合创始人戴媛是十多年的好朋友。我们当年在美国认识,她在 UIUC 读本科,我在港中文读本科,去那边交换时认识的。她一直是一个非常有激情的人,也一直在从事机器人相关的研究和探索,所以我们定期有很多交流。我当时更偏 AI,而她有很多机器人的视角。她回国后在腾讯的 Robotics X 也是做机器人方面的研究。在交流过程中,我逐渐发现机器人行业在走向成熟,尤其是硬件方面有了非常大的进步。后来她与来杰一起创立了星尘智能。

当我亲眼看到他们的硬件原型时,那一刻我的想象力被点燃了。我从未想过机器人的动作可以如此灵动、丝滑,展现出近乎人类般的通用操作潜能。正是因为这种技术突破带来的震撼,再加上时机、团队的人,还是产品的初代,都非常吸引着我,于是我决定加入他们。

唐小引:我看星尘智能的机器人发展得非常快。我算是见证了它从无到有、从零开始的过程,直到现在,它的速度让我有些惊叹。不知道你们内部是怎样的节奏,才能从外部看来有如此惊人的发展速度?

王佳楠:的确,我们是一家比较年轻的公司,但我们的产品形态和成熟度都已经非常不错了。我们现在也在对外发售,并且有很多人尝试过我们的产品。对于一个需要多学科合作来制造机器人的公司来说,这个速度的确很快。

我们内部,第一是团队非常多元化,且在这个行业里有非常长时间的积累,技术本身不是一蹴而就。其次,我们非常注重多团队之间的协作。因为我们既有算法、软件,也有硬件、结构,会涉及到非常多的问题,所以紧密的创业精神非常重要。大家抱着“要解决这个问题”的最终目标去合作,而不是单独负责一个小模块,完成一个小目标。这样的创业精神让大家聚集在一起,调用自己过往的知识去合作完成最终的产品。

唐小引:所以星尘智能让您在具身智能之路上,从软硬件、从本体到整个系统,都得到了更深入全面的了解。

王佳楠:没错,我从一个纯软件开发者,到现在开始与机器人结合,甚至要去关心机器人的数据如何产生,产生后要进行什么处理,以及如何获得高质量的标注数据,整个全流程到最后的机器人算法部署,都学习到了非常多。

唐小引:有什么顿悟和迷思吗?

王佳楠:顿悟是,我觉得对我来讲,机器人是我要追求的理想和目标,这个信念感非常重要。机器人研发涉及复杂的软硬耦合,任何一个硬件环节的变量都可能带来挑战,这与纯粹的 AI 开发逻辑完全不同。

以前做算法研究,问题通常是预设好的,数据已经过清洗,开发者的目标非常纯粹——即在既定指标上刷新 SOTA(最优性能)。回想起来,那是一个相对“真空”且定义明确的环境。

但在具身智能领域,开发者必须从“解题者”转变为“全流程定义者”:机器人的任务场景由你定义,数据的采集方案由你设计,模型的适配性也由你把控。你需要从最终的交互结果出发,反推所需的硬件部件、系统协作,并精准定位链路中的瓶颈。这种从全局出发、应对高度不确定性的开发模式,正是具身智能最迷人也最具挑战的地方。

唐小引:您说的全流程,是现在创业公司的普遍情况,还是说在大厂里依然是每个模块分开负责?

王佳楠:机器人一直是一个对动手能力要求比较高的行业。目前,大部分机器人 AI 公司都偏创业型,或是在大厂里也是比较年轻的团队,所以行业的标准还没有特别完善。我相信,或多或少大家都会在全流程中体验各种问题,去不断塑造我们希望达到的标准。这是一个在演化中的过程。

打开网易新闻 查看精彩图片

技术厘清:具身智能的“快慢系统”

唐小引:我前面说,跟很多具身智能从业者一聊,全是问题,让我有点丧气。

王佳楠:所以信念很重要。

唐小引:的确,长期主义的信念是底色。作为观察者,我想请教一个核心概念的厘清:您今天提到的“快慢系统”,在 LLM 语境下通常被称为 System 1/System 2,而具身智能领域更习惯称之为“大小脑”。这是否意味着,目前具身智能圈已经将大模型的认知框架与机器人的底层逻辑进行了跨界统一?

王佳楠:无论是“快慢系统”、“大小脑”还是“System 1/System 2”,其背后的逻辑架构和系统目标是高度一致的。其核心在于区分决策的深度:复杂任务需要深度的逻辑推理,过程较长且慢;而基础动作或直觉性任务(如行走),则由快系统直接响应,无需占用高阶计算资源。

在工程实现上,快慢系统更多是一种“功能定义”,而非固定的物理模型限制。它既可以通过单一模型在不同模式间切换实现,也可以通过多模型协作完成。我们可以通过预设逻辑引导模型在处理高难度任务时触发“慢思考”;也可以让模型在训练中自主学习判断介入推理的时机。此外,该架构具备高度的可扩展性,例如通过接口为慢系统调用外部更强大的模型,以应对特定的复杂场景。

打开网易新闻 查看精彩图片

唐小引:您可以围绕快系统展开分享一下吗?我之前很困惑,比如现在有一些专用的具身智能机器人能满足干体力活的需求,但大家可能想要的是像人一样,在任何场景下,属于行动类的任务都能直接做。但现在具身智能给大家的感觉,更多的是在执行一些预设任务,对于一些临时需求,可能没办法很好地执行。如果具身智能要类比人,那么实现小脑这样的目标可能会非常遥远。不知道现在我们进展到哪一步了?

王佳楠:关于“快系统”或“小脑”的功能,我们普遍将其定义为无需语言中介、由直觉驱动的基础运动能力。例如,抓取桌面上的单一物体,这属于一种非决策性的反射动作。

在人类日常行为中,存在大量的“原子动作”(抓、拿、推等)。对应到机器人训练上,快系统的核心任务就是通过海量的动作片段数据进行预训练,构建机器人的“动作基元库”。这非常类似于人类的早期发育:婴儿在产生复杂认知前,首先要通过运动来感知并适应自己的身体,将抓握、伸展等动作内化为本能。

目前,我们内部已经积累了大规模的机器人运动语料。快系统并不需要理解动作背后的语义逻辑,它只需要明确自身的“能力边界”,即知晓自己能完成哪些物理轨迹。只有当快系统具备了这些成熟的原子技能,后续接入的“慢系统”(大脑)才能作为指挥官,通过高层指令精准调用这些动作,实现从“意图”到“执行”的闭环。

打开网易新闻 查看精彩图片

技术瓶颈与探索:意图理解、模型架构与数据

唐小引:那怎么把我作为人类的意图和需求,精准地让机器人去执行呢?我们希望的肯定不是预设好的任务。

王佳楠:这是非常重要的一个问题,就是人类意图的表达。要让机器人理解非预设的复杂需求,核心在于意图表达的颗粒度。

目前,VLA 模型主要依靠“语言指令-动作映射”来建立联系。然而,纯语言交互在面对精细任务时显得有些力不从心。回顾 AIGC 的进化史,从最初的文本描述到后来引入位置、轮廓等具体约束,控制力得到了质的飞跃。

这种逻辑完全可以复刻到机器人身上。除了“说出需求”,我们还可以引入更直观的控制接口:比如给机器人画出一个大致的运动轨迹,或者设定空间约束。通过这种“语言指令+多模态提示”组合,我们能极大地增强机器人对人类真实意图的捕捉能力,从而应对更具动态挑战的现实场景。

唐小引:我们接着聊一聊大脑。我听到很多人表示,基于 Transformer 架构的 AI 大脑,可能模型本身能力强,不代表在具身智能机器人上也一样强。经常听到具身智能领域分享技术瓶颈时,会提到模型架构、数据和计算等方面。如果说模型架构的局限性是具身智能的瓶颈,那现在探索和解决方案的可行方向是什么?

王佳楠:模型架构方面,大家在做不同的探索。最常见的是用一个 Transformer 搞定,遵循现在 VLM(Vision-Language Model)的框架。还有一些方案是外接一个世界模型,这个世界模型可能是 DiT(Diffusion Transformer)或 Diffusion 模型,对未来做一个预测,再把这个预测以某种方式接到下层的执行模型中。

你也可以去提取更多的动作提示,比如做图片生成、轨迹生成,这些也可以用专有模型来做。所以架构上,我觉得比较重要的是有一个相对完善的系统,可以开放地接受不同形式的提示或人类意图。我们希望最终一个模型能搞定所有事,但现在受限于您刚才提到的数据等层面的问题,当前可能还完成不了。但我们可以去调用更强的模型来补齐这方面的知识和能力。所以整个系统层面的要求会更高,而对于单一模块,模型架构和数据能力会在各自领域不断提升。那些提升如果能被机器人这一侧直接用到,就是比较理想的状态。

唐小引:星尘智能在数据这块,是不是仿真的占比较少?

王佳楠:我们目前用仿真比较多的是在做数据增强。

唐小引:大家在解决数据瓶颈时,可能会通过合成数据等方式。现在这方面存在共性瓶颈,但在技术路线上,好像又没有形成比较公认的方案。您对这块的思考是怎样的?

王佳楠:因为行业还处于初期,大家都在探索阶段,的确共识性没有那么强。但大家大概知道一些重要的模块和可行的方案。我相信星尘智能、其他公司、高校以及科研机构,大家都在这个方向上努力,我们会逐渐收敛出比较行之有效的路径。

目前来讲,共识是大家都知道数据重要,而且一定需要最高质量的数据。因为在真实应用时,机器人需要真的去交互,可能会操作非常精细的物体,所以我们必须要有高质量的真机数据。在这一块我们做了非常多的优化。

仿真数据方面,我们和高校合作,也会做一些数据的生成和增强。“增强”的意思是,我采集了一条真实数据,这条数据在仿真中一定是真实可接触的,因为是我亲手采集的。然后我可以在仿真中把它变成一千条、一百万条数据,比如对背景、光照、材质、颜色做一些调整,这些都是非常有效的。还有一些是纯仿真生成的数据。当交互不复杂时,比如抓放一个东西,这类数据也可以相对高质量地产生。但如果你要做更复杂的事,比如拿着钥匙开锁,或者叠衣服,这些就比较难仿真。这就要看仿真软件的进步和大家的持续探索能产生什么样的结果。但它也是一条可行的路线,取决于你的任务难度。最后就是我们广泛积累的互联网数据,这方面大家也都在做广泛的收集和探索。

唐小引:积累的互联网数据能解决具身智能的痛点吗?

王佳楠:它能解决一些偏上层能力的痛点。比如要完成一个长时序的任务,可能会有步骤 A、B、C、D,这些是可以通过互联网数据补齐的。再比如,我要操作一个物体,最基本的能力是,当人给我指令说“拿杯子”,它首先要知道杯子是什么,杯子在哪儿。而且人经常会说得很模糊,比如“帮我拿一个红色的东西”,“帮我拿一个热量比较低的饮料”。这些对于需要和人交互的机器人模型来说,对上层语义的理解要求非常高。所以,长期积累的互联网数据还是能够解决不少问题的。

打开网易新闻 查看精彩图片

世界模型:通往 AGI 的路径,还是哲学问题?

唐小引:在 AI 数字世界里,大家之前很苦恼于提示词怎么写才能精准表达需求,现在上下文工程很流行。在 AI-Coding 领域,现在有些工具会直接把你的模糊需求进行增强,再输出更精准的结果。在涉及到从数字世界到物理世界的具身智能领域,又是怎么做的呢?

王佳楠:您刚才讲的这一块是非常有效的路径。人的输入是不可控的,指令可以非常自由。那我们可以有一个专门的模块来翻译你的指令,把它翻译成机器人可能“见过”的、更直接的指令,这是一个有效的方案。

但现在更多的情况是,大家直接利用一个预训练好的 VLM 模型,它本身就自带对这类指令的理解和增强能力。这样就可以先不考虑这一层的复杂度,直接把你的指令翻译成机器人的动作。

这最终还是取决于你的场景。

我们希望机器人最终能在真实场景里做我们希望它做的事。如果这个场景需要非常多的与人交流交互,那你就需要把这一块做强。可能需要翻译模块,也需要对话能力,不只要有动作,还要同时输出与你的交互内容,比如语言。但有些场景,比如我在咖啡厅打工,前面已经有人接单了,我的任务就是做不同的咖啡,在这种不需要经常和人交互的场景下,可能就不需要那么强的指令理解能力。所以这很看场景。机器人基本都会有权衡(trade-off),比如速度、复杂度,以及动作完成的精准度,它们之间经常需要取舍。大家在真实场景中需要考虑这些问题。

唐小引:刚才聊到世界模型,今年这个概念非常火。有一个言论是“世界模型是通往 AGI 的路径”,这会是大家的共识吗?

王佳楠:纯属个人观点,这未必是一个共识性的结论。这可能出于我之前的一些经验考量。当时还在 DeepMind 的时候,大家会做很多打游戏这样的任务,用到了非常多的仿真。那时大家就会讨论,这个仿真什么时候可以做到完美?做到完美我们就有世界模型了。

但有一个可能偏哲学的观点是,如果你已经能够完美地仿真出这个问题所处的环境和复杂度,那这个问题你其实已经解决了。这是一个鸡生蛋还是蛋生鸡的问题。你很难说我可以等到有了一个完美的世界模型,然后我的机器人就可以变得更好。这个世界模型能否完美地存在,本身可能是一个问题。但它也许并不需要完美,能解决一部分问题就行,比如给你一个大致的提示。这一点还是非常可行的,因为近些年我们看到视频生成模型已经变得越来越强。当然它在物理真实性方面还有提升空间,但的确已经有很多不错的成果了。如果持续发展,它确实可以为我们的机器人提供一些比较好的提示,这是可行的。当然,还需要去优化速度,以及它跟机器人的真实交互接口。但这是一条比较简洁且看起来很有潜力的方向。

唐小引:您觉得世界模型有哪些是可行的方向,又有哪些是当前您看到的泡沫或者误区?

王佳楠:首先,我认为世界模型是一个可行的、且很有潜力的方向,我们跟高校的合作其实也在探索和推进这个方向。至于泡沫或者误区,现在很难一下子就判断。因为问题的多元性太强了。如果你是让大模型解一个数学问题,那问题非常清晰,有对有错。但对机器人来说,它所处的场景和需要解决的问题非常多元化,可能会有不同的技术方案对某个特定问题行之有效,但对更广泛的问题可能并不适用。但这不意味着它就是泡沫或误区,因为它确实也能解决一些问题。所以,我现在的观点是:能够解决问题的就是好方向,取决于你是否定义好了你的问题。

打开网易新闻 查看精彩图片

VLA 与通用机器人的愿景

唐小引:具身智能体和数字世界的 AI Agent 有什么异同?之前前 OpenAI 的研究员吴翼老师曾说,具身智能体的实现,前提可能是要先解决 VLA 和硬件的问题。您对此有什么思考?

王佳楠:具身智能体不是我的主要方向,我们做 VLA 做得比较多,这取决于怎么定义“智能体”。

现在大家说的 AI Agent 更多的是指有很多专用模型,它们之间可以基于不同场景互相调用,串联起来解决一个问题,这可能是我比较狭隘的理解。在这方面,我的实操经验不多。但我们之前确实尝试过调用不同的模型来解决机器人问题。比如李飞飞他们的团队也会做类似的事情,调用一些感知类的模型来解决定位问题,这些是可行的,也是行之有效的。

唐小引:刚才聊到 VLA,我看到一个观点说,VLA 是自动驾驶以及具身智能的终极解决方案。您怎么看这个观点?

王佳楠:终极解决方案,这要看“终极”指的是什么。从我个人观点来看,我认为它是通向终极的非常重要的一步,它为机器人配备了通用的能力,这是非常重要的一件事。但在下游应用中,还是会需要一些特定的设计或改动。当然,这两者并不冲突,它是在 VLA 的基础上再演化出一些新的结构与功能。所以我同意,它是通往终极的一个重要的里程碑。

唐小引:您理解的具身智能终极,是不是就是我们大家之前呼唤的通用机器人?它到底还有多远?

王佳楠:这个问题还蛮难回答的。我认为,我们对通用机器人的想象,是它在我们身边帮助我们做很多事,是我的助理、管家,或者清洁人员,它会有不同的角色。

我认为这样的通用机器人走到我们身边,可能需要的时间比较短,大概 2 到 3 年。但它是不是一个纯自主的机器人,这有待商榷。

我不认为在短短的时间内,我们的模型能够达到足够的鲁棒性和安全性,来真正完全自主地完成我们交代的一切。所以我们公司包括我个人的观点,还是跟自动驾驶一样。首先,机器人作为一个产品,它要在你身边,有自己的使用价值。就像车一样,有没有自动驾驶功能,它都是车,你都可以用。自动驾驶是为它配备了一定的智能性,这个智能性一定是在不断演化升级的。当它走到我们身边时,一开始我们可能需要去接管、去帮助它、去教它,这些都是可以接受的。在这个过程中,它会慢慢地演化出更高的智能、更高的准确率和鲁棒性。我觉得这需要经过一个漫长的时间迭代。

唐小引:这个漫长的周期是多久?

王佳楠:周期长短看你的需求。比如你要百分之百的正确率,并且是在你定义好的一千万个任务上。当你的目标清晰时,这主要就是一个数据和模型训练的问题,问题还没那么大。

如果数据采集足够快,大家共同创建一个数据中心和数据来源,我觉得 3 到 5 年我们可能会有非常完整的数据,覆盖日常生活中各种各样的场景。但如果你的问题不确定,比如今天是一万种任务,但生活中可能会有各种各样的可能性演化出更多任务,或者在其他场景下有不同的交互模式,那这个迭代过程可能就要不断地持续下去。

打开网易新闻 查看精彩图片

未来方向:人机交互、多模态数据与降低门槛

唐小引:围绕具身智能当前的技术发展,除了刚才提到的,您觉得还有哪些很关键的方向或问题?

王佳楠:关键的方向和问题,比如刚才讲到的世界模型、快慢系统,这些都是大家已经在广泛探索的。

唐小引:还有哪些是大家目前没太注意到,但未来可能会成为广泛探索方向的?

王佳楠:其中一个是与机器人的交互。交互这块包括它如何理解我的意图,如何与我沟通交流。当它自己碰到问题时,会不会主动发出信号说“我现在不知道该怎么办了”。因为它毕竟不像手机是我们熟悉的产品,所以需要去不断定义交互方式,并解决里面的科学问题。

第二,从训练模型的角度,我们希望数据可以更加多元化、多模态。我们最近跟 MIT 的合作也在思考,人做事的时候其实不是非常被动的,我们会有主动的关注点转移,会有更多的模态感知,比如我们的触觉,我们大致知道自己使了多少力。所以,更多模态的数据收集,以及如何把这些数据应用到模型中,也是非常值得继续探索的问题。这是两个例子。

唐小引:我刚才听您演讲时,用一句通俗的话来理解,您想做的事情是“把具身智能的门槛打下来”。

王佳楠:在一定程度上可以这样理解。

唐小引:您觉得截止到目前,距离您的目标完成了多少?

王佳楠:在我心目中,可能进度在 50% 左右。

首先是“打磨”阶段,我们先在内部用顺手,然后推向高校。目前有很多合作伙伴在试用我们的机器人,我们也在同步观察他们的使用习惯,看看实际会碰到哪些坑。现在的反馈是,门槛对他们来说不算高,大家能基于这个平台做非常深度的算法开发。

接下来是商业化落地。现在还是我们帮客户去验证某些场景能不能跑通,但下一步,必须得让客户自己能轻便地去验证。只有客户能自主验证场景、方便地进行二次开发,商业侧才算真正成熟了,这是非常关键的一步。

再往前看,才是面向极客这类的普通用户。这类人的画像其实跟科研用户挺像的,实操能力极强,爱探索。

所以我觉得“科研”和“极客”这两端目前的进展还不错,虽然还有提升空间,但最考验我们的还是中间的商业应用。这需要我们的交互界面做得足够友好,怎么让一个完全没有背景知识的人也能上手即用?这是我们接下来要猛攻的方向。

打开网易新闻 查看精彩图片

落地挑战与给开发者的建议

唐小引:您在星尘智能本身也会很关注机器人具体的应用落地环节吗?会实际参与吗?

王佳楠:老实讲没有那么多。我们会去关注终端场景,因为我们在内部做预训练模型,比如 VLA 模型,就是要服务于下游场景的。所以在这个层面我们很关注。但我们有更专业的同事在做不同场景的实际测试。

唐小引:那通过您的观察和交流,有看到在 To C 和 To B 的实际应用落地时有什么样的挑战吗?有哪些是让您觉得比较棘手的?

王佳楠:在实际落地过程中,我的经验可能没有那么多,只能分享几个道听途说的,听我们同事分享的也非常有意思。有些点真的是要走到实际场景中才会碰到。比如我们去养老院,跟老人家交流,做一些他们关注的任务。然后发现了一个非常有意思的小细节:我们那个机器人的夹爪开合非常快。这是为了服务于快速控制,能够做抛接这类高动态的任务,是我们设计的一个优势。但是在养老院,因为夹爪开合快,会有声音,可能会吓到老人家。这是一个非常实际的小问题,是在这个特定场景里才会碰到的。诸如此类的问题在不同场景中会有不同的体现。当然,更多不那么偏向与人交互的,比如商业型或任务驱动型的场景,挑战可能更多的是需要力触觉反馈、需要做精细操作,或者在比较密集的一堆试管中抓到想要的那一个。这些是灵巧性和精准度的挑战。

唐小引:您刚才举的养老院的例子,后面的解决方案是什么?

王佳楠:这应该会有不同的解决方案,是我们同事在持续跟进的。我觉得在机器人领域,很多问题没有是非对错,而是一个取舍。

唐小引:最后,对于年轻的,或者想要观望、投身具身智能的开发者,您有什么建议或心得体会可以分享吗?

王佳楠:我觉得一件非常重要的事情是,具身智能是一个非常有前景,但也很长的一条路。这个过程中一定会碰到非常多的问题,所以希望大家能有信念感,去关注自己的目标是什么,需要解决什么样的问题,并对自己当前碰到的问题有一定的耐心和容忍度。因为你在创造历史,这不是一条之前大家都走过的路。

其次,要抱着一个共创共赢的心态,我们公司也是如此。因为整个市场未来的预期非常大,而这个问题不是一个人、一个学校或一个机构能够短期内自己解决的。我们需要集合大家的力量,尤其是前沿开发者的力量。我们需要不断地收集反馈,了解有什么困难,无论是从硬件层还是算法侧。当这个强大的社区建立起来之后,每个人都是其中的贡献者和受益者。所以希望大家可以多进行交流,多反馈,一起抱着共赢的心态来解决问题。

唐小引:我之前听别的专家提醒,要对热技术有冷思考,说具身智能是一个“一将功成万骨枯”的方向,所以如果要投身,一定要想清楚。您的侧重点更像是在这个方向上如何坚持下来。

王佳楠:对,其实不冲突。你确实要先想好,自己是不是有这样的信念,是不是真的想解决这个问题。一旦你确定了,就请多多坚持,多一点耐心。

唐小引:好,谢谢王佳楠老师为我们带来的精彩分享。我们今天的节目就到这里,谢谢大家,我们下期再见。

↓想要观看完整视频的小伙伴可戳~

关于《万有引力》:

这是由 CSDN &《新程序员》执行总编唐小引主理的对话栏目。技术趋势多变,一不留神总担心错过。正在发生的技术事件,对于我们开发者意味着什么?我们面临的诸多困惑从何寻找答案?《万有引力》即志在于此,直面事件与困惑,抽丝剥茧,解读技术真相。

  • 栏目定位:一档面向开发者群体,聚焦解读技术真相的对话栏目。

  • 视频观看平台:CSDN 视频号、CSDN 网站 & App

  • 多形式:文章、视频、音频都会有,持续关注 CSDN 公众号都可获取,欢迎大家关注!


打开网易新闻 查看精彩图片