一场关于“具身智能”的变革,正在以前所未有的速度席卷而来。

从文本到图像,从二维到三维,人工智能的触角正不断延伸,基于文本和图像处理的开源模型已无法满足具身智能对三维空间感知和动态交互的需求,这使得自主研发底层模型成为行业发展的必然选择,而多模态融合则是驱动这场变革的核心引擎。

机器人不再是冰冷的机械,而是具备感知、理解、交互能力的智能体,它们正以前所未有的速度融入我们的生活,重塑着产业的边界。而这场变革的核心驱动力,无疑是多模态技术的崛起。

本期专访,雷峰网对话了虚拟动点董事长兼CEO刘耀东,他们基于对行业痛点的深刻理解,自主研发了一套针对3D数据处理的底层模型LYDIA。也因此拥有了更大的自主性和领先优势。更值得关注的是,随着多模态技术的不断演进,图像识别、动作驱动等技术之间的融合正在加速,这不仅将推动机器人感知能力的跃迁,也将引发整个行业的技术迭代和市场扩张。

虚拟动点入局空间计算多年,基于在动作捕捉领域的案例累积,公司不仅拥有大量、高精度、高质量的动作数据,也在持续产出更多的优质数据,为人形机器人动作训练提供依托。

在与刘耀东的访谈过程中,我们深入剖析了虚拟动点的技术路线、市场战略,以及对行业未来趋势的研判,看他们技术如何落地,如何解决行业难题,力求为读者呈现一个更清晰、更全面的产业图景。

以下是媒体与刘耀东的对谈实录,雷峰网在不改变原意的情况下做了编辑和调整:

• 全球范围内,是否有其他公司也在探索空间计算与生成式AI的结合? 虚拟动点在这一领域的竞争优势是什么?

我们坚信,凭借深厚的技术积淀,我们在空间计算领域拥有显著的竞争优势。首先,从技术储备的广度而言,我们或为全球唯一一家同时具备光学、无标记以及大模型技术的空间计算解决方案提供商。这种跨领域的技术整合能力,使我们得以在多个关键技术维度协同发力,构建起独特的综合优势。

其次,在技术储备的深度方面,我们亦有卓越表现。以机器人视觉为例,我们自主研发的双目摄像头图像传感器,为硬件性能提供了坚实保障。在算法层面,我们成功实现了从传统无标记算法到 SLAM 算法的迭代升级,显著提升了定位与建模的精度与效率。此外,在数据积累方面,虽然我们无法确知其他竞争对手的数据规模,但我们对自身的数据积累情况了如指掌。正是基于海量的数据资源,我们成功训练出了高性能的动作大模型,这充分印证了我们在数据驱动方面的领先地位,也进一步巩固了我们在技术广度和深度上的优势。

打开网易新闻 查看精彩图片

第三个优势则源于我们过往丰富的成功经验。正如大家在视频中所见,我们曾为多种形态的机器人提供技术赋能,涵盖了从具备跳跃能力的机器人到能够精准操作文件的机器人等多种类型。这些实践经验不仅见证了整个机器人行业的发展历程,更为我们积累了宝贵的行业知识和技术诀窍(know-how)。对于技术公司而言,这种经验储备至关重要,它能够帮助我们更深入地理解行业需求,更快速地解决技术难题,并推动技术创新。因此,我们认为,这些过往的成功经验也是我们重要的竞争优势之一。

• 新发布的具身智能相关技术,与利亚德现有光电业务之间,在协同效应和未来发展方面有哪些潜力?

利亚德集团的业务板块广受关注,其中,智能显示板块专注于各类屏幕的研发与制造,我们将其定位为产品型公司;文旅夜游板块则侧重于景观亮化和业态打造,我们将其视为超大规模集成服务商。

虚拟动点则专注于AI与空间计算技术的研发,以往我们将其定义为技术型公司,如今,我们通过将产品、场景与技术交互紧密结合,串联起了一个更为宏大的故事。

打开网易新闻 查看精彩图片

未来,如果我们能够将这些技术应用于具身智能领域,无论是采用机器人还是其他载体,这个模式的逻辑依然成立,即通过技术串联起不同的应用场景。此外,就机器人本身而言,我认为利亚德集团在光电显示领域的屏幕技术,也可能在机器人领域发挥重要作用。例如,今天展示的这款机器人,其头部就配备了多个屏幕,这或许预示着显示技术在机器人领域应用的未来趋势。我们相信,这些技术协同效应将为集团的整体发展带来新的增长动力。

• 从今天的演讲来看,空间计算技术连接着机器人的运动控制和环境感知等多个层面。这种理解是否准确?空间计算技术在软件层面的存在,以及其对硬件层面的驱动作用,是否构成了一个完整的技术闭环?

我们可以这样理解:空间计算这项技术,虽然从复杂性角度而言并非极其深奥,但其价值却非常独特。

一个直观的例子是,当苹果公司发布Vision Pro时,‘空间计算’这个概念才真正进入大众视野。尽管这项技术的起源并非苹果,但苹果的运用让人们意识到,通过佩戴头显设备,我们似乎可以进入一个数字世界,并通过手势实现各种投屏和交互操作。这在一定程度上印证了我们之前所提到的,空间计算技术作为一种软件层面的工具,能够将物理世界的交互与数字世界连接起来。

正是那时,我们认识到空间计算技术首次实现了人类实体世界与数字世界的真正联通。正如我们开场视频中所展示的那样,空间计算技术连接着虚拟与现实,并促进两者之间的互动。它具备将数字孪生等虚拟概念与现实世界进行双向交互的能力,而这正是其独特的价值所在。”

从技术起源来看,空间计算的概念最早可追溯至2000年代初,是麻省理工学院Simon Greenwold 在其2003 年的论文中引入的一个术语。需要明确的是,空间计算并非一项单一技术,而是一个概念,类似于‘智慧城市’。

智慧城市并非单一技术,而是多种技术的整合。同样,要实现空间计算,需要足够的算法、算力以及传感器融合等多种技术的协同。尽管该概念在提出之初就引发了广泛关注,但由于当时的技术条件尚不成熟,空间计算并未得到广泛应用。

直到近年来,随着相关技术的进步,空间计算才再次进入人们的视野。就全球范围而言,空间计算技术的发展历程大致如此。而对于利亚德集团来说,我们早些年一直在进行动作捕捉技术的研究,随后逐步演进到空间计算领域。

• 随着联合实验室的成立,未来该实验室的主要研究方向将聚焦于哪些领域?同时,其具体应用场景又将涵盖哪些方面?”

关于联合实验室未来的发展方向,实际上我和姜博士(松延动力创始人、董事长姜哲源)都已有所提及。首先,姜博士强调了我们将共同构建全球最大的高精度数据库,这一数据库将基于我们源源不断产生的机器人训练数据,而非传统的人形数据。这不仅对他们公司本身有价值,对整个产业而言也具有重要意义。正如刚才记者朋友所言,这个数据库并非只服务于一家公司,一旦形成,它将可以服务于所有相关企业。

其次,我们将重点关注SLAM(即时定位与地图构建)算法的研发,这对于提升机器人的‘眼睛’至关重要。目前,机器人厂商在空间感知能力方面主要采用两种技术路线:机器视觉和红外雷达。我们更倾向于机器视觉,因为我们在早期进行动作捕捉时就大量采用了摄像头。因此,我们将与合作方在SLAM算法方面进行深入合作,并取得更多突破。

以上是短期内双方将着力解决的问题。从长远来看,我们的目标是推动机器人走进家庭。这可能是一个循序渐进的过程,因为家庭环境的容错率相对较低,而B端(企业端)的容错率则相对较高。正如我之前与其他媒体朋友所讨论的,松延动力公司的愿景是让机器人走进千家万户,成为人们的‘保姆’。。我们目前正在帮助他们进行泛化训练,即让机器人具备切菜、洗碗、放置物品等能力。这已经超越了底层技术层面,转向了具体的应用型训练。

因此,我们的联合实验室初期将围绕上述两到三个方向展开研究,未来将根据实际需求进行调整。

• 在选择合作伙伴时的标准和要求是什么?更侧重于其业务的实际运作模式,还是更看重创始人的个人特质和理念?

一般来说,我们会从技术合作伙伴的角度来谈更为合理。

第一,我们希望合作伙伴像松延动力(或其他暂不便透露名称的公司)一样,在机器人本体方面拥有成熟的技术和领先的实力。如果合作伙伴在机器人硬件层面无法解决足够多的问题,我们的技术就无法有效应用,这将浪费双方的时间。因此,我们对合作伙伴的硬件基础有一定的要求。

第二,我们希望看到合作伙伴团队整体的技术决心和执行力都比较高。正如大家所看到的,我们团队每年都会发布技术进展,包括去年发布的大模型和今年发布的新产品。大家可能会觉得我们的效率很高,这源于我们团队成员积极的心态和高效的执行力。因此,我们希望合作伙伴在节奏上与我们保持一致。

第三,我们希望合作伙伴与我们形成互补关系。也就是说,他们的优势领域正好是我们不擅长的,而我们擅长的领域他们则无需再投入精力。我们更倾向于选择能与我们形成互补的合作伙伴,这样才能实现资源的最大化利用。”

• 我们为何选择与合作伙伴进行联合开发,而非自行成立工作室或收购现有机器人公司进行制作机器人?

我们选择合作伙伴模式,而非自行制造机器人,主要基于以下几点考量:

第一,机器人制造本身属于精密制造和高端制造领域,堪称全球天花板行业,与汽车制造类似。无论是资金投入还是技术积累,我们目前都不具备独立制造机器人的能力。如果强行进入,势必会分散我们有限的资源和精力。

第二,我们有明确的战略定位,即‘不造机器人,而是帮助合作伙伴造更好的机器人’。这与华为‘不造车,而是帮助所有汽车更智能’的理念相似。我们不希望与任何机器人厂商形成竞争关系,而是希望与所有厂商合作,我们致力于成为机器人行业的赋能者,而非竞争者。

此外,还有一个因素促使我们选择合作模式,并让我们充满激情地投入其中。目前,网上有很多机器人具身智能产业链图谱,详细列出了机器人各个零部件的成本占比,例如丝杠、电机、轴承等。证券类媒体甚至会据此计算机器人的毛利率。但我想强调的是,这些硬件决定了机器人能力的下限,即机器人无法做到什么。然而,机器人能力的上限,例如通过算法让动作精度提升0.1度所带来的价值,却很少被计算或重视。我们认为,数据和算法是决定机器人价值的关键因素,但目前尚未被资本和媒体充分认识。我们的价值和优势在于此,而这也将是机器人真正进入产业链后所能体现的价值所在。虽然硬件的抗击打能力和电机的承载能力也很重要,但这些都是显性的。我们更关注隐性的数据和算法价值,并希望将其最大化。

• 如果要达到‘让机器人进入千家万户,成为家庭助手’这一目标节点,从当前建立数据库的时间点来看,您认为我们需要多少年的数据积累才能实现这一目标?

在探讨数据积累时间之前,首先需要明确数据库的规模。如果我们以当前我们所拥有的数据库为基准,我们有信心认为,目前我们可能处于全球前三的领先地位。

其次,关于如何定义动作数据,这本身就是一个复杂的问题。与文本或图像数据不同,动作数据的衡量标准并不明确。例如,自然语言处理(NLP)的数据量可以测量为单词数量,图像数据可以测量为像素数量和帧数,都有明确的单位和标准。但对于动作数据,例如‘拿起水瓶’这个动作,我们应该如何衡量?是测量骨关节角度、肌肉长度,还是时间帧率?每个人的动作模式都可能不同,这使得动作数据的复杂性远高于文本或图像数据。因此,动作数据的积累和定义,远比文生图的数据处理要复杂得多。

• 在人形机器人中,光学和算法的重要性体现在哪些方面?以及利亚德在这些关键算法领域,相较于同行业竞争对手,具备哪些竞争优势?

针对机器人领域,我们提供的算法主要分为两大类别。第一类,我们称之为‘空间感知’算法。这类算法通过摄像头等传感器获取环境信息,使机器人能够从视觉层面理解其所处的环境。在视觉理解的基础上,算法进一步处理图像,构建出三维空间模型。这其中,算法需要理解物体之间的关系,例如,确定机器人与目标物体之间的距离。

第二类算法,则专注于控制机器人的肢体运动,并维持动作的稳定性。这类算法与机器人本体的控制算法紧密耦合,例如,维持机器人重心的算法。不同算法之间会产生协同作用。因此,我们目前的核心价值体现在两个方面:一是通过空间感知算法,实现对环境的理解、判断和决策过程;二是通过肢体控制算法,实现动作的选择、执行和保持过程。这两大类算法构成了我们为机器人领域提供的核心解决方案。

• 人形机器人在实际应用中,是否会面临场景适配的问题?也就是说,是否需要针对不同的应用场景进行定制化的调整?

关于人形机器人算法的泛化能力,我认为经过足够的数据训练、算法优化,并达到一定的量级之后,其泛化能力将显著提升,最终实现跨场景的通用性。正如某位国外专家所言,理想状态是每个人身边都有一位机器人助手,能够胜任各种场景下的任务,类似于智能体助手。

然而,目前全球范围内,大多数厂商都采取了先聚焦特定场景的策略,在解决特定场景下的问题后,再逐步扩展至其他场景。这种模式在行业内普遍存在,即先深耕某个具体行业,待在该行业积累足够经验后再扩展至其他行业。例如,松延动力的目标是直接进入家庭场景,但我们认为,这仍然需要一个循序渐进的路径,即先基于特定的行业场景,积累经验,再逐步泛化到千家万户的各种工业和生活场景,这是一个必然的发展过程。

• 基于我们与合作公司的讨论,他们希望人形机器人能够承担保姆等家庭服务职责。那么,在传统的机器人研发框架下,我们的空间计算技术在机器人与环境及人的交互方面,能够带来哪些创新和改变呢?

简单来说,我们的价值体现在两个方面:一是环境感知和距离判断,二是交互控制和动作规划。

正如我们之前所讨论的,核心在于赋予机器人感知空间并自主判断的能力。例如,在实验室中,我们进行了以下实验:当指令机器人寻找钥匙时,它首先需要理解“钥匙”的概念。然后,通过图像采集,机器人需要在环境中定位钥匙的位置。在识别钥匙并定位后,机器人需要规划一系列行为,例如,如何避开障碍物到达目标位置。接下来,机器人需要确定采取何种交互方式,例如,控制大臂、小臂、手部等关节,以及最终采用何种末端执行器(夹爪或灵巧手)来抓取钥匙。最后,机器人还需要规划如何将钥匙带回。

这一完整的流程,体现了我们的核心价值。首先,机器人需要感知环境并判断目标距离;其次,当需要进行交互时,机器人需要控制自身的手部动作,并决定是否采用类人动作或机器人动作,同时保持动作的灵活性。这些过程都体现了我们的技术优势。

• 我们的动作大模型是否基于通用大模型进行调优?如果是,我们主要采用哪些通用大模型作为基座模型?在机器视觉技术与视觉理解、视频生成等通用大模型之间,是否存在联动或化学反应?这种联动是否会扩大市场需求?

我们确实参考过开源模型,但并非完全基于任何一家公司的底座。我们在借鉴和参考的基础上,融入了我们自身的理解和创新。目前市面上公开的开源模型,主要侧重于文本和图像处理,缺乏对3D数据处理的支持。直接照搬这些模型,反而会干扰我们对三维信息的处理。因此,我们选择了自主研发的路线。

在具身智能领域,图像识别、动作驱动以及其他相关技术必然存在交集。例如,Sora升级版体现了对图像理解和计算能力的显著提升,这无疑将极大地帮助机器视觉技术进行物体判断,以寻找钥匙为例,过去机器人需要花费较长时间(可能3秒左右)来判断钥匙的位置和定义。但随着类似大模型技术的出现,这一过程可能缩短到0.3秒,极大地提升了效率。这种效率的提升,加速了不同技术之间的融合。

此外,当前大模型背后的数学公式与逻辑存在一定的关联性。如果OpenAI等公司的大模型升级,国内如盘古、阿里、腾讯以及国际LLAMA、谷歌等系列的大模型也会快速迭代,这些大模型的迭代,反过来会促进我们在动作模型上的迭代。

因此,我们认为技术之间存在交集,技术底层的数学逻辑也存在交集,这将推动技术的不断迭代和提升。

结语:

在这次专访中,我们看到了虚拟动点在机器人感知领域的前瞻性布局和技术实力,他们不仅在技术上不断突破,更将目光投向了更广阔的应用场景。从“多模态”到“具身”,我们看到的是一场从感知到认知的跃迁,而这背后,是无数技术人对未来世界的执着探索。

虚拟动点无疑为行业提供了一个重要的参考样本。他们没有选择简单的“拿来主义”,而是选择了更具挑战性的自研道路,这不仅需要勇气,更需要对行业趋势的深刻洞察。这或许也预示着,未来的竞争,将不再仅仅是技术本身的较量,更是对行业理解、痛点把握和创新能力的综合比拼。

当然,具身智能的发展依然面临诸多挑战,从技术到商业化,从应用场景到伦理规范,还有很长的路要走。但我们相信,随着技术的不断成熟和生态的日益完善,具身智能必将释放出巨大的潜力,深刻地改变我们的生活和工作方式。

这场变革才刚刚开始,而我们正身处其中。未来,我们还将持续关注具身智能领域的最新进展。