AI正在补齐机器人能力的拼图,尽管仍存在卡点,AI硬件的发展在很多方面已经超出预期。

在九合创投12周年年会的“具身智能专场”圆桌对话环节,云希谷创始人罗辉、Noetix Robotics创始人姜哲源、X Square创始人王潜和墨影科技创始人杨一鸣,共同探讨了机器人发展的新机遇和冷思考。

Key Takeaways:

  • 硬件是中国很擅长的领域,国内发展AI硬件有优势,产品多样化。

  • 应用场景要回归商业本质,有些机器人不需要做到像人一样灵巧,这类机器人也有很多应用场景,尤其在C端和服务端。在制造业则需要机器人公司和客户更长期的磨合和共同推进。

  • AI硬件走进家庭主要问题在于如何让机器人泛化的完成操作任务,需要提升数据采集效率,以及一些样本效率更高的算法。

  • Scaling Laws已经在具身智能上发挥作用,当逐渐把数据做大、把工程做好,在此过程中将看到AI硬件的提升和飞跃。

请创始人介绍一下各自公司所在的领域

罗辉:云希谷主要做AI儿童的智能硬件产品,我们做了一些特殊的架构,使产品达到很好的性价比。过去几年,特别是获得了九合的投资之后,我们多个产品在市场出货量都做到了第一名。

姜哲源:Noetix Robotics主要做两类产品,第一类是双足机器人,第二是模仿人类表情和动作的仿生机器人。

王潜:X Square主要做具身智能大模型,特别是上肢操作模型,这对于传统机器人是老大难的问题。我们希望做真正的通用模型,使机器人在物理世界的交互中具备甚至超过人类的能力。我们公司去年年底成立,九合在我们起步阶段就开始支持我们。

杨一鸣:九合是墨影科技的首轮投资人。我在国外的时候,2017、2018年做了很多人型机器人,类似波士顿动力早几代的Atlas。我回国创业其实做的第一件事情就是把人型机器人的腿换成轮子,我们现在主要的产品是移动加上操作的机器人,主要给客户提供智能制造无人工厂的整个产线设计,以及部署和落地。

请大家谈谈这两年AI在各自细分领域带来的机会和变化

罗辉:大模型首先是生产力的工具。我们做儿童教育的硬件产品,类似生产出好的“碗和筷子”,本质上儿童需要的还是教育的内容。现在有大量用大模型创建的儿童教育内容,而且品质很好,没有版权的问题。

另外我们已经开始做AI Agent的产品,正在研发AI闹钟,年底可能会做桌面的双足机器人。大模型对我们影响非常大,节省了大量的工程师成本和内容版权成本,也能改善产品的体验感,对小朋友的帮助更大。

姜哲源:AI对我们的改变主要在四个方面。第一,我们的机器人跑步、行走等步态动作比较稳定,用到的就是AI深度强化学习的技术。我们用相对低成本的硬件,达到了非常惊艳的效果。

第二,在感知方面,我们基于AI的方法进行周围环境和地形的建模和感知,能实现更低的噪声、更好的建模效果,并可以进行环境的语义理解。

第三,在上肢操作方面,AI的进步让我们可以采用模仿学习的方法,训练机械臂完成上肢的操作任务,虽然目前泛化性是整个领域的卡点,但是相信随着数据采集算法的进步,泛化性终将被解决。

第四,可以通过大语言模型对任务进行拆解,完成自然语言引导的任务。

王潜:对于我们所在的这个领域,AI是一切。上肢操作的复杂性远超过任何其他机器人和AI的任务。AI里有个经典的莫拉维克悖论,人越擅长做的,对机器来说可能越难。上肢操作是非常典型的例子,一直到2020年左右,机器人上肢操作真正能做好的只有抓取东西这件事。它的复杂性使我们必须要借助最先进的AI力量。我从2015、2016年开始尝试用端到端的方法,现在用大模型的方法去做manipulation,AI的发展已经到了这个临界点。

杨一鸣:我们主要服务大型工业制造类客户,这两三年随着AI的发展,大家都知道要用AI和机器人,加上外部环境要发展制造业,工业场景的客户都非常明确的要部署自动化和机器人,这是对我们最大的利好。但是传统机器人公司的产品并不能直接拿来用,中间还有很大的鸿沟,很多客户会发现导入机器人进行精密操作非常难,这给我们在AI浪潮之下研发新的架构和产品提供了机会。

2024年AI硬件非常火,想和大家探讨一下我们距离想象中的AI硬件还有多远,是否来到突破点?

罗辉:做AI硬件要解决以下问题,第一,硬件有体积限制,一些高端芯片的成本和体积不适用于小型硬件,芯片算力支持方面存在挑战。第二,AI硬件对反应速度要求更高,需要及时反应,目前的硬件水平还达不到特别快的反应速度,所以AI硬件加大模型的落地还有一段路要走。

硬件是中国很擅长的领域,国内发展AI硬件有优势,产品很多样化。我们先从相对简单的AI硬件做起,现在性能已经不错,成本也降的比较低。

姜哲源:如果让机器人领域的AI硬件走进家庭,目前主要的问题在于如何让机器人泛化的完成操作任务,要实现这个目标,需要海量的演示数据以及一些样本效率更高的算法,距离这个突破还需要一些时间。

王潜:Scaling Laws已经在具身智能上发挥作用,不管是数据和模型。尽管我们还有很多路要走,但是已经可以把学术问题工程化,并通过商业化的方法解决问题,要逐渐把数据做大、模型做大,把工程做好,在此过程中我们能看到AI硬件的提升和飞跃。

有些机器人的水平已经超出人能做到的事情,但还不能脱离人的控制,不管是通过预编程还是人做遥控操作。机械臂或者机械手在有人类控制情况下,可以做到什么水平,这是短期内能通过AI实现跨越式发展的部分。

杨一鸣:AI硬件可能很快可以ready,至少满足相对简单的泛化机器人的操作能力。对于人型机器人的硬件,大模型带来了提升,但是在传感器、动力、电池等方面还有很多挑战。比如电池是否可以支撑人型机器人长时间的运动,电机是否支持把几百公斤硬件弹起来等。这些是材料、能源、化学等领域的问题,综合起来才能把机器人物理层面的性能做到接近人类。

具身智能层面主要存在哪些卡点,如何应对?

罗辉:具身智能对算力的要求比较高,未来可能会出现生物芯片,或者类似算法从RNN改进成Transformer,从一维变成二维,未来应该还有基于三维的新算法,从而获得更高的处理速度。

此外具身智能要联网,有很多数据库不可能全部存放在硬件里,比如航班和天气资讯,必须联网获得数据。同时需要反应速度,所以要在本地有一个小一点的大模型。我认为在两三年内可以实现在硬件产品本地芯片上跑的百亿参数级别模型。

王潜:在应对算力问题方面,可以把一些比较小的模型从大模型里提取出来,部署到相对有限的算力资源上,用几十亿甚至更小参数的模型,达到以前上千亿参数模型的水平。自动驾驶也是一样。自动驾驶提供了非常好的算力芯片基础,它所使用的模型某种意义上也是从大到小、蒸馏和提取的过程。

并行度的挑战更多的是在系统层面。现在GPU主要基于批处理,但是具身智能更多的是流处理。流处理和批处理需要的系统和芯片有很大的不同,我们公司做了很多尝试,把批处理变成流处理,在流里面提供足够小的延迟,匹配我们机型的动作速度。传感器方面也在进步,硬件方面已经有很多准备和积累。主要的卡点可能还是在成本,成本是不可承受之重。

姜哲源:具身智能分为移动、导航、操作三个部分。我们目前的进展主要集中在移动和导航,这两部分在学术界和工业界有比较可行的技术和清晰的落地路径。

我觉得卡点主要在于操作和泛化性,分为三个维度。第一、任务层面的泛化,比如机器人会了10个任务,第11个任务是不是直接能做;第二、操作物体的维度,会叠10件衣服,第11件衣服是不是不用学就会;第三、不同场景的泛化,比如机器人在一个家庭里做某件事,到另一个家庭是否可以执行。

第一个维度不是目前考虑的重点,第二、第三维度是具身智能比较大的卡点,要完成这两种泛化能力,需要为机器人提供大量在不同场景下、针对不同物体的操作数据,这些操作数据的采集成本高,而且周期比较长。我们目前看到的很多视频是基于遥操作拍摄的,人在旁边操作,只录机器人;还有一些是针对特定场景拍摄的机器人自主完成任务的视频,真正能够实现泛化的操作其实比较少。

但是最近有一些学术界的成果,让我们看到这个领域的曙光。学术界正在探索如何大幅提高数据采集的效率,降低采集成本,并让算法从学术界走向规模化,所以我们对具身智能未来发展是非常乐观的。

杨一鸣:应用场景要回归到商业的本质,很多机器人的应用场景不需要做到像人一样灵巧,传感器的力度不需要特别大,比如简单的家政、服务业。这类机器人结合AI的快速发展,未来会有很多应用场景,尤其在C端和服务端。

但是在制造业,机器人大规模应用的前提是要匹配严格的生产需求,并且满足降本增效的商业本质,这部分可能需要机器人公司和客户之间更长期的磨合和共同推进。