以下文章来源于知乎

https://www.zhihu.com/question/633405498 人形机器人的落地场景到底是什么?
问题引入

自从tesla放出optimus bot人形机器人的预告,各大厂商纷纷入局,新势力有推出铁大机器人的小米,有具有丰富机器狗开发经验的宇树科技等等,也有一些老牌企业,比如优必选和达闼。

那么问题来了,目前来看从各家的广告中体现出来的实际场景大多数都是以家庭服务为主,这种情况下一些简单的活动似乎不需要如此复杂的集成体,再以工厂化机器人为例,在工厂中,机械臂转移物体或者单点作业以及自动导航的AGV负责运输足以满足目前的自动化需求,为何还需要一个效率低下的机器人呢?着实不明白这些场景对于机器人的刚需。

个人观点是人形机器人的刚需场景仍然是特种服务领域,因为在这个领域危险系数太高,人形机器人的存在可以大大降低该领域人员的牺牲率,或许Boston Dynamics坚持的才是最正确的道路?

各位大佬怎么看待这个问题呢?人形机器人的最终落地场景到底是什么,欢迎大家积极讨论。

来源一:常世万法仙君

我劝大家多想想,有点想象力。为什么,人形机器人之前不温不火,gpt火了之后,人形机器人也跟着火了?波士顿搞了多少年的机器人,连养活自己都困难,这有是为啥?

因为,人形机器人最关键的是,通用性。现在的特化机器人的确很强,但是每次出一个新需求,都要专门设计,编程。这就好像曾经的雕版印刷术一样。然后一个需求可能也就维持一两年,又得重新设计。这么干,还不如雇佣人力。人力,就好像活字印刷,随用随取,普通的工作,一个初中学历的人类,训练一个下午就可以开工了。

人形机器人的卖点,其实关键不在人形,而在于智能。在此之前,波士顿你就是搞出花来,自由度再高,也要人操控。那我为什么不直接雇佣一个人?就为了那非常少的细分高危领域?但是gpt出来之后,具身智能成为可能。人形机器人可以不需要遥控器了。假以时日,用语音直接给机器人下命令就可以了。培训机器人的成本,低于培训人类的成本。这就意味着,几千万上亿的蓝领工人,全部,同时,失去比较优势。这也意味着十万亿甚至百万亿级别的市场。有了这个前景,风投们才会涌入。

所以大家与其关注人形机器人的突破,不如关注端到端的具身智能突破。其实目前gpt4来看,我们的智能上限已经溢出了,绝大部分具身智能,不需要大学生的水准。我们缺的是对齐技术和数据。这些都需要砸钱和时间。我觉得具身智能的gpt时刻,应该快到了。乐观估计的话,具身智能的openai公司已经出现,只是我们不知道是哪个。也许明年今天,就会迎来gpt时刻,然后开始指数增长。

来源二:常世万法仙君

我认同题主的观点,工业机器人根本不需要人形,那怕是关系结构变化的情况下,取代人类简单劳动的也应该是专业的工业机器人,人形机器人的拟人化用来进行取代人类进行简单劳动反而是一种舍本逐未买椟还珠的浪费行径。

人形机器人我认为的唯一用途就是搭载AGI,创造一个新的人造智慧物种,用以完成人类的的心理和社交需求或者进行复杂劳动,而这个路从技术上来说都是任重而道远,下面的是我在其他回答下的内容,我直接粘过来了:

材料

机器人的主体骨架材料选择并不难,铝合金比人体骨骼要强度更高但重量增加并不算多。但表层皮肤存在技术困境,如果想实现最终设想的AGI人形机器人,那表皮就要具备生物的同等功效,如压触觉、光、温度感知以及温度控制,好消息是这个倒是实现了[1][2],坏消息是只是实验室实现力、了:还没有产品。

供能

这个主要是储能设备技术问题,得益于电动汽车发展,电储能技术还是在快速推进的,固态锂电池+质量能量密度目前看到过最高的是720Whg,体积能量密度大概1700Wh儿,但可惜这也是实验室实现。我们武断的假设下机器人内可以给电池用的空间有20L,那大概能有 34kWh 的电,不算多但也还好。

姿态控制

人体拥有244个自由度,而目前主流的只能达到60,自由度越高姿态控制越难,且全驱动器对于244个自由度来说恐怕难以实现,如手指高灵活就要依靠线束驱动。[3] 波兰的Clone倒是完全通过肌肉模拟搞了一个机器人[4],但却是用液压的,液压系统这个东西太重也太难维护,我不太看好液压前景,且目前没有更多的视频发布,效果还不好说。

认知决策

这部分是我最悲观的部分,我们在将Model搭载到机器人之前必须要做到多模态的完全实现,我拆成实现和硬件两个方向来解释:

1、实现:现在大厂巨头们的主要精力是放在了视觉和文字多模态上,多模态主要可以理解有三种实现方式。

晚期融合:我认为是一种最商用最廉价最方便吹牛逼骗投资的实现方式,但对于人形机器人来说无意义,简单的说就是先用专门的模型将非文本模态转换为中间表示(如字幕、标签、描述),然后交由LLM处理。这是一种晚期融合,LLM本身不直接处理原始视频/音频,而是在这些模态已被“翻译”成文本后再进行推理。这个问题也是显而易见的,信息丢失非常严重。

中间融合:这个方法还有个叫法是跨模态注意力融合,本质上算是一种对于成本的妥协产物,在中间的某几层设置门单元来引入图像的某些特征,问题也还是比较明显的,融合深度还是比较浅,信息没有完全加入到推理过程。

早期融合:在一开始就把多模态的信息通过不同的模块的embedding,然后扔进同一个Transformer里,这是一种信息融合程度非常高的方式,它的推理成本也已经很高,而模态割裂还是存在。性价比上算高不成低不就,因为后面有一个训练成本和推理成本都高不可攀,但却原比早期融合更具有未来和颠覆性的统一架构。

统一架构:应该算是AI的未来,所有的多模态信息全都经过同一个embedding,token格式完全同,对统一架构来说不存在多模态的模块概念,对信息之间的关联感知更彻底,属于是理想状态下的最后结果,但它完全无法使用现有模型,必须重头训练,所有信息高耦合,接入新模态也要重头训练,而且多模态完全融合,处理连续模态时上下文token数量会爆炸,AI这个东西试错成本很高,小厂也玩不起这种统一架构的东西,所以我印象里也只知道meta和微软分别搞了Transfusion、Kosmos-2这两个实验性的东西,也还只是图文双模态的。

2、硬件:说完实现后这个我不太想提了.…参考下目前LLM的CoT模型消耗,现在的应该是做不到在可移动设备上部署统一架构模型和完美时实推理的。对于只是想单纯的卖概念拉投资,那确实现在就可以实现所谓的“人形A!机器人”,走晚期融合呗,语音转文字,声纹特征码存sqllite;图形识别,面部特征码存sqllite;短期记忆扔RAG,长期记忆走定期Lora微调;然后搞个单独的预处理模型把多模型输入格式化然后扔给真正的逻辑处理模型。但这种东西没什么太大的意义,它不是我们所期望的那种能与人一同成长的AI新人,如果非要说这种方式的实际应用场景的话,可能是春水堂吧....

参考

多层软电子器件自愈材料论文 https://www.science.org/doi/10.1126/science.adh0619
电子表皮论文 https://www.science.orgldoi/10.1126/science.ade0086
一个做的人工肌肉的公司 https://www ewsium-ropotcs.com
clone https://m.ofweek.com/ai/2024-12/ART-201721-8420-30654363.html
来源三:蓝柿子

更新自10.12.2024马斯克的We,Robot之后。所有的manipulation全都是teleopreated的结果同时所有的manipulation也都可以被parallel jaw-gripper完成。基于mocap的pipeline是不可能达到dexterous manipulation,Optimus在这条路前途未卜,尤其最后展示的24DoF的灵巧手,模仿得越像人越错

目前人形机器人骗融资的成分很大。

在规范的场地下(例如工厂,家庭等)首先轮式可以满足几乎90%的场地需求,为了剩下10%去开发足式得不偿失。Locomotion本质就是提供移动能力,manipulation这些做不好,又有什么用呢?其次即便在需要足式的地方,四足步行算法的稳定性和泛用性远超双足,在做野外巡检等对manipulation几乎没有要求的地方,我看不到双足的必要性。所以双足在一个很尴尬的地方,不是长得像人,才能做人事(很多人对这一点有很深的误解,说明对机器人的理解还局限在科幻作品里),不是所有人都需要跑酷和跳舞,Boston Dynamics的老大Marc Raibert在去年ICRA的演讲上都没怎么提他们的Atlas,反而说了不少关于Stretch的事情,Stretch就是一个AGV地盘+机械臂,但是能做工人搬运的事情。

其次,操作任务上,双臂+双指gripper也能覆盖绝大多数的任务,目前还看不到仿人手独占的任务有多么重要和关键(aloha系列充分说明了双臂双指的系统的潜力完全没有被开发完),更何况国内所有的人形机器人的灵巧手都没有给出真正的灵巧操作。自由度高不代表灵巧,你的脚有5个指头有>10个自由度,难道它就是灵巧手了吗(这个从别处听来的例子有些偏激,但是可以参考)?只有能完成灵巧任务(比如手内旋转一个方块)才是灵巧手,但即便有了灵巧手又如何呢,同双足一样,花了很大的代价去满足剩下的10%,但是前面90%又没开发完全,其至还差的远(在不看速度的前提下,可以自己尝试只用大拇指和食指完成一天的任务,看看需要剩下三个指头才能做的场合到底有多少)。

最后,马斯克在可回收运载火箭上的成功不代表在人形机器人上可以同样复刻,衣服的demo用的还是manus的动捕手套做的遥操作,现阶段营销的成分很大,但是这显然影响了一众人对人形机器人未来前景的判断,以怕错失可回收火箭的心态怕错过人形机器人这一波潮流。尽管我作为从业人员希望更多人往这个领域砸钱,这样我吃饭吃的更香,但实际前景还遥不可及。复用范志毅的话是,务实一点,我劝你们,先把轮式双臂的这个理念先搞懂。

观点略微偏激和消极,可以友好的用合理的论据论证来跟我互动。