难住特斯拉机器人的自主叠衣服问题到底是什么？|人形机器人|动作|叠衣服|埃隆_马斯克|智能体|特斯拉机器人|算法

大数据文摘受权转载自机器人大讲堂

前段时间“擎天柱”人形机器人叠衣服的衣服火爆全网，事后被指出实为与斯坦福机器人做家务类似，主要通过遥操作系统实现，马斯克也承认机器人自主叠衣服尚且需要时间。

那么，家务活这件事为什么一直困扰着机器人行业？机器人真正能够端对端自主帮我们做家务还需要具备哪些条件？

家务活的难关

做家务活不只是机器人的难题，也是人工智能落地的挑战。

之所以难度较高，首先是因为家务场景处在一个非标程度极高的环境中，每天任意角度堆放的衣服、各类新物品不尽相同，其次人类例如衣物等物品，具有形变特征，也就是布料多种多样且大多非常柔软，一旦受到外力推动或者移动，非常容易变形，优衣库的一项研究更是指出，人们还需要对不断变化的季节性服装进行分类，服装的色调也越来越多样，包装形式也各不相同，所以无论是产线还是家庭，服装的处理都是难题。

这导致了任务的多样性、真实性，任务的主观预期和隐藏含义很难界定和预测。可以说简单一个机器人叠衣服任务中，包含了机器人识别和分类、理解和模拟、适应性和灵活性、安全性和可靠性等多元化的挑战，同时，还需要考虑经济成本和市场需求等因素，因此，目前机器人叠衣服的应用还处于探索和研究阶段，尚未得到广泛应用，马斯克叠衣服视频一出引起轰动但是很快被人戳穿的原因也正在于此。

人对于这类任务的处理，主要源于知识和经验的积累。例如小时候大人“教过”、“做过”、“受伤过”的经历经验，导致人对于这类陌生任务就有着先验性。在人类的这种认知“元能力”下，就能根据看到的东西初步推理判断，而无需依赖于经验总结，并快速在复杂的环境中自己探索出解决随机和非结构化问题的合理方案，可以安全地与环境交互，同时高效地完成任务。

这对于传统的编程机器人就是不太可能完成的领域。在产线上，优衣库曾尝试将机器人按照程序布设到产线上，但很快面对面料形态难以固定的问题。机器人抓起一块棉布，但由于机器人的手臂通常很难处理松软而柔韧的面料，A-B点移动的时候棉布滑动，下一个加工的轨迹就已经出现偏移，同时，机器人很难将两块布料精准对齐并进行缝制。

在家庭环境中，人类同样不可能针对每个家庭，都单独定制开发一套符合其家庭环境布局的程序。所以大模型和强化学习算法是目前解决这类复杂控制任务问题的主要方式，也就是让机器人能根据环境、产品，从零开始学习复杂控制任务，自主生成更贴合环境的编程运行代码，然后自主进行柔性物体的处理。

主流研究方向的变化

在2021年以前，全球例如伯克利、佐治亚理工学院、Deepmind等前沿团队的主要研究方向是通过在一些离散环境中零样本学习和强化学习算法，训练一种多元功能协作智能体，让机器人掌握一种类似人类的先验知识处理元能力，从而使得机器人不依赖于编写好的程序，能从目标结果推导过程形成程序，找到合适的解决办法。

主要方式就是通过一个小样本程序，让机器人借助深度视觉不断采样环境和样本真实数据并形成数据集，再将这些数据训练算法小模型，视觉算法模型根据分割图像形成特征标记，最后配合机器人进行数据和动作策略代码的验证，并反复进行该过程训练校正，让智能体最后学会如何用最少的先验知识来解决复杂问题。

例如伯克利推出了一个深度学习模型Dex-NET，基于角点检测和抓取策略，教机器人从垃圾桶中拾取原本看不见的物体，就需要通过摄像头采集深度图像，形成模拟数据集，再利用该数据集训练质量卷积神经网络(GQ-CNN)，对物体进行图像分割，确定抓取尝试成功的可能性，最后形成抓取成功概率最高的策略，再对夹持器关节进行实时精密控制，从而完成铺床单等艰巨任务。

例如Deepmind则提出了一种新的学习范式“辅助调度控制SAC-X”，来帮助机器人学会整理桌子和堆叠衣物。SACX是一套通用强化学习算法，相当于人类开始学习行走前的基础平衡能力以及身体协调能力，即一个智能体学习并掌握的基本技能（元能力），借助这套技能不断训练机器人分辨堆叠模型，从而最终构建一套零样本学习控制方式。

而乔治亚理工学院此前一篇论文以贝叶斯方式学习布料的潜在特征，尝试将布料引入非线性降维技术流形相关确定(MRD)学习框架从而教机器人学会穿衣服，他们发现这可以避免过拟合问题维潜在流形上，形成特定于任务的布料模型。因为衣服的布料材质各不相同，穿衣服的动作也无法遵循特定的运动轨迹，会和布料产生复杂的交互变化，因此机器人通过动作捕捉来的数据不断练习，对各个子任务（拽起边缘、扯平衣角等）进行模拟和优化，在不断变化的环境条件中学习到稳定的创意控制策略，最终完成了穿不同衣服的任务目标。

可以发现，在原先的研究中，大多时候都是针对单一任务尝试建立一个通用预测模型，先是帮助机器人自主学习和掌握很多通用基础技能，在此基础上加入增强学习机制，预测主人的意图和任务的共性，并根据“偏好优化模型”推断出最优解和隐藏错误条件，从而可以在此基础上进行简单泛化，帮助机器人举一反三执行广泛的任务类别.

如今，使得很多原先需要依靠小模型小样本学习的方式，变为了借助多模态神经网络融合实现，这种集视觉、触觉、运动、关节控制等为一体的大模型技术，能够解决更加复杂和多元化的问题。因为该技术能够通过学习大量数据和知识，理解更复杂的概念和语义，从而提高机器人对人类指令的理解能力。例如，大模型可以帮助机器人理解更复杂的指令，如“整理书架上的书”，而不仅仅是简单的动作指令。

在此基础上，研究者还在优化大模型的决策能力和学习、环境适应能力，提升精度和鲁棒性，提升机器人对于任务的拆解和执行过程，从而提高任务效率，例如Google的思维链技术就极大地增强了大模型的推理能力，而 GPT-4的Reflexion 更进一步赋予大模型自我反思的能力，实现了多种模型的融合泛化。

最近瑞士苏黎世联邦理工学院最近的一项研究中，借助图神经网络（GNN）的模型通过收集大量合成图像和在真实环境中捕获的布料图像进行预训练，已经让机器人能够有效判断整个布料的形状、位置和可见度，距离大模型在家务活上的落地更近了一步。

结语与未来

有数据显示，一个普通人一生中会花费 750 天的时间来洗衣服，叠衣服则需要花费 375 天。而对于大多不喜欢做家务的科学家来说，攻克叠衣服这件事不仅仅是学术梦想，更是现实所需，而家务的操作环境比起工业机器人、电子游戏等，都更加松散，充满变化，也容易为大众所理解，社会效益和营销价值双丰收。

此前马斯克视频的火爆也同样基于此，想象一下，每天回家，机器人都能够将常规的衬衣、裤子等衣物，以及毛衣、袜子、内衣或者其他类型的不规则状衣物折叠整齐，并对衣服进行熨烫，同时还会对衣物使用芳香剂，最后将这些衣物挂在搭配的衣架上，最重要的是这些机器人更加灵活，不会发出类似洗衣机或者烘干机的噪音，这种美好的图景无疑能够拉升企业的外在形象。

在大模型的基础上，人们正尝试在例如工业、家务、语言等垂直领域，融合出一个具备更强先验能力强的机器智能体，从而在不需要过多指导的前提下，执行一系列任务，并且低成本、高适应性、灵活地完成工作任务，解决那些现在只有人才能解决的综合性问题，提高自动化的安全性和工作效率，反过来推动零样本学习、少样本学习等技术的进步。

马斯克的人形机器人叠衣服视频为我们描绘了一个非常美好的前景，也展现了擎天柱人形机器人的柔性触觉能力，但机器人真正自主实现叠衣服，在软件算法上，我们要走的路或许还远。