2024年9月6日,深圳市美团机器人研究院(Meituan Academy of Robotics Shenzhen,简称MARS),在深圳大学城国际会议中心举办第四期MARS TALK,本期分享以“多场景机器人环境感知技术”为主题,邀请粤港澳大湾区数字经济研究院(IDEA)讲席科学家张磊,哈尔滨工业大学(深圳)控制科学与工程专业教授、博导陈浩耀,未来机器人(深圳)有限公司联合创始人、研发总监鲁豫杰三位行业专家学者,对物体检测、野外机器人、内部物流无人化3个主题进行了深度分享。

张磊老师认为,视觉感知是机器和物理世界交互的基础,他强调了视觉模型与语言模型在理解世界方式上的本质区别:语言模型作为一维结构,是娓娓道来的顺序结构,而视觉模型作为二维结构,其解码过程相对独立、齐头并进,不需要顺序依赖关系。这种区别意味着视觉模型能够并行处理图像中的信息,与语言模型的序列化处理形成鲜明对比。

关于本次报告的分享,张磊老师讲到从解码器的角度来看,开放检测对物体检测来说,首先是先检测bounding box,解决定位问题,第二解决分类问题,需要从闭集走向开集,第三是从物体中解码更多信息,如2D关键点、3D结构等。

关于定位问题,DINO算法是张磊老师团队在物体检测领域的一个重大突破,它通过改进传统的物体检测框架,实现了对复杂场景中物体的精准识别和定位。“DINO系列算法的核心在于它能够通过Transformer解码器的查询设计,将物体检测问题转化为一个更通用的视觉感知问题,使得机器人能够在开放环境中更好地理解和交互。”

张磊老师接着讨论了物体分类的挑战,特别是从闭集走向开集的重要性。他指出,传统的物体检测算法通常基于闭集的假设,即算法在训练和测试时使用相同的类别集合。然而在现实世界中,机器人需要能够识别和处理各种未知的物体类别,这就要求算法具备开集的识别能力。通过引入语言模型和视觉提示,使得检测算法能够超越闭集的限制,实现更广泛的类别识别。

通过语言提示,模型可以灵活地识别出用户指定的任何物体,即使这些物体在训练数据中未曾出现。“我们希望定义检测目标,不再是像闭集检测那样受限,通过语言提示,我们想检测什么东西,你只要给一个提示词,这个模型就可以直接能检测出来。”视觉提示重要性以码头场景为例,码头场景的bag与通用的手提包不同,是重达1吨的大麻袋,定义检测目标最好是用视觉提示。视觉检测的实际应用以数咖啡豆为例,研究人员能够在图像中快速识别并计数咖啡树上的咖啡豆,从而预估未来的产量。这项技术的应用不仅提高了效率,还为农业决策提供了科学依据。

在演讲的最后部分,张磊老师探讨了如何从检测到的物体中提取更多的结构化信息,如2D关键点和3D结构,这些信息对于机器人的精细操作和环境理解至关重要。人类的视觉能力一直是我们的天花板,从做视觉的角度来说,我们一直在追求现在的通用视觉能力能接近或者说匹配人类视觉能力。

陈浩耀老师首先指出了机器人在极端环境下作业的重要性和迫切性。无论是自然灾害如地震、火灾,还是深空探测等国家重大需求,都对机器人的自主性和适应性提出了极高的要求。他强调:“如何设计一种功能多样、作业智能、交互友好的自主机器人,是非常迫切的需求。”

陈老师详细为大家介绍了机器人感知技术在泛野外场景下面临的挑战。这些挑战包括外源性因素如光照变化、烟尘、雾雨等,以及内源性因素如地面崎岖、温度湿度影响等。他指出:“这些挑战性因素使得机器人的感知系统需要具备极高的鲁棒性和适应性。”

针对这些挑战,陈老师分享了他们团队的研究成果。

首先是光照空间动态下的视觉感知,其中包括自适应图像增强和在线图像质量预测。主动曝光控制适用于光照变化剧烈的环境中,如从暗处突然进入明亮区域,机器人的摄像头可能会因为光线过强而过曝,导致图像丢失重要信息。通过主动控制相机的光圈大小进行曝光控制,使得机器人能够在不同光照条件下保持图像质量,从而提高视觉感知的稳定性和准确性。

在烟雾弥漫的环境中,传统的视觉里程计可能会失效,对此他分享了新的视觉里程计方法(ETIO),这种基于红外的里程计能够在烟雾环境中提供稳定的定位信息,帮助机器人在复杂环境中保持准确的自我定位。

在实际应用中,机器人还面临动态干扰和算力受限的视觉感知挑战。即在动态环境中,如人群密集的场所,机器人需要在有限算力下实时处理和适应环境中的动态变化。在一系列解决方案中,比较简单有趣的是基于杆状物提取的动态环境定位方法,把静态的树或其他杆状物提炼出来做成一张专门的地图,用它来辅助做定位。

此外,针对野外机器人受限感知增强,通过机器人视角的主动控制,陈教授展示了云台视角规划、主动视角规划、全身规划等有效方法,通过工业、民用、救灾场景的应用分享,让同学们对野外机器人在极端环境下作业算法的先进性与必要性有更形象深刻的认识。

鲁豫杰老师的演讲展示了未来机器人在工业无人车辆领域的技术实力和创新能力,详细为我们介绍无人叉车技术如何通过解决导航、操作和调度方面的挑战,满足工业应用领域多样化需求。

与我们想象中内部无人叉车所应用的空旷、简单仓库环境不同,内部物流对导航要求提出多种挑战:工业环境通常复杂多变,包括狭窄的通道、反射性强的表面、以及动态变化的障碍物;货柜车装卸,对定位精度的要求需要达到毫米级别;成本敏感的应用中,可能无法使用高端的传感器或计算设备。在实际解决方案中,鲁豫杰老师提到,他们采用了激光雷达、摄像头、IMU等多种传感器的数据融合,以提高导航的准确性和鲁棒性。针对动态变化的环境,采用了实时建图与定位(SLAM),使无人叉车能够快速适应环境变化。为了提高安全性,开发了3D立体防护系统,整合所有传感器数据进行导航和防护处理。

由于无人叉车是一种散户的运营模式,会有各种各样的定制化需求:无人叉车需要处理各种形状、尺寸和材质的货物,如软包的棉花、颗粒等,这对操作的灵活性和适应性提出挑战;在高位货架存取等场景中,对操作精度的要求非常高,需要精确控制叉车的动作;地面不平、光照变化等因素都会影响操作的稳定性和准确性。鲁老师提到,他们开发了自适应控制算法,使无人叉车能够根据货物的具体位置和姿态进行精确调整。在复杂的堆叠操作中,利用视觉伺服技术实现精确的货物定位和操作。当操作失败时,系统能够自动检测并进行重试,以提高操作的成功率。

在实际工业应用中,如何在多台无人叉车同时作业的环境中,规划每台车的最佳路径以避免冲突是一个复杂的问题。仓储物流环境通常空间有限,这限制了无人车的运行和避障策略,实时生成的订单要求调度系统能够快速适应变化,满足效率和灵活性的要求。鲁老师的团队通过优化时间窗算法,提高算法效率,并自动识别与解决死锁,完成了工业无人车辆在厂内物流场景中的高效调度的通用化实现。

三位老师在圆桌环节对学生的未来建议,反复提及的关键词,是喜欢、热爱。张磊老师提到,做机器人行业,要选自己喜欢的、基础的问题,做影响更长远的研究,去回馈更多产业的人。陈浩耀老师提及,要对从事的行业保持信心,对其他行业保持好奇心,这是个多学科交叉的好时代,也是容易出成果的好时代。鲁豫杰老师回答,要热爱行业,去做实用性强、能落地的项目收获成就感。

总结三位演讲者的共性,在技术快速迭代的时代, 尽管面临的问题和应用场景日益增多,但他们一致认为追求通用解决方案是至关重要的。张磊老师说到,视觉大模型,大不是目的,通用是目的。现今行业应用的痛点与局限性是通常有100万个问题就需要100万个模型,用1个模型解决越来越多的问题,是视觉领域长期的目标与方向。陈浩耀老师提到,未来面临的挑战之一,是如何让野外机器人衍生通用人工智能。通用人工智能的应用发展方向重要性高、方便性强,现今只能在相对简单环境通用,如果衍生到野外机器人将是质的飞跃。鲁豫杰老师则提及,无人叉车领域目前不同的货物对应不同的算法,希望未来能做通用的载具检测以及精准位置评估。

机器人感知技术的发展,不仅需要理论研究的深入,更需要结合实际应用场景进行技术验证和迭代优化。通过本期MARS TALK活动,我们可以看到机器人感知技术正逐步从实验室走向实际应用,为各行各业的智能化转型提供强有力的技术支持。随着技术的不断进步,未来机器人将在更多领域展现其独特的价值,为人类社会的发展贡献更多的可能性。

美团无人机不断探索开拓城市低空领域

提升城市物流整体效率

助力智慧物流配送体系和智慧城市建设

更好地服务每个人