【科研播报】中国图像图形学会理事长王耀南院士团队：智能机器人关键视觉技术研究综述|世界人工智能大会|中国图像图形学会|人机交互|智能机器人|视觉技术

来源：市场资讯

（来源：中国图像图形学会CSIG）

编者按：2025年，“具身智能”首次被写入我国《政府工作报告》，成为国家培育的未来产业之一。具身智能是一种旨在实现“能思考、能感知、能行动”的智能系统。

具身智能作为推动机器人技术革新的核心驱动力，赋予机器人“感知-决策-行动-反馈”的完整闭环智能，这种智能并非预设，让机器人不再是机械指令的执行者，而是能像人类一样通过身体与环境交互、自主学习，从而成为有灵活适应能力的智能实体。智能机器人是具身智能最主要的应用载体和产品形态之一，人形机器人是智能机器人的一种高级形态，仿人的外形被认为是最适合在人类环境中工作、最具潜力的通用具身智能载体之一。一个典型的智能机器人系统包含视觉感知、决策、路径规划与控制四大模块。视觉感知充当机器人的“眼睛”，决策与路径规划构成机器人的“大脑”，控制技术则扮演机器人的“小脑”。本文从视觉智能视角出发，系统梳理了智能机器人在二维和三维视觉感知、决策范式、路径规划及控制策略的核心技术，并探讨了空间推理、端到端系统等未来方向。本文研究成果来自中国图像图形学会理事长湖南大学王耀南院士团队。

本文作为 Visual Intelligence 2026年第2期的封面文章发表，期望相关工作为智能机器人技术发展提供参考。

研究背景

智能机器人集机械工程、传感系统、人工智能和控制机制为一体，在制造、服务、医疗、教育和危险作业等领域辅助人类完成各种复杂任务。根据功能和应用领域，智能机器人可分为三类：工业机器人，服务机器人以及特种机器人。

为了赋予机器人上述智能行为，需要实现包含视觉感知、决策、路径规划和控制的综合智能系统。视觉感知使机器人能够收集环境数据，通过摄像头和其他视觉传感器识别物体、障碍物和相关特征，为决策过程提供基础。机器人根据感知信息分析任务需求生成适当策略，规划计算满足几何约束和安全要求的路径，最终控制生成连续的电机指令，确保在现实世界中准确稳定地执行。这种分层结构使机器人能够自主执行复杂任务，将抽象推理与实时物理交互紧密结合。实现这些层次的紧密集成和一致性仍然是智能机器人领域的核心挑战，尤其是在动态或不确定环境中尤为如此。

智能机器人关键技术综述

智能机器人系统通常包含多个核心模块，以实现自主感知、决策与行动。本文从视觉智能视角出发，把典型的智能机器人系统分为视觉感知、决策、路径规划与控制四大模块(见图1）。其中，视觉感知充当机器人的“眼睛”，负责采集环境与自身状态信息，包括视觉（如RGB/RGB-D相机、LiDAR数据）、力觉、触觉、听觉等多模态传感器信息；决策与路径规划基于感知数据进行任务理解、状态估计、行为选择和路径规划，构成机器人的“大脑”；控制技术则扮演机器人的“小脑”，将决策指令转化为物理动作，包含运动控制、驱动系统和末端执行器等。这些技术使得机器人不再是机械指令的执行者，而是能像人类一样通过身体与环境交互、自主学习，成为能够灵活适应的智能实体。

1）2D视觉感知技术的多样化演进

本章详细介绍了基于卷积神经网络（CNN）、视觉Transformer（ViT）和大语言模型（LLM）的2D视觉感知技术（图2）。CNN方法以较小参数量和低计算开销实现高推理速度，展现强大实时能力；ViT方法擅长全局推理，在复杂的图像识别和分割任务中表现优异；基于LLM的技术进一步拓展了开放词汇感知能力，使机器人能够理解更广泛的环境语义。然而，智能机器人技术也面临诸多挑战。由于环境场景的多样性，感知算法的设计和模型训练变得复杂；视觉传感器的性能、系统计算效率和决策规划模式也会影响任务的准确性和实时性。此外，动态环境中的干扰和不确定性因素也可能影响机器人系统的稳定性。

2）3D视觉感知技术的完整流水线

本章系统阐述了从3D成像、点云特征提取、匹配配准到检测分割与位姿估计的完整技术链条（图3）。传统方法计算高效但易受噪声影响，深度学习方法计算需求大幅增加，而NeRF等神经表示方法虽实现高保真重建但缺乏实时性。各模块相互依赖，早期误差会向下游传播，平衡精度、效率与可扩展性是未来3D视觉感知技术发展的核心挑战。神经表示新趋势如3D Gaussian Splatting（高斯泼溅）通过神经网络隐式建模场景，实现高质量渲染和重建，但在实时性方面仍面临挑战。

3）智能决策范式的多元化发展

本章对比了基于规则、博弈论、最优控制、智能优化、强化学习与数据驱动等六大决策范式。

● 基于规则的方法：优先考虑可解释性和效率但缺乏对新场景的适应性

● 博弈论方法：擅长建模多智能体交互但依赖强假设

● 最优控制框架：提供理论严谨性和最优性保证但需要精确系统模型

● 智能优化算法：通过启发式搜索为高维非线性问题引入灵活性

● 强化学习方法：实现动态环境中的自学习和适应性，但面临样本效率挑战

● 数据驱动方法：利用大规模数据捕捉复杂模式

实践中，这些技术并非互斥，混合策略可产生更鲁棒的决策系统。最新进展如RoboMamba采用Mamba状态空间模型实现线性时间推理，π0利用大规模预训练视觉语言模型实现跨任务泛化。

4）路径规划算法的优化演进

本章系统评估了从A*、RRT*等最优性保证算法到启发式、学习型规划器的权衡。

● 确定性方法：A*方法确保精确最优性但随问题规模呈二次增长

● 采样方法：RRT*、FMT*、BIT*等方法可以降低计算复杂度，实现最优性与效率的良好平衡

● 经典势场法：具有线性计算复杂度但缺乏全局最优收敛保证

● 生物启发式方法：以理论严谨性换取灵活性，解为近似而非可证明的最优

● 学习型规划器：从显式搜索转向数据驱动优化，缺乏经典渐进最优性但训练后可实现经验近优路径，在复杂或部分可观测环境中展现出强大潜力。

5）控制策略的多元化创新

本章全面梳理了经典控制、模型预测控制、智能控制、协同控制与人机交互控制策略，具体梳理如下：

● 经典PID控制：结构简单、参数整定方便，但难以处理非线性强耦合动力学

● 模型预测控制：通过滚动时域优化高效处理多约束多变量任务，在轨迹跟踪和容错控制中表现强劲

● 智能控制：相关方法中，模糊逻辑控制将语言规则纳入控制器设计，在模型不准确时仍保持鲁棒性能；人工神经网络用于非线性控制和参数自整定；深度强化学习使机器人通过与环境交互学习控制策略，在某些任务中甚至可超越人类水平

● 协同控制：通过分布式算法和共识机制实现多机器人系统协调运行

● 人机交互控制：通过柔顺机制和接近监测优先考虑安全性与直观性，实现物理安全与任务效率的平衡。

结论与展望

当前智能机器人视觉技术主要集中于感知和理解层面，如识别环境中的物体、分析人-机器人-环境之间的关系。随着人工智能技术和工业需求的发展，智能机器人需要在现实世界中进行全面的空间推理，包括理解物体的物理属性、基于环境和用户指令推断用户意图、确定机器人行为模式。空间推理方法提升了人机协作和操作在不可预测环境中的安全性，机器人必须预测潜在碰撞、评估间隙并实时响应空间变化。

尽管视觉感知、决策、路径规划和控制技术近年来发展迅速并取得了显著成果，但它们仍无法统一为机器人的端到端解决方案。传统的分离式解决方案中，每次交接都可能产生信息损失和误差传播。端到端系统学习从原始传感器到控制输出的直接映射，最小化这些中间误差和延迟。这些系统还可以探索感知模块难以捕捉的微妙传感器信号，以帮助机器人规划和控制，同时大幅缩短反应时间，这对动态任务和高速应用至关重要。

动态环境中的机器人需要快速决策且资源有限。轻量化的视觉感知、决策、规划、控制乃至端到端模型能够实现低延迟推理。此外，轻量级模型可直接在资源受限的嵌入式硬件上运行，这对机器人尤为重要，特别是对于微型机器人如医疗纳米机器人和小型无人机。使用轻量级本地模型还可避免云依赖，确保机器人的可靠性，同时允许机器人在本地处理敏感数据以保护用户隐私。

单个机器人只能处理简单且有限的任务。为应对现实世界中的复杂任务，需要开发群体机器人（Swarm Robots）。群体机器人利用分布式感知和共享态势感知比单个机器人更全面地感知环境。群体允许动态任务分配和去中心化决策，如果某个机器人失效，其他机器人可自主重新规划任务并重新分配角色，确保在危险或非结构化环境中的任务连续性。群体机器人协同规划与控制优化路径和操作，能够有效解决复杂问题并最小化能量消耗。

展望未来，具身智能与机器人技术将朝着通用化、轻量化、低成本、人机共生的方向发展。随着大模型技术的持续迭代、传感器与机械制造技术的升级，具身智能机器人将突破单一任务局限，向通用智能机器人演进，能适应更多非结构化场景；成本的降低将推动其走进千家万户与中小企业，实现全面普及；人机协同将更加自然、紧密，机器人将成为人类生产生活的亲密伙伴，深度融入社会运转的各个环节。

主要作者介绍

王耀南，中国工程院院士，机器人技术与智能控制专家，湖南大学教授，机器人视觉感知与控制技术国家工程研究中心主任，中国图像图形学会理事长，Visual Intelligence主编。

刘敏，湖南大学二级教授，湖南大学人工智能与机器人学院党委书记。国家杰出青年基金获得者，国家重点研发计划首席科学家，国家自然科学基金创新研究群体核心成员。研究方向包括具身智能、机器人视觉、模式识别与机器学习等。

石恒璨，湖南大学教授，岳麓学者，博士生导师，国家级高层次青年人才，湖南省高层次青年人才。主要研究方向为人工智能大模型、计算机视觉、情感计算等。

钟杭，湖南大学教授，岳麓学者，博士生导师，国家自然科学基金青年B类项目（原国家优秀青年科学基金）获得者，机器人视觉感知与控制技术国家工程研究中心研究员。主要研究方向为智能机器人关键技术与系统设计研究等。

彭伟星，湖南大学人工智能与机器人学院助理教授，机器人视觉感知与控制技术国家工程工程中心研究员。主要研究方向为面向大飞机复杂零部件的机器人自主三维测量。

论文信息

题目：Intelligent Robot Systems: A Survey from the Perspective of Visual Intelligence

作者：Hengcan Shi , Wen Liu, Zheng Li, Xinpu Fang, Xiangfeng Meng, Weixing Peng, Hang Zhong, Min Liu & Yaonan Wang

引用格式：Hengcan Shi , Wen Liu, Zheng Li, Xinpu Fang, Xiangfeng Meng, Weixing Peng, Hang Zhong, Min Liu & Yaonan Wang. (2026). Intelligent robot systems: A survey from the perspective of visual Intelligence. Visual Intelligence, Volume 4, Article no. 14.

全文链接：

https://link.springer.com/article/10.1007/s44267-026-00116-2

关键词：Robotics, Visual perception, Decision making, Path planning, Control

团队相关工作介绍

1. 情智兼备人形机器人

系统构成：情智兼备人形机器人集成了多模态感知系统（视觉、力觉、触觉、听觉等）、高性能运动控制算法和自然语言交互能力，实现了"感知-决策-行动-反馈"的完整闭环智能。机器人配备高精度视觉传感器实时捕捉环境信息，通过力觉和触觉传感器实现精细操作反馈，结合大语言模型理解复杂指令。系统搭载情感计算引擎，实时识别人类表情、语音语调及肢体语言等情感信号，并生成富有同理心的情感回应，实现真正意义上的"情智融合"。

核心能力：该人形机器人具备自主环境感知与理解能力，能够识别复杂场景中的物体、人物和空间关系；基于大语言模型的语义理解能力，支持自然语言指令交互；高精度运动控制技术使其能够完成行走、抓取、操作等复杂动作，并适应不同地形和环境变化。通过强化学习与数字孪生仿真技术，机器人可在虚拟环境中快速迭代学习，实现"虚拟训练-现实迁移"。同时支持情感感知与表达，精准识别用户情绪并主动调整交互策略，以温暖语音、肢体语言传递关怀，建立深度人机情感连接。

应用场景：可广泛应用于工业制造、家庭服务、公共服务等场景。作为具身智能的理想物理载体，推动机器人从"自动化"向"自主化"、"智能化"跨越，从"专用设备"走向"通用载体"。

2. 手术机器人

系统构成：具身智能手术机器人融合了视觉、力觉感知与精准控制技术，实现毫米级的微创操作。系统采用多模态感知技术实时捕捉手术环境动态变化，结合自主决策算法完成精密操作；通过视觉智能技术识别解剖结构和手术器械位置，力觉反馈确保操作安全性。

核心能力：具备自主规划手术路径、实时调整操作方案的能力，进一步提升手术成功率。医生可通过远程操控完成复杂手术，大幅降低手术创伤与风险，缩短患者康复周期。系统结合数字孪生技术，可在术前进行仿真规划和风险预判。

临床价值：弥补了医疗资源不均衡、人工操作局限性等问题，为手术治疗、康复护理等场景提供全新解决方案。在神经外科、骨科等精密手术领域具有重要应用价值，推动医疗健康领域的智能化升级。

3. 智能制造测量机器人

系统构成：以三维视觉引导为核心，集成了立体视觉、结构光、激光跟踪等多类型非接触式光学传感器，实现了从系统标定、测量规划、点云融合到特征识别的完整技术链条。机器人系统通过手眼标定技术准确确定扫描仪与机器人的相对位姿，保障多视角点云数据的高精度获取。

核心能力：具备复杂曲面构件的高精度自主测量能力，能够完成系统标定、主动感知路径规划、多视角点云数据融合以及三维点云几何特征识别。在核电叶片磨削、航空蒙皮铣边、工程机械等离子切割等高端制造场景中，实现了亚毫米级的加工精度。单机器人测量向多机协同测量拓展，通过通信、数据融合与路径规划，实现复杂曲面的全面覆盖与高效测量。

应用价值：广泛应用于航空航天、海洋舰船、能源装备、工程机械等领域。团队率先研制出国内首条航空发动机加工自动化柔性生产线、超大型水轮机加工自动化生产线、大型舰船螺旋桨加工自动化生产线等，成果应用于航空航天、海洋工程、轨道交通等国家重大工程，支撑了我国制造业转型升级与国防装备智能化建设。