PhyAgentOS:零代码跨本体迁移,从算法模型到真机部署只需几小时。
论文读了三遍,复现实验环境配了一周,真机上小车终于动了一下,然后不动了……
做过具身智能或机器人项目的人,应该都碰上过这种情况,马上心急火燎地开始上手检查,把所有配置文件都看过了一遍,发现是某个驱动版本不兼容。
好不容易解决了这个问题,再来一遍,小车这次坚持得长一点,动了两下。这次花了一小时,才找到是某段 ROS 节点没对上话题。
一天过去了,进度几乎为零。大家不得不连夜查 issue、反复重装环境。第二天同一套流程换到另一台机器人,又要从头踩一次坑,心态是崩了再重建,重建了再崩。
现在,救星终于要来了,中山大学HCP实验室这次重磅发布 PhyAgentOS,要把每一个开发者从可怕的“调参地狱”中拯救出来。
PyAgentOS已全面开源,欢迎算法贡献、机器人适配、文档完善和问题反馈。 GitHub仓库:https://github.com/SYSU-HCP-EAI/PhyAgentOS
01
这一次,让机器人开发回归“智能”本身
端到端 VLA 模型在demo视频里表现惊艳不?
太惊艳了!
我想把它部署到我的机子上,行不?
99%的情况就是,你就试吧,“试试就逝世”。论文一看就懂,真机一跑就废,单机部署只是一场简单的折磨,多个机器人在复杂场景中协同作业是“真正的地狱”。
所谓做具身智能,最后往往成了“具身调参”——调完模型调驱动,调完驱动调环境。每天不是在Debug工具链,就是在去Debug工具链的路上,活活把自己干成了“机器人接线员”:让驱动对上版本、让话题对上名字、让仿真和真机对上脾气。
为了解决这个问题,现在Physical Agent Operating System(PhyAgentOS)正式开源,几小时就能让机器人跑起来,从机械臂切到四足改个配置就行,多台机器协作跟拉群聊一样简单,每一步决策都摊在桌面上给你看。
几小时而非几天,从代码克隆到机器人动起来,全链路脚手架开箱即用; 零代码而非重训练,从四轴机械臂切换到四足机器人,只需切换配置而非重写控制栈; 群体协同而非单机孤岛:作为多智能体(Multi-Agent)的核心中枢,PhyAgentOS 赋予多机器人系统在实际场景任务中动态分工、无缝合作的能力,并在持续的物理交互中实现经验共享与群体自进化; 白盒而非黑盒,每一行决策都可追溯、可调试、可教学,让Agent 在想什么、为什么这么做变得肉眼可见。
看来,这不仅是一个具身智能体框架,更是一个“让物理具身本体真正跑起来,并让群体智能涌现”的开源操作系统。
Showcase!真机部署,开箱即用
PhyAgentOS 已在多种主流机器人平台完成真机验证,支持一键部署、零代码迁移:
Demo 1: AgileX PIPER 一键部署
无需编写底层驱动代码,通过hal_watchdog.py自动识别并加载配置文件,从开箱到首次运行可在数小时内完成。
Demo 2: 基于SAM3的自然语言抓取
通过自然语言指令"抓取桌子上的苹果",Agent自动解析语义、定位目标、生成约束并执行抓取。
Demo 3: 基于ReKep的约束求解抓取(Dobot Nova 2)
使用ReKep(Relational Keypoint Consraints)进行几何约束求解,实现精确的位姿控制,高效完成操纵任务。
02
核心革新:
从"端到端黑盒"到"协议化白盒"的范式转移
传统视觉语言动作模型(VLA)将感知、推理、控制压缩进单一神经网络,如同一个黑盒大脑——效果好但不可解释,迁移难且调试痛苦。PhyAgentOS选择了一条截然不同的路径:用结构化协议取代隐式神经网络。
"文档即接口"(Docs as API)的六层协议
PhyAgentOS定义了六层结构化协议,云端Agent与边缘硬件通过读写Markdown文件交互:
▪ TASK.md:全局任务黑板,用DAG编排多Agent协作
▪ ENVIRONMENT.md:场景图化的环境表征,解决"符号落地"难题
▪ SKILL.md:与硬件无关的抽象工作流(如"抓取"的通用状态机)
▪ ACTION.md:实例化的物理约束目标(而非具体轨迹)
▪ LESSONS.md: 过往任务执行的经验,帮助Agent从历史经验学习
▪ EMBODIED.md:硬件本体的"自我说明书",包含运动学极限
这种设计的革命性在于:云端LLM不再直接输出关节角度,而是生成几何约束与语义意图(如"保持杯口在容器上方")。边缘侧的约束求解器实时将这些意图转化为最优轨迹——这类似于自动驾驶领域的"决策-规划"分离,但PhyAgentOS将其提升到了系统架构层面。
图:PhyAgentOS架构图 - 认知层(Track A)与物理执行层(Track B)通过文件系统协议空间解耦
四层架构:模块化、可插拔、易教学
PhyAgentOS采用清晰的分层设计,每一层都可独立替换、快速迭代:
▪感知层(Perception)
从传感器获取环境信息,支持多模态输入(图像、文本、点云)。内置PerceptionService融合几何与语义信息,构建场景图写入ENVIRONMENT.md。
▪决策层(Decision)
统一接口接入OpenAI、Claude、Qwen-VL、Kimi等各大模型。Planner Agent理解指令并生成任务计划,Critic Agent独立校验物理可行性。
▪规划层(Planning)
将自然语言指令分解为技能序列,支持动态重规划。SKILL.md定义与硬件无关的抽象工作流,ACTION.md承载实例化的物理约束。
▪执行层(Execution)
通过极轻量框架(可部署于单片机或工控机)调用硬件SDK。hal_watchdog看门狗进程作为认知与物理的唯一桥梁,通过异步文件轮询实现时序解耦。
03
最重要的问题:PhyAgentOS适合谁?
答案其实很简单:所有想让机器人真正“跑起来”的人。
对高校教师而言,它是一套可以讲透“感知-决策-控制”全链条的教学利器。
告别过去一门课东拼西凑多套工具链的窘境,PhyAgentOS提供开箱即用的教学套件:清晰的代码结构、详细的中文文档、可视化调试工具——抽象的“Agent思维”变成了看得见的文档流,ACTION.md实时变化,学生不再对着黑盒发呆。
更重要的是,从仿真到真机的无缝迁移,让学生可以在几小时内看到机器人完成“整理桌面”这样的完整任务。一个平台,从课程设计到毕业设计再到科研项目,学生无需频繁切换环境,老师也不用再为“学生跑不通环境”而头疼。
对于研究者来说,PhyAgentOS意味着告别重复造轮子,专注真正的创新。
标准化的接口与评估工具,让新算法接入即可与现有方法公平对比;模块化设计支持即插即用,想换规划算法?改SKILL.md的生成逻辑就行。
约束求解范式带来的可解释性,让失败时可以精准定位“是哪条几何约束冲突了”,而不是在参数海里盲目调参。
甚至还有沙盒演进管线,Agent可以在隔离环境中生成并验证新工具,自动封装为系统能力,支持长期自进化——这不仅仅是框架,更是研究创新的加速器。
再看工程团队,PhyAgentOS扮演的是“具身智能中间层”的角色,上接多模态大模型,下接现有机器人与自动化平台。
几小时而非几周完成技术预研,快速验证“能理解任务、自主决策”的产品概念;真机部署无需昂贵的边缘算力,普通工控机甚至单片机就能跑起来;Multi-Agent Critic校验机制在物理执行前拦截幻觉动作,有效降低碰撞风险。
低成本、高效率、更安全,让具身智能产品从概念到落地不再遥不可及。
而对于硬件厂商,PhyAgentOS提供的是“开箱即用”的智能注入能力。
通过标准化的BaseDriver接口,快速完成硬件适配,无需从零开发上层智能系统;为客户提供统一开发框架和丰富示例,帮助他们基于你的硬件快速开发应用;加入PhyAgentOS社区,还能让更多开发者基于你的硬件进行创新,共建生态。
目前已支持的硬件包括AgileX PIPER、Dobot Nova 2、Unitree Go2、XLeRobot双臂系统等,Franka Research 3也在协议对接中——这个清单,还在持续扩展。
无论是教书育人、科研创新、产品落地,还是硬件赋能,PhyAgentOS都想做那个“让事情变简单”的角色。因为我们都清楚:机器人的未来,不该被配置环境、驱动兼容、工具链拼接这些琐碎拖慢脚步。
快速开始:三步让机器人动起来
代码块
# 1. 克隆仓库并安装依赖(一条命令自动配置)
git clone
https://github.com/SYSU-HCP-EAI/PhyAgentOS.git
cd PhyAgentOS
pip install -e .
# 2. 初始化工作区(生成Markdown协议文件)
python scripts/init_workspace.py
# 3. 启动系统
# 终端1:启动硬件看门狗(Track B)
python hal/hal_watchdog.py --driver simulation
# 或使用真实硬件驱动
# 终端2:启动认知Agent(Track A)
python PhyAgentOS/agent/main.py
▎仿真VS真机,这次不再对立
仿真与真机无缝统一,是PhyAgentOS最让人心动的一点。
你在PyBullet、Mujoco、Isaac Sim里反复调试、精心打磨的Agent,不再是只能活在虚拟世界里的“数字玩具”。现在只需轻轻切换一个--driver参数,智能就能立刻转移到到真实的机械臂、四足机器人身上,所有业务逻辑一字不改。
这意味着什么?意味着开发者可以在仿真中大胆试错、暴力迭代,把碰撞风险、硬件损耗都挡在世界之外,等到一切就绪,一键“下凡”到真机执行。
从此,“仿真只是仿真,真机还要重写”的噩梦彻底成为过去,真正实现一次开发,两处运行。
最后,展示一下PhyAgentOS处理复杂长程任务的demo吧
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
热门跟贴