智东西6月3日报道,在Computex 2026台北国际电脑展上,英伟达发布物理AI领域的多项进展,包括开源世界基础模型Cosmos 3、面向物理AI的智能体工具和Skills、自动驾驶推理模型Alpamayo 2 Super、闭环强化学习框架AlpaGym、动作条件世界模型OmniDreams等模型及工具,并发布工厂运营蓝图、端到端人形机器人工作流、开放参考人形机器人设计,全方位助力企业及研究机构将AI引入支撑世界运转的物理系统中。
英伟达还分享了许多合作伙伴的实践案例。比如Cadence构建了用于芯片设计验证的超级智能体,台积电将英伟达技术引入晶圆制造多个关键环节,富士康与和硕率先构建工厂经理智能体,多家名校及顶尖研究所将采用基于宇树H2 Plus的开放参考人形机器人设计来开展研究。
一、Cosmos 3:开源全模态基础模型,与Omniverse协同演进
英伟达发布了一款面向物理AI的开源世界基础模型Cosmos 3。
Cosmos 3是一个完整的全模态(Omni)模型,基于混合Transformer架构,指令、观测数据与动作共同流入自回归Transformer,该模型负责推理、规划,并指导扩散Transformer生成后续内容。
全模态模型是指能够处理视频、传感器输入、文本、声音、动作等多种模态的模型,这些模态均可作为模型的输入和输出,类似于人类和其他生物的认知方式,从多种感官接收输入,并能输出多种类型的结果。
该模型的核心目标是为自主系统构建世界模型,既可生成策略训练数据,也可评估策略,乃至直接作为策略本体。
Cosmos 3在物理AI各项基准测试中全面领先,是视觉推理、图像与世界生成、物理精确性及机器人动作生成等所有类别的第一梯队模型。
作为世界推理器,即视觉语言模型(VLM),Cosmos能够理解视频与文本中的场景并标记关键信息或做出决策。
作为世界模型,Cosmos可生成物理精确的合成训练数据。
作为仿真器,Cosmos在闭环中测试机器人策略,展示动作结果并预测后续状态。
作为世界动作模型,Cosmos可针对不同机器人形态进行后训练,并直接生成动作指令。
基于Cosmos 3,你可以开发自己的模型,比如微调出自己的GR00T或者其他想要的模型。
随着推理速度持续提升,Cosmos 3将覆盖从离线数据生成、策略评估到边缘端实时部署的全链路应用场景。
对于小尺度的机器人应用,比如电子元器件组装,仿真器有两种类型:一是以Omniverse为代表的传统物理仿真器,基于物理规则建模;二是像Cosmos这样通过预训练学习物理动力学的世界模型。
目前对于精细化灵巧操作所需的物理精度,现阶段世界模型尚难完全满足,原因在于相关预训练数据不足,缺乏充分标注,且未能覆盖所需技能与交互类型的全面域。
因此,Omniverse和Cosmos需要协同演进:Omniverse提供物理基础,并生成现实世界数据难以获取的仿真场景,反过来供给Cosmos训练;随着时间推移,Cosmos将积累所需的物理动力学知识。
Agile Robots、Black Forest Labs、Generalist、Ltx、Runway、Skild AI等全球顶尖AI实验室正加入Cosmos联盟(Cosmos Coalition),共同推动下一代模型的研发。
二、开源面向物理AI的智能体工具和Skills,帮EDA公司构建芯片设计智能体
智能体需要模型、Harness、工具、Skills和运行时。英伟达的物理AI平台Omniverse、Metropolis、Drive、Alpamayo、Isaac和Cosmos全面具备智能体就绪能力。
Jetson平台也已实现智能体就绪:开发者可通过一条命令部署NemoClaw,通过Jetson AI Lab运行最新开源模型,并使用新的Jetson Linux定制、内存优化和模型基准测试Skills工具。人人都可以成为Jetson开发者,将自己的智能体部署至边缘端。
英伟达在GitHub上开源了数十种新Skills和工具,帮助开发者利用编程智能体充分发挥CUDA-X加速数据生成、仿真和训练基础设施库的能力。
任何产品在制造之前,都需经过仿真和验证。编排这些工作流可能耗时数小时、数天乃至数月,严重制约了设计探索的效率。
英伟达正在协助Cadence、达索系统、西门子、新思科技等企业,基于英伟达NemoClaw平台构建安全、自主的工程师智能体。
例如,Cadence正在构建用于芯片设计的超级智能体,可自动化RTL验证循环,实现40倍的速度提升,将原本数周的工作压缩至数小时。英伟达芯片设计团队将大量引入此类工程师智能体。
三、台积电用英伟达技术优化计算光刻、工控、检测、晶圆厂运营
全球最大晶圆代工厂台积电不仅是英伟达近三十年的重要合作伙伴,还是英伟达的客户。
台积电通过在计算光刻、模拟仿真、工艺控制、检测、晶圆厂运营优化等环节运用英伟达的加速计算和AI技术,来优化自身技术和制造能力。
比如,在芯片设计领域,用于光刻的GPU加速库cuLitho将计算资源从逾40000个CPU压缩至仅需350块Blackwell GPU,成本和周期时间削减近一半。
在材料科学领域,GPU加速的电子结构模拟库cuEST平均可将半导体材料设计的化学模拟速度提升50倍,使新材料的发现从数天缩短至数小时。
在晶圆厂,cuML机器学习库使得台积电能够提升算法运行速度,显著降低工艺偏差。
台积电正使用英伟达Metropolis平台和TAO工具包将AI模型引入缺陷检测环节,通过运用视觉AI技术,提高纳米级缺陷的检测能力。
此外,台积电正探索NVIDIA Omniverse库构建虚拟晶圆厂环境,提高规划效率。
四、打造“AI工厂经理”,顶层智能体统管工厂里的各种智能体
在工厂内部,物理AI智能体已成为新一代运营经理。
大多数工厂仍在运行孤立的系统,停机会导致制造商每年损失约1.5万亿美元。
英伟达工厂运营蓝图(Factory Operations Blueprint,FOX)是一个构建和部署工厂经理智能体的参考设计。
这些智能体连接孤立的工业系统,并协调质量检测、流程管理和物料搬运等专项智能体团队。
它是一个“智能体的智能体”架构,即顶层智能体统一管理工厂内运行的各类子智能体,涵盖质量检测、流程合规验证、工人安全等场景。
以设备管理为例,传统方式下,多个子智能体监控设备告警,但无法进行根本原因分析。工厂经理智能体则可整合多源数据开展根因分析、联动系统加速告警响应、查询数据库调取操作规程并制定行动方案,将原本孤立、低效的流程自动化串联。
富士康与和硕是首批构建FOX智能体的企业,FOX帮助它们将问题解决速度提升70%、设备正常运行时间提升30%。
五、开源自动驾驶推理模型、自动驾驶策略训练框架
机器人时代已经到来。自动驾驶汽车是全球首个实现量产和大规模落地的机器人形态,英伟达在这一领域已深耕超过十年。
NVIDIA DRIVE是面向全类别自动驾驶汽车端到端平台,包含用于推理的Alpamayo开放模型、用于仿真和数据生成的Omniverse、Newton和Cosmos,以及用于车载计算的Drive AGX。
其核心是DRIVE Hyperion,一个基于NVIDIA Halos安全系统构建的L4级自动驾驶出租车模块化硬件平台。
Hyperion平台在架构层面已具备L4级能力,冗余电源、冗余转向、冗余计算、满足L4要求的传感器配置均已到位。
在Hyperion平台层面,英伟达通过架构设计实现冗余:如果某台计算机故障,备用计算机会接管;传感器采用多元冗余设计,摄像头失效时有雷达和激光雷达作为备份,且备用ECU拥有完整的360°视野,确保车辆始终能将乘客安全送达。
在软件层面,英伟达采用混合技术栈——Alpamayo模型与经典Halos技术栈并行运行,形成多样性冗余。英伟达也为希望自建技术栈的客户提供Halos安全分析服务。
Alpamayo是一款让汽车能够“思考”的自动驾驶模型,不到6个月就从Hugging Face获得了近50万次下载,并获得车载技术与智能座舱类别的Computex最佳选择奖。
新推出的Alpamayo 2 Super是一款开放自动驾驶推理模型,拥有320亿个参数,架构更灵活,支持多种摄像头配置(双摄、四摄、六摄),也可接入导航输入,覆盖推理、规划、标注和评估。
该模型的定位有两个重要方向:一是作为教师模型,用于蒸馏车载推理模型;二是部分客户考虑将其作为遥操作模型(即远程接管模型),部署于后端,从而拓展应用场景,同时提升性能与功能性。
英伟达还推出一个用于自动驾驶汽车策略训练的开源闭环强化学习框架AlpaGym,模型在其中以动作影响后续状态的方式进行闭环仿真训练。
Alpamayo 2 Super与AlpaGym共同为开发者提供迈向L4级自动驾驶的开放基础。
OmniDreams是一个基于Cosmos构建的、用于闭环自动驾驶场景生成的动作条件世界模型,可大规模生成稀有、逼真的长尾驾驶场景。
六、联手宇树科技,降低人形机器人研究门槛
NVIDIA Isaac GR00T是一个开放式机器人开发平台,提供从机器人计算到开放模型、仿真器和数据管道的全栈支持。
当前人形机器人开发流程极为碎片化。对此,英伟达推出一套全新NVIDIA Isaac GR00T端到端人形机器人工作流,让团队可在数小时内完成原本需要数周的部署。
整个流程涵盖:在Isaac Lab中搭建仿真环境、在Isaac Teleop开源框架中采集人类示范数据、借助Omniverse和Cosmos生成数据、训练GR00T模型、在Isaac Lab Arena中评估策略,并通过Isaac ROS在Jetson Thor上开发和部署经过验证的Skills。
每个模块均可独立使用,可以采用英伟达技术栈,也可自带组件。
在人形机器人底层软件和固件层面,英伟达正与OEM生态伙伴合作,确保整个系统从上至下完成验证,并符合严格的网络安全和网络安全标准。
具体措施包括加密签名驱动、明确的版本回滚机制、气隙隔离设计等,确保设备上的数据和遥测数据在未经开发者许可的情况下不会离开设备。这与自动驾驶汽车所适用的安全标准体系一致。
当前缺少的是机器人本体本身。
能够胜任真实工作的前沿人形机器人,几乎无法触达大多数研究者,要么成本过高,仅顶尖AI实验室才能负担最先进的硬件,要么硬件本身并非为工业规模任务而设计。
英伟达推出了首个基于英伟达Jetson Thor和Isaac GR00T平台的NVIDIA Isaac GR00T开放参考人形机器人设计。
该参考设计集成了宇树H2 Plus人形机器人、Sharpa Wave五指灵巧手、英伟达Jetson Thor处理器以及Isaac GR00T软件和工作流程,并预装了英伟达GR00T 1.7人形机器人模型,开箱即用。
机器人身高约1.83米,体重约68公斤,专为工业任务设计,内置RGB头部和腕部传感器,具备人类尺度的运动和操作能力,支持高精度感知与精细化灵巧操作,机械臂峰值有效载荷为15公斤。
具体包括:
- 宇树H2人形机器人底盘:身高近6英尺,重150磅,全身有31个自由度,用于人体尺度测试。
- 双Sharpa Wave触觉五指灵巧手:可实现22个自由度的灵巧操作,使机器人在身体和手部达到75个自由度。
- 多视角传感器:包括一个头戴式立体摄像头(水平140度,垂直102度),用于近距离操作的腕部摄像头,以及一个用于运动跟踪的惯性测量单元。
- 全身控制:机械臂扭矩高达120N·m,腿部扭矩达360N·m,机械臂额定有效载荷为7公斤,峰值有效载荷为15公斤,举升和伸展能力更强。
- 英伟达Jetson AGX Thor T5000板载计算:配备NVIDIA Blackwell GPU,FP4 AI性能达2070TFLOPS,14核Arm CPU,128GB统一内存,以及可配置的40至130瓦功率范围,用于实时传感器处理和机器人推理。
- 支持以太网、Wi-Fi 6、蓝牙5.2、USB连接,并配备一系列麦克风和扬声器,用于语音交互。
- 电池容量为15Ah,0.972kWh,续航时间约为3小时,可延长运行时间。
- 远程紧急停止功能,可快速安全地脱离机器人。
宇树科技已在官方公布Isaac GR00T参考人形机器人的全身配置:
该平台原生兼容上述数据与部署工作流,将前沿机器人研究交到全球高校研究者手中。
斯坦福大学、苏黎世联邦理工学院、加州大学圣地亚哥分校和艾伦人工智能研究所均将采用该平台开展研究。
今年年底,NVIDIA Isaac GR00T参考人形机器人将由宇树科技提供。
NVIDIA Isaac GR00T开发者平台还将支持宇树G1人形机器人。针对宇树G1的参考工作流程预计很快将在GitHub和Hugging Face上提供给机器人开发人员。
参考人形机器人初期版本结合Isaac ROS机器人操作系统,不会采用Holoscan Sensor Bridge,但英伟达正在研究如何将Holoscan的实时确定性和安全特性引入人形机器人技术栈。
结语:持续降低物理AI应用门槛,巩固生态护城河
智能体正在向物理世界的生产环节渗透,并趋于以”智能体管智能体”的多智能体协同架构落地。同时,“云端训练、边缘推理”的分工日益成熟,本地算力已经能分担不少让机器人不依赖联网也能完成的复杂任务,这是物理AI大规模部署的必要条件。
大模型可通过海量互联网数据来训练,但现实世界是无限且不可预测的,物理AI的构建仍面临重重挑战,要训练出具有鲁棒性和泛化能力的端到端策略模型,仅靠真实世界的数据远远不够,还需要大量训练数据和多样化的环境、物体和任务。
英伟达的一系列发布,都在进一步降低物理AI的应用门槛和基础设施成本。通过将每一环节开源或标准化,从模型研发到完整工作流都有了丰富的工具和参考教程。这将进一步巩固英伟达在AI领域的生态护城河。
热门跟贴