Cosmos 3 如何帮助物理 AI 在行动前进行思考

NVIDIA英伟达中国

2026-06-04 18:22 ·北京 ·优质互联网领域创作者

全新且开放的 NVIDIA 世界基础模型将视觉推理、多模态生成和动作预测相结合，旨在帮助机器人、智能汽车和视觉 AI 智能体在现实世界中采取行动之前进行思考。

现实世界始终处于运动之中。为了实现自主运行，物理 AI 系统 —— 包括机器人、智能汽车 (AV) 和智能空间 —— 不仅需要理解它们所看到的内容以及导致这种情况发生的原因，还需要预测接下来可能发生的情况。

在仓库中，机器人可能会遇到从未见过的物体摆放方式；在道路上，智能汽车可能需要对行人突然从停放的车辆间穿出的状况做出反应；在工厂中，安全系统必须预测叉车将前往何处，而不仅仅是检测叉车的位置。

在现实世界中捕捉和重现这些场景既耗时又昂贵，而且往往无法大规模重复。

NVIDIA Cosmos 3 正是为打破这一循环而构建。这款全新世界基础模型在 COMPUTEX 期间的 NVIDIA GTC 台北大会上发布，它将视觉推理和跨文本、视频、图像、环境音和动作的多模态生成功能整合至单一模型中，帮助开发者创建具备物理语境的世界数据。

Cosmos 3 赋能感知、预测与行动。

以上为摘要内容，请复制并访问链接阅读完整内容：https://blogs.nvidia.cn/blog/cosmos-3-physical-ai-open-world-foundation-model/

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴