全新且开放的 NVIDIA 世界基础模型将视觉推理、多模态生成和动作预测相结合,旨在帮助机器人、智能汽车和视觉 AI 智能体在现实世界中采取行动之前进行思考。
打开网易新闻 查看精彩图片
现实世界始终处于运动之中。为了实现自主运行,物理 AI 系统 —— 包括机器人、智能汽车 (AV) 和智能空间 —— 不仅需要理解它们所看到的内容以及导致这种情况发生的原因,还需要预测接下来可能发生的情况。
在仓库中,机器人可能会遇到从未见过的物体摆放方式;在道路上,智能汽车可能需要对行人突然从停放的车辆间穿出的状况做出反应;在工厂中,安全系统必须预测叉车将前往何处,而不仅仅是检测叉车的位置。
在现实世界中捕捉和重现这些场景既耗时又昂贵,而且往往无法大规模重复。
NVIDIA Cosmos 3 正是为打破这一循环而构建。这款全新世界基础模型在 COMPUTEX 期间的 NVIDIA GTC 台北大会上发布,它将视觉推理和跨文本、视频、图像、环境音和动作的多模态生成功能整合至单一模型中,帮助开发者创建具备物理语境的世界数据。
打开网易新闻 查看精彩图片
Cosmos 3 赋能感知、预测与行动。
以上为摘要内容,请复制并访问链接阅读完整内容:https://blogs.nvidia.cn/blog/cosmos-3-physical-ai-open-world-foundation-model/
热门跟贴