作者:张雅琦
来源:硬AI
机器人即将迎来“ChatGPT时刻”?英伟达在CES 2025重磅发布Cosmos世界基础模型平台,或掀起“物理AI”革命。
这个平台被称为加速“物理AI”发展的关键一步,目标是推动自动驾驶汽车和机器人领域迈向更高水平。
物理AI赋予机器人更强的环境感知、理解和交互能力。物理AI的进步将极大地推动自动驾驶和机器人等对物理场景要求较高的产业发展。黄仁勋在CES大会上表示,物理AI将彻底改变价值50万亿美元的制造业和物流业,从汽车、卡车到工厂、仓库,所有移动的事物都将实现机器人化,并由AI驱动。
据英伟达官网介绍,物理AI体系包含以Omniverse、Cosmos、Isaac Sim等关键组成部分。其中Cosmos平台利用了超过2000万小时的视频训练数据,旨在“教会AI理解物理世界”。
什么是物理AI?
物理AI,也称为生成式物理AI,是一种使自主机器(如机器人、自动驾驶汽车等)能够在真实物理世界中感知、理解和执行复杂操作的技术。
它扩展了传统的生成式AI,使其能够理解3D世界的空间关系和物理行为。通俗地理解,就是人工智能反馈的内容要符合物理规律。
例如,文生图或者文生视频模型,如果不考虑物理,那生成的内容就缺乏了重力、光学等细节,在加入物理知识后,生成的内容将更加逼真。
黄仁勋早在今年早些时候就强调过,“AI的新一波浪潮是物理AI”。
物理AI将赋予机器人更强的环境感知、理解和交互能力。传统的机器人只能按照预设程序执行任务,而搭载物理AI的机器人则能够更好地理解周围环境,并根据物理规律做出相应的反应。它们可以更好地识别物体、预测运动轨迹、并在复杂环境中进行导航和操作。
“物理AI将彻底改变价值50万亿美元的制造业和物流业,”黄仁勋在本次CES国际消费电子展上表示:
“从汽车、卡车到工厂、仓库,所有移动的事物都将实现机器人化,并由AI驱动。英伟达的Omniverse数字孪生操作系统和Cosmos物理AI是推动全球实体产业数字化的基石。”
英伟达构建了一个完整的物理AI生态系统。据英伟达官网介绍,物理AI体系包含以Omniverse、Cosmos、Isaac Sim等关键组成部分。
Omniverse:加速3D内容创作和物理仿真
Omniverse是一个开放平台,用于构建和连接3D世界。它提供了一系列工具、API和SDK,使开发者能够轻松地创建高保真、基于物理的虚拟环境,用于训练和测试AI模型。
Omniverse的核心是通用场景描述(OpenUSD),它允许不同3D工具之间的数据互操作性。Omniverse在此次发布中也得到了进一步的扩展,例如通过NVIDIA Edify SimReady生成式AI模型,可以自动为现有3D资产添加物理效果或材质等属性,大大加速了3D内容的创建和准备过程。
申万宏源表示,英伟达的未来设想中,机器人技术的发展依赖于三台核心计算机。
一台用于训练AI,一台用于控制物理仿真环境中的测试AI,以及一台安装在机器人或智能汽车内部的模拟环境计算机,支持物理AI算法。
目前正在应用的场景之一在于仿真环境中验证程序逻辑的可靠性;第二个就是获取难以从真实世界获得的数据以持续训练AI模型,目前许多大厂都在采用这种方式,从软件角度,仿真领域的优势企业Ansys,其仿真产品也可以通过英伟达的Omniverse进行访问,凭借Ansys面向摄像头、激光雷达和雷达传感器的物理求解器,增强NVIDIA DRIVE的高保真和可扩展的3D环境,这对于自动驾驶系统的开发至关重要。
通过这种方式,未来行驶过程中的所有数据都可以实时反馈,用于决策制定,同时生成更多类似数据以模拟更多场景,加速训练效果的提升,突破了数据获取的瓶颈。
申万宏源认为,英伟达对Omniverse的大量投入预示着其算力未来的方向主要集中在大模型AI生成、机器人和智能驾驶领域。
Cosmos WFMs:让AI理解物理世界的关键一步
物理AI的开发极为复杂,需要海量的真实世界数据和长时间的测试,开发成本高昂。
而英伟达的Cosmos平台正是为了解决这一痛点,通过其生成式世界基础模型提供物理仿真数据生成能力。Cosmos WFMs让开发者能够快速生成基于真实物理规律的高仿真数据,降低依赖昂贵现实数据的需求。
黄仁勋在主题演讲中指出,Cosmos平台利用了超过2000万小时的视频训练数据,旨在“教会AI理解物理世界”。
这些模型通过将文本、图像、视频以及机器人传感器数据结合,生成多样化的物理环境场景,比如雪地驾驶、拥挤仓库等,从而为自动驾驶和机器人开发提供关键支持。
Cosmos使用了英伟达的NeMo Curator框架以及CUDA加速数据处理流水线,在14天内即可完成对2000万小时视频的处理工作,而这一任务在传统CPU环境下需要3.4年。
Cosmos Tokenizer作为一种最先进的视觉标记器,能够将图像和视频转化为高效的视觉标记,处理速度提升12倍,压缩效率提升8倍。
黄仁勋表示:“机器人领域的‘ChatGPT时刻’即将到来。”和大语言模型(LLMs)推动自然语言处理一样,Cosmos WFMs被认为是机器人和自动驾驶发展的基础性工具:
“我们创建 Cosmos是为了让物理AI民主化,让每个开发人员都能接触到通用机器人技术。”
可以说,Cosmos的发布,补全了英伟达物理AI体系中“理解世界”的重要一环。
多家行业巨头拥抱Cosmos
多家领先企业已经成为Cosmos的首批用户,包括1X、Agile Robots、Waabi、Uber等。这些企业正在利用Cosmos平台推动机器人与自动驾驶技术的进步。
以Uber为例,通过整合其丰富的驾驶数据与Cosmos平台和NVIDIA DGX Cloud的功能,Uber正与英伟达合作加速开发安全且可扩展的自动驾驶解决方案。
Uber 首席执行官Dara Khosrowshahi表示:
“生成式人工智能将为未来的出行提供动力,这需要丰富的数据和非常强大的计算能力。通过与英伟达合作,我们相信我们能够帮助加速行业安全且可扩展的自动驾驶解决方案的开发。”
Agility首席技术官Pras Velagapudi在一份声明中表示:
“数据稀缺性和多变性是机器人环境中成功学习的关键挑战。Cosmos的文本、图像和视频到世界功能使我们能够在各种任务中生成和增强逼真的场景,我们可以使用这些场景来训练模型,而无需花费大量昂贵的真实世界数据捕获。”
目前,Cosmos WFMs已通过英伟达NGC和Hugging Face平台开放下载,开发者可使用这些模型及其微调框架。此外,Cosmos还将通过英伟达的DGX Cloud实现快速部署,并为企业用户提供全面支持。
热门跟贴