打开网易新闻 查看精彩图片

当专业运动员抛出的棒球以大约160公里的时速做曲线运动,留给击球手的反映时间通常只有500毫秒。

而棒球这个视觉信号进入眼睛,经过角膜、晶状体等到达感光细胞,再由感光细胞传递给大脑进行处理,时间大约需要100至200毫秒甚至更长。此外,大脑还要加工分析信号,发出指令到运动器官,运动器官开始执行指令。

换句话说,如果仅靠临场反应,竞赛场中留给击球手挥棒的时间并不充裕,甚至可以说是所剩无几。那么运动员是如何做到提前控制肌肉,以正确的方式挥出球棒并击中棒球的呢?

——大脑中的“预测模型”。

2018年,谷歌发布论文 World Models,对“预测模型”做了描述:人类通常会以有限的感官所能感知到的事物为基础,在内心建立一个模型,我们所有的行为都基于这个内部模型来展开。这样的模型不仅能够预测未来,而且能够根据我们当前的运动行为来预测未来的感官数据,我们能够基于这种预测迅速采取行动。

而棒球手们正是基于大脑中的“预测模型”,预测未来世界状态,在大脑凭空演练一遍,再在现实生活中提前作出反应。

这个“预测模型”在2024年空前爆火,而它还有另一个更广为人知的名字——世界模型。

所谓的世界模型,终极目标是让模型理解世界的基础规则,长时间稳定地对未来进行预测,最终面向不同任务采取不同形式对未来的“预测”进行表达。

在视频生成领域,就是通过世界模型生成各类视频;在具身智能领域是通过世界模型生成自身需要完成的各类动作;在自动驾驶领域,则是通过世界模型来预测自动驾驶的任务。

打开网易新闻 查看精彩图片

世界模型,自动驾驶“下一站”

2024年2月,OpenAI发布了文生视频大模型Sora,其能够根据用户提供的文本描述生成长达60秒的视频。

Sora的发布,引爆全球市场,此后,有关世界模型的讨论几乎贯穿了2024整年。从虚拟游戏到医疗健康,从机器人到自动驾驶,各行各业都极度关注这个未来发展的注定方向。

到了2024年年底,12月5日OpenAI宣布,将连续12个工作日宣发新产品和新功能。五日后,OpenAI再次宣布,旗下视频生成模型Sora正式面向大众推出。

Sora发展之际,世界模型在自动驾驶领域的发展也如火如荼地推进,而这背后有其必然性。

一方面,自动驾驶发展逐渐走进深水区,车企纷纷布局以人工智能为核心的自动驾驶。亿欧智库数据显示,中国L2+智驾渗透率将持续快速增长。2023年高速NOA与城区NOA的渗透率分别为4%和0.1%,预计2024年L2+智驾功能将达到8.5%。随着NOA功能迎来飞速发展,预计2030年渗透率将达到80%。市场规模层面,预计2024年NOA功能市场规模将达到190亿元,2030年有望超3000亿元。

打开网易新闻 查看精彩图片

自动驾驶的飞速发展,对数据有了进一步要求。厂家需要丰富、复杂场景来锻炼汽车的智能驾驶能力,然而现实生活中数据采集成本居高不下,部分危险场景难以采集,长尾场景稀缺,影响智能驾驶进一步发展。

因此,采用合成数据来助力自动驾驶模型训练成了有效的解决方案,世界模型正是这样的场景生成和预测器,能够为自动驾驶模型训练提供丰富虚拟场景。

另一方面,端到端智能驾驶方案已成为行业公认智驾未来发展方向之一,而其对世界模型也有更高的需求。

过去多模块化的智能驾驶方案可以对感知和规控模块分别进行验证,在感知端层面,工程师可以将感知的结果和带有标注的真实世界状况直接对比,进行开环监测;在规控模块,可以依靠仿真工具将世界的各类场景输入,通过环境的变换来给模型反馈,进行闭环的验证规控算法性能。

而端到端的智能驾驶方案,则是将感知、预测、规划、控制集成一体,这就要求仿真工具既可以逼真地还原外部环境,同时又能给模型反馈实现闭环测试,这是世界模型可以达到的。

此外,随着AI进一步演进,交互式AI是大规模AI系统的发展方向,被动形态的AI最终将演化为主动形态的AI,具体到汽车领域也不例外。而这背后离不开世界模型的作用。与传统互联网数据相比,世界模型更加贴近对真实世界的感受认识、推理决策,能够实现真实数据的自主采集和学习,更加可能打造交互式AI。

过去,是由人向AI主动提出问题,AI被动向访问者给予反馈。发展到交互式AI阶段,将是AI主动感知周围环境,并主动提问,从而变成一个能主动行动的实体。交互式AI的上车,将会给汽车领域带来划世纪的变革。其与道路环境的交互,将会带来真正的自动驾驶;与驾乘人员交互,则是实现多模态数据识别和语义分析,打造多功能交互式智能座舱。

总的来说,在自动驾驶领域,世界模型有着多种作用。其可以生成诸多逼真的场景,生成稀缺、难以采集的场景,为模型训练提供足量的数据;同样生成的场景也可以作为仿真测试工具对算法进行闭环验证;最后,多模态的世界模型可以直接生成驾驶策略来指导自动驾驶行为。

打开网易新闻 查看精彩图片

国内外纷纷入局,抢滩“世界模型”赛道

作为自动驾驶的“下一站”,世界模型自然成为了国内外厂商争相抢滩的赛道。

打开网易新闻 查看精彩图片

“鲶鱼”特斯拉自然是没放过这个新兴领域。

在CVPR2023上,特斯拉对其端到端模型进行了简单的介绍,希望能够构建一个完整的4D神经网络来理解世界运行的规律。

随后,特斯拉介绍了其感知基础模型的构建方式,算法先将外部的信息经过特征提取网络进行压缩和特征提取,送入基于Transformer的模型,构建对于4D的时空环境的理解。之后根据不同的任务需求,加入不同的解码器或者其它算法模块来实现不同任务。

英国自动驾驶公司Wayve.ai专注于研究端到端(e2e)深度学习自动驾驶系统领域,并在2023年发布了GAIA-1模型,它可以依靠视频、文本和动作的输入生成逼真的视频。模型可以生成连贯场景,其中对象处于合理位置并展现合理交互状态。与此同时,模型有着强泛化性和创造性,可以产生训练集里面尚未明确出现的对象和场景。并且可以根据上下文信息生成连贯动作和响应,并展示出对3D几何的理解,比如道路不平整引起的视角俯仰的情况。

英伟达在近期2024年GTC大会上展示了其世界模型领域的最新进展,通过将包括传感器参数、自车行为、2D/3D检测框、Token化的传感器感知数据等多模态数据输入模型训练,并让模型预测未来驾驶场景,自动驾驶基础模型可以稳定生成多个摄像头拍摄到的驾驶场景演变。

国内厂商也在加速跟进世界模型的搭建。

2024年7月27日,蔚来在“NIO IN 蔚来创新科技日”上发布了智能驾驶世界模型NWM(NIO WorldModel,蔚来世界模型)。

亿欧汽车获悉,蔚来世界模型NWM,是一个多元自回归生成式的具身驾驶模型,可全量理解数据、具有长时序推演和决策能力,能在100毫秒内推演出216种可能发生的场景,寻找到最优决策。作为生成式模型,NWM可将3秒钟的驾驶视频作为Prompt(提示词),生成长达120秒的视频。NWM还具备与生俱来的闭环仿真测试能力,已在复杂交互场景中全面测试并验证性能。

理想汽车在2024年下半年也推出了“端到端+VLM”智驾方案,其中引入了“重建+生成的世界模型”,帮助其智驾方案迭代升级。理想的世界模型,利用3D高斯模型做场景重建,利用扩散模型做场景生成,以重建仿真和生成仿真两种技术路线,为智驾方案提供了“错题集”和“模拟题”。

打开网易新闻 查看精彩图片

“未来自动驾驶竞争在云端。”

小鹏汽车副总裁、自动驾驶负责人李力耘认为目前行业主流端到端发展路线有三种,其中小鹏汽车正在研发的就是第三种云端大模型(foundation model),即在云端建立大模型,其容纳的参数量是车端模型的数百倍,在云端实现强化学习训练,再复刻到车端大模型上,形成闭环。

数据显示,在云端大模型的加持下,小鹏汽车的智驾参数量比传统车端大模型多达80倍,能带来8倍有效视觉感知信息量。

打开网易新闻 查看精彩图片

除了整车厂,科技企业也纷纷布局世界模型领域。

专注通用视觉大模型公司极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D,其可以大幅提升多种自动驾驶4D重建算法的效果。DriveDreamer4D 可以为驾驶场景提供丰富多样的视角(包括变道、加速和减速等)数据,以增加动态驾驶场景下的闭环仿真能力。DriveDreamer4D 利用世界模型作为数据引擎,基于真实世界的驾驶数据合成新轨迹视频。如下图所示,DriveDreamer4D 不仅可以提升多种重建算法(PVG,S3Gaussian,Deformable-GS)的图像渲染质量,还可以提升驾驶前景(车辆)和背景(车道线)的时空一致性。

打开网易新闻 查看精彩图片

商汤绝影在近期也全新升级并发布世界模型“开悟”。基于多模态大模型打造的绝影世界模型,能够理解真实世界的物理规则、交通规则。在真实的基础上,“开悟”生成的场景视频,时间最长为150秒、分辨率可达1080P、视角可以实现11V。据商汤绝影官方披露,“开悟”基于1024类场景,能够泛化出更多平行世界,打造了千万级的生成场景库,预计2025年对行业开放。

此外,地平线元戎启行以及momenta皆有传出布局世界模型的消息。

结语

但值得注意的是,虽然人人都想分“世界模型”一杯羹,但其发展面临着技术等多方面的挑战。

一方面,世界模型依赖大量高质量的数据进行训练和测试,获取和处理这些数据耗时耗力。无论是在数据收集、标注还是处理方面,各玩家都需要取得进一步突破,以确保模型能从多样化和高质量数据中学习。

另一方面,训练和运行世界模型需要大量的计算资源,需要在硬件和算法方面取得进展,以更好地处理高维数据和复杂场景。

除了技术难题之外,世界模型还面临着数据隐私、模型可解释性、数据偏见等等伦理和安全问题需要解决。