车东西9月2日消息,在不久前的2024成都车展媒体日上,理想汽车智能驾驶研发副总裁郎咸朋博士和智能驾驶高级算法专家詹锟,就理想汽车在智能驾驶领域的技术创新和战略布局进行了深入探讨。
在访谈中,理想汽车主要介绍了智能驾驶技术的创新与突破、组织架构与业务迭代、安全保障与数据防护等四方面内容。
▲理想汽车智能驾驶研发副总裁 郎咸朋博士
郎咸朋博士表示,理想汽车在智能驾驶领域的突破,离不开高效的组织架构和技术革新。
公司学习借鉴了华为的组织架构,如IPD流程等,并结合自身特点进行了内化处理。这种组织效率的提升,为理想汽车智能驾驶技术的发展奠定了坚实基础。
此外,郎咸朋博士介绍道,在智能驾驶技术的研发过程中,验证测试至关重要。
理想汽车通过运用人工智能技术,尤其是重建和生成技术,大幅提升了测试效率和效果。
相较于传统人力测试,AI技术在保证速度的同时,实现了更高的测试质量。
郎咸朋博士指出,理想汽车目前将智能驾驶作为公司级战略,其研发、迭代和推广均得到了充分重视,也正是这一战略布局使得理想汽车在智能驾驶领域不断取得新成果。
此外,郎咸朋认为,技术发展和销售规模可以并行不悖。理想汽车通过技术迭代推动销量增长,实现了技术与市场的良性互动。
▲理想汽车智能驾驶高级算法专家 詹锟
而在技术方面,詹锟详细介绍了理想汽车端到端+VLM系统如何提升智能驾驶能力,以及这一系统如何协助处理复杂路况。
可以说端到端+VLM系统为实现更高水平的自动驾驶提供了有力支持。
▲郎咸朋博士、詹锟在采访现场
下边内容是当日圆桌论坛实录,车东西在不改变原意的情况下进行了编辑:
Q1:按照我们的理解,理想智驾从一开始的落后,到进展和体验的靠前,有些做法非常关键,比如从RD转PD和快速试错,在转PD过程的验证工作,如何兼顾速度和质量?对于传统粉丝诟病的新势力验证不充分就上市的说辞,我们如何应对这种质疑?
郎咸朋:后进生逆袭到第一梯队很正常。第一点是我们的组织效率确实非常高效,我们是向华为学习的组织架构,比如我们内部有IPD流程等。这是我们学习一些先进经验,然后结合理想汽车自己的企业特点进行内化处理的结果。
在验证测试方面,我们通过技术提升做到更好的测试和发布效果,同时也减少了时间和人力。而且,测试效果比原来人力测试更好,这是人工智能技术带来的结果。我们用重建、生成技术取代了人工的测试,重建技术很快就能够重建几百公里的场景,包括各种天气路况下的场景,这些场景通过人类驾驶未必能够获取。
詹锟:目前在整个智驾团队,我们的PD、RD和交付这三者同步进行,我们是交付一代、研发一代、预研一代,这是我们为什么能一直紧跟目前智驾最新技术方案的原因,我们有比较好的阶梯式研发流程。
我们在做无图NOA研发的时候,其实端到端已经开始预研。并不是等无图NOA做完,再慢慢的切换到端到端架构研发中,其实我们前面就有储备,所以这是我们为什么会速度比较快的原因。如果大家觉得牺牲了效率,其实是因为没有找到提效的方法,我们逐渐已经找到了通过自动化测试、世界模型高效验证模型的方法,所以我们才能兼顾速度和质量。
Q2:现阶段理想智驾研发架构中分为算法研发和量产研发,分别对应着不同的小组,小组对应的是端到端不同模块。随着未来算法的迭代和成本的优化,未来的组织架构是否会进行调整?朝哪些方向来做调整?这个过程中有遇到哪些难题?
郎咸朋:在整体战略规划和业务战略里,我们对于业务组织有清晰的布局。组织根据业务变化,业务的目标和迭代则根据战略调整,这就是我们的BLM流程(业务领导力模型),我们原来叫LSA流程(理想汽车战略分析法)。大家可能对外感知到的是产品、组织的迭代,但实际上背后影射的是我们战略和业务的迭代和变化。
我们的组织变化要追溯到去年或者更早。我们把智能驾驶作为公司战略之后,业务和组织才开始发生迭代和变化。在去年秋季的雁栖湖战略会,我们首次明确提出PD和RD都非常重要,但是其实在那之前PD、RD已经有了,只是在战略会上,进一步明确了将智能驾驶和RD都作为公司级战略展开,所以业务发生了变化。接下来组织会不会发生变化,要看跟业务是否有关联。
Q3:目前所有的车企能够量产车型都是L2级辅助驾驶,理想汽车端到端+VLM怎么保证保证智驾的安全?
郎咸朋:从流程上来讲,内部主要研发流程分为产品交付研发流程以及智能AI的研发流程,两个流程相互配合。
▲理想汽车智驾发展路径
端到端+VLM这套技术系统在一个月的测试过程中,虽然开启城市NOA功能始终是通过拨两次方向盘杆,实现从A点到B点的智能驾驶,但是模型迭代的能力却在不断提升。在模型迭代的时候,整个功能跟原来完全一样,所以这个功能之前做的测试仍然有效。对于这个能力的表现,我们用生成和重建的方式做模型的泛化测试和检验,比实车在全中国驾驶测试好得多。这是我们在 AI 时代到来之后,对于产品研发的深度思考,从而带来的研发变化。
安全另外一层含义就是:怎么能在产品交付之前,做更多更有效的测试。如果用实车做测试,一方面是成本,另一方面是是测试效果可能达不到交付有监督自动驾驶的程度,特别是当模型迭代比较迅速的时候。
我们现在用diffusion transformer技术,再加上3DGS技术,能够把曾经遇到过错题以及遇到过的场景,举一反三地形成模拟题,实现不断地测试模型能力,不断地优化各个城市表现。
我们在每一个维度上都有非常严格的打分,比如安全、法律法规等维度。如果不安全、不合规,模型就不能交付给用户。现在在千人团内测阶段,还没有到量产阶段,所以在安全、合规方面的要求会更加严格,确保我们的产品是一个安全可靠的产品。
詹锟:我从技术角度来说,我们有安全兜底模块,甚至有些东西我们会保证它有绝对的下限。以前写了很多规则应对不同的场景,但是现在只需要写下限的规则,上限全靠端的端 、VLM去捕捉,甚至有些防御性驾驶,VLM都可以提前告诉系统,比如丁字路口、坑洼小路等,这些都在一定程度上提升了系统安全性。无论是数据还是算法,都是在把安全性往上提升。并不是大家说的那样,用端到端了安全就差了,这是针对设计不完善的一种想法。
另外,AEB/AES 其实是在最极端的情况下,最兜底的一种保证绝对安全的方式。这就是用算法、冗余一起来解决安全问题。
Q4:现在从生成到输出,对于传感器包括数据需要有一些质量监测,这个过程中如果出现恶意攻击,甚至说出现各种故障,这种情况理想汽车怎么解决这数据安全的问题?
詹锟:面对数据被污染或者传感器遭受恶意攻击,以及对神经网络进行对抗性破坏,我们已经将这种情况涵盖到整个网络训练过程中。
模型训练并不是针对单一的传感器,比如一个传感器损坏,我们能够通过BEV解决。即使在雨天某个传感器脏污的很厉害,我们依然能稳健驾驶,同时能给用户对应提醒,会告诉你找个安全的地方停车,不会让系统直接失效。
因为有Radar、Lidar等多个传感器,各个传感器在不同环境下能冗余互补,单一的攻击很难起效,这就是为什么很难有单一的攻击策略能让智驾系统失效,因为在技术上做了很多防护。
Q5:理想汽车怎么衡量技术发展和销售规模平衡问题?
郎咸朋:理想L系列外观比较相似,外界也说是在套娃,但是这让我们有个最大的优势。传感器布局和传感器型号完全一致,所以理想L系列的数据可以完全复用,这个是我们比其他企业想的更长远的,所以说大家觉得我们套娃了,实际上对自动驾驶的研发非常有好处。
我认为技术发展和销售规模平衡并不矛盾,最近两个月我们的AD Max车型销量每个月保持10%以上的提升,30万元以上车型AD Max销量占比达到70%,部分车型部分地域AD Max占比达到90%以上,这就是我们最近这几个月技术发展带来的变化。如果技术没有影响销售的话,可能是技术落地没有做好,没有真正解决用户需求。之前行业普遍做轻图和有图方案的时候,其实也在做一些功能,但是一定没有端到端的使用效果好。我觉得还是因为到了端到端这个时代,大家对这个产品的效果有了更好的体验之后,用户就会买单。
Q6:智能驾驶的技术升级是否能带来销量提升?
郎咸朋:销售有几个非常重要的漏斗。第一个是品牌,只有用户认可品牌后才会比较智驾、电池、续航等。如果说一开始品牌就不在老百姓的选择范围内,那可能做什么都跟销量没有关系。
Q7:现在端到端在不同城市的表现不一样,我们会针对不同城市来做不同模型吗?还是说会在一个模型上不断地去调优?
詹锟:首先,模型在不同城市有不同表现,这并不代表我们要对不同城市下发不同模型,让模型获得不一样的错题。而是说在世界模型的评测体系下,能够精准地知道这个模型在不同城市是什么表现,便于我们对其做有针对性的分析。
比如在过去的Case里,杭州和广州偏弱,那么对应补足杭州、广州的一些特定场景,加入训练数据中,放到模型中,让模型有全面的提升,所以模型迭代的过程并不是盲目的。如果我们不知道产品在不同城市的表现,我们就会盲目地寻找全国各地的数据,最后实车体验时用户发现杭州还是不行。这样的结果就是迭代效率非常低,训练数据量增加并没有效果,这就是大家都在说的大模型需要高质量数据。有精准的评测才能提高质量,而不是盲目增加数据量。
不同城市不同模型的效果其实是我们非常好的一个特点,能知道很细节的评测维度,不同模型我们有很多维度。在不同城市,还能知道它更细分的情况,让我们更有针对性。比如是不是因为广州的高架桥特别复杂,是不是杭州的可变车道特别复杂才导致端到端的表现不如其他城市,我们是通过这种方式迭代我们的智能驾驶。最终,我们肯定最后会把一个在全国都非常均衡的智能驾驶推送给用户。
Q8:One Model模型怎么优化?只能靠优质数据吗?系统本身是否会有调整?
詹锟:我们现在用数据大幅训练模型。微博上有人总结我们三个版号的含义。第一个版号是数据,1表示100 万量级的clips;2表示200万的clips。第二个版本号是模型结构。所以优化不只是依靠数据,模型结构也很重要,里面有各种细分类型,比如Cross Attention、Self Attention,我们在这方面会做各种各样的设计和实验,所以第二个版号有各种变化。训练策略也会发生变化,模型训练一遍就结束,还是训练一遍以后把重点那点挑出来,再重新训练一遍?还是先训练一部分,再做精选数据的训练。这些都是在大模型训练过程中,我们逐渐积累的经验,肯定不是仅用数据来迭代。
Q9:大家都在探索自动驾驶,没有一个共识方案,所以理想端到端+VLM进入市场的同时,还会不会有其他探索?关于智能驾驶的短期目标,或者最终目标是怎么样?
詹锟:第一个事实是,大家都在研发阶段、尝试阶段,我们之所以敢把目前的版本推送给用户,是因为我们觉得可以类比CNN深度学习网络时期,当时因为一个竞赛,CNN的性能优化了10%左右,性能和安全体验得到了大幅提升。
第二个事实是,在这个过程当中,不同数据、不同的模型结构、不同的训练方法,对模型的迭代都有帮助。这其实是各家都在做的一个关键,解决数据和训练算力的基础问题之后,我相信我们,包括特斯拉都能成功炼丹。但是炼丹第一步就是得有原材料,当原材料得到解决,炼丹的比例调整好,这个丹的作用才大。
▲理想端到端+VLM综合MPI(平均接管里程)
类似于以前炼火药,按照一硝二磺三木炭的比例来,火药的威力就大,如果1:1:1做出来的就是“呲花”,这就是各家在迭代过程当中的一些技术诀窍。我们和用户共同成长,所以我们也需要知道每一套模型实际的表现如何,我们内部有自己的测试,如果表现不好就会内部消化,这种模型就不让去用户使用,但是每当模型有迭代、有提升的时候,我们都会拿给用户去进行测试、验证,这是我们研发过程当中的一些迭代。
关于下一代方案,不知道大家有没有看上周智元的发布会,智元展示了G1到G5的具身智能过程。其实我们内部也有自动驾驶整个研发过程的阶段,我认为在现阶段,无论是对于理想汽车来说,还是对于特斯拉来说,其实都是在向双系统方向发展。
所以端到端肯定是一个非常好的阶段,我们认为已经达到了L3。我们想进一步向L4发展,其实就是需要端到端+VLM双系统,我们认为这是面向L4的一个终局方案。那再往后,L4不是终局的话,我们还有L5,像智元发布的G5一样,我们肯定还会有一体化的、超大规模的统一模型,像GPT-4o模型。未来,肯定要把两个模型合在一起,实现手脑完全结合的大模型方案,这是我们之后要尝试,要探索的东西。
Q10:目前,理想AD Max由两颗OrinX来支撑现在测试的能力开发,端到端方案对车端算力的要求是什么样的?是更高还是更低?那么未来随着上车端到端会不会变得更加强大?那这究竟是个什么样的关系?能不能解读一下?
詹锟:各家在使用算法的时候,都会跟自己的硬件做匹配,无论是用地平线方案,还是Orin方案。双OrinX可以完美适配我们的双系统方案,如果要给出一个固定的上限,不是很好直接预测或配置。但是我们可以知道,随着算力增加,整个能力是一个非常线性的增加,包括特斯拉也证明了12.5版本比12.3提升了五倍,这也完美符合这种大模型的Scaling Law。
对我们来说,到Thor阶段我们肯定会有一个更大规模数据量训练的端到端大模型,效果会进一步提升。我们可以看到它的趋势,我们会基于芯片对它进行相关算法的定制化调整;同时模型规模越来越大,最后产出的端到端效果会越来越好。
另外,其实也可以看到特斯拉现在正在宣传2026年要做一个AI 5的芯片,大概有3, 000到4, 000TOPS的水平,这个阶段是他在做Robotaxi的一个想法。我们也在持续关注高算力的车端芯片的性能。
郎咸朋:我补充一点,Thor芯片上车后,因为它的算力比现在OrinX又大了很多,那么我们会在Thor上更多地发展我们系统化VLM的模型能力。端到端模型我们认为是比较吃算力的,但是它使用算力的上限比VLM少很多,而且它有一定的上限,要1,000万clips,训练这样一个模型所需要的参数量非常大。所以在向L4发展过程中,整个系统需要让它具备更好地应对未知场景的能力,而未知场景能力的提升,需要提升的是系统2,就是VLM的模型能力,所以我们现在22 亿的产出量,将来可能再去扩大。
Q11:端到端方案对算力要求的下限最低到多少?
郎咸朋:我们认为没有下限。
Q12:理想汽车端到端+VLM两个系统怎么配合?未来的发展是什么样的?
詹锟:VLM在车上类似于GPT,各个系统模块都会找它问问题,车机会问它,有个高架桥是不是要在桥下走?如果不是的话VLM可以跟车机进行交互,输出轨迹进行切换。端到端问它当前在这个路口走到了左转人行道上,能不能沿左转走,还是违背路径,沿着其他方向走,这种复杂路况VLM都需要做判断。各个模块会问VLM,同时VLM也会自己判断情况,比如遇到比较复杂的路况,如施工坑洼等,VLM会主动给端到端系统发信号,端到端收到减速信号,或者是一个注意安全的信号,会把文字信息会变成一个embedding,就是把它变成一个特征向量编码,放到端到端模型里,最后端到端模型对应采取减速策略或者避让策略,输出轨迹。
同时还有一些情况,比如我们告诉端到端这个地方是公交车道不能走,那端到端在输出轨迹的时候就不会向公交车道这个方向去。通过各种语言文本信号的配合,让端到端能听懂VLM的相关建议值。
VLM 相当于教练一样,旁边有个这样的司机告诉你,这里要注意车辆减速,车辆预判驾驶,但具体怎么踩刹车,这个会让端到端去判断,但是VLM会给出相关的建议,甚至踩刹车程度的建议也会给。
Q13:One Model端到端是如何实现的?相比其他的分段式端到端的区别?
詹锟:我们是传感器的输入做编码,然后交给统一的Transformer decoder网络做输出。它的输出分为几个维度,一个是感知信息的输出,感知信息可以用来做显示,跟驾驶员做交互。另一个是辅助监督,让这个模型收敛得更快。
另一个更重要的就是直接输出的轨迹,我们这个轨迹交给了一个控制模块,控制模块会做安全校验,最后转成油门开度、方向盘转角,最后输出出来。整个模型架构其实非常简单,不是特别复杂的架构,而是一个非常简洁清晰的架构。我们更多是通过数据,通过配比,通过训练策略调整One Model端到端的效果。
郎咸朋:相比其他的分段式、分模块最大的优点是模型在进行推理的时候所有的信息是一手信息。如果是分段式的,上游是个感知,下游是个规划,最终车开的好不好还是要看规划,规划来的信息不是一手的,感知如果出了问题,规划拿到的信息可能就是有瑕疵的,或者有错误的。模型就算训练的再好,输入不好,规划还是会存在问题,这是最大的区别。
One Model有没有它的问题呢?有,它的训练难度非常大。来的是原生数据,出来的是些轨迹线,这样一听就感觉不太好训练。第二就是数据。理想有非常好的训练数据,我们有非常多的视频训练片段,我们有22亿公里训练数据,今年年底将达到30亿公里,但是30亿公里不会都用来训练。因为我们会挑选那些老司机的数据,就是开的好的,什么叫开的好?我们有几个维度,比如他平时的驾驶习惯,是不是总是急加速、急减速,包括总是开出AEB来,这种数据肯定我们就不要了。我们给每个司机都打了分,现在理想90万车主,大概有3%的司机,可以被我们评价成老司机。也就是说22亿公里里边我们能拿来训练的是优中选优的一些数据,但其他的企业我不知道他们有没有这些数据可以选,甚至有没有这些数据,这种情况下要训练的话,分段式或者模块化是更好的选择。
詹锟:分段式和One Model的区别我再补充一个比较形象的例子。因为分段式重点是中间要传出一个信息给下游规划这个模型,它传出的信息一定是有损的,因为我要对中间信息做一个设计。比如说这个车的3D位置,它的朝向、它的偏向转角在哪里,我要给它一个结构化信息的描述,但是这样的描述一定是有损的,因为这是加了人类先验信息的。比如它是一个渣土车,渣土车在掉渣和没掉渣对于驾驶来说会有明显的不同。但是在分段式里面很有可能把这些信息丢掉了,只有完全One Model,才能把这种隐晦的信息彻底理解,才让车驾驶的更像老司机。分段式的是Two Model,会导致中间的信号是有损的,这个有损信号和无损信号比,规划不能给出很好的决策。
Q14:理想给这么多用户评分,未来还会有很多的用户,即使不是理想的车主,都会想在理想的智驾领域得到老司机的认证。这些数据会不会在以后开源,作为一个公开的东西进行评测?
郎咸朋:我们把这些建议先记下来,我们目前没想过这些问题,因为数据都是用于我们内部的研发,如果以后有需要我们再做。
Q15:用户驾驶行为好,理想汽车打了很高的评分,如果是高分用户希望通过理想能够把这个信息传播给更多的消费者。
郎咸朋:我们会考虑。但是我们也考虑到了一些竞争因素,因为这个相当于高质量数据筛选的规则。是我们的核心机密,如果一旦公开数据其他人可能也会学会。
Q16:现在行业中有共识,智能驾驶会分为能用,好用和爱用三个阶段,目前理想汽车的智驾做到了哪个阶段,我们如大概需要多长时间可以做到“爱用”阶段,哪一年可以达到这个目标?
郎咸朋:能用、好用和爱用这其实是由用户决定的。我们的千人团车主以及购买AD Max的车主比例显著提升,我认为这就已经进入到了“能用”阶段。我认为端到端内测推送之后就是一个“好用”的状态。我自己上下班的智能驾驶比例达到95%以上,好用和爱用是培养大众对于智能驾驶理念认同的过程。我们现在的千人团、万人团包括一些发烧友车主,他们依然处于早期大众的阶段。当步入晚期大众,也就是50%的消费者在没有智能驾驶的时候会不习惯甚至不会开了,等进入到这个阶段就是真正的“爱用”阶段,或者说是必须要用。
理想汽车的研发迭代速度是非常快,我们最早今年年底,最晚明年上半年就会将这套“有监督的自动驾驶”量产交付,那个时候一定会让大家非常爱用这个产品。
Q17:现在理想的用户会智能驾驶的比例达到了多少?
郎咸朋:我们的智能驾驶分为城市和高速,在无图NOA全量推送之后,城市NOA的日活比例已经高于高速NOA的日活比例。这说明了我们产品的提升,因为我们每天自己开车也是在城市道路居多。
Q18:仿真训练和车主自己驾驶的比例分别是多少?
詹锟:我们的评分体系是非常严格,不是所有的车主数据都会拿过来训练,我们会有非常严格的分数,分数会卡在3%-5%的水平,随着后面数据采集的越多多,对质量的要求并不会降低,这是我们训练的体系。22亿的数据里面只有高质量的数据有价值的数据会拿出来用。仿真我们会把无论是自动驾驶还是人开的不好的场景我们会拿进来用,这个比例随着用户使用程度越来越高,我们会越来越收紧。相当于大的仿真考试题库一样,我们会持续验证是不是每个版本都可以了,是一个积累的过程,并不是说我单独选择一个值。目前我们有一千万公里的仿真测试集,这是实车测试不可能在短期内实现的。
郎咸朋:我们每个模型的发版至少进行了一千万公里的测试,不仅节省做路试的时间,效果也有显著的提升。而且错题集一定是有代表性的场景,比如有安全类问题、效率类问题等。今天我们在发布会上重点讲了系统1和系统2模型,后面我们会给大家介绍更多训练模型相关的信息。
现在我们做到了每两到三天迭代一次模型,这其中最关键的技术就是 AI 评价体系,也就是测试系统。测试系统需要很多人、很多车进行路试,消耗大量的人力和物力。但是我们觉得这依然不够,第一模型迭代速度过慢,第二场景收到限制,我们不可能将同样的场景开过两次,也不可能在夏天去模拟冬天的场景,所以我们做了AI评价体系,上千万公里的错题集对应的是上百万个case。
在错题集之外我们还有模拟题,将以前的错题在不同的场景下生成用来评测是否依然能够开的比较好,而且要达到我们80分的及格线。此外我们在云端有非常强大的模型,收集到有问题的用户数据之后,模型能够帮助我们进行分类并且直接放入错题库,这样的效率是非常高的。如果我们想要去训练模型,迭代模型,这样非常厉害的评价系统是必须的,就像考试要有人批卷子,有人告诉你哪里对哪里错。
Q19:路试的和仿真训练的比例是多少?
郎咸朋:现在路试的数据还没有用完,是22亿公里。我们到了100亿公里量级时候,可能路试的数据就不那么多了,那个时候我们在下一阶段会用很多的仿真数据。而且大家也可以看到生成模拟器的生成场景不仔细看的话是无法辨别是真实的还是模拟的。我们做出“有监督的自动驾驶”以后,这套模型迭代会比现在快很多,能够直接生成训练数据,这样我们在训练下一阶段的L4自动驾驶的时候,我们肯定会用到仿真数据。
Q20:您认为理想在中国智能驾驶的体系中排在什么样的位置?
郎咸朋:我们一定希望达到第一的位置。但是我们深刻理解做人工智能的话,除了要建立各种平台体系外,最关键的是最终大家的竞争就是算力和数据。特斯拉从不避讳讲自己的技术,就是因为他相信其他人无法超越他的算力和数据。
我们也是一样的,人才的互相流动是非常正常的,模型和算法对于大家而言都不是秘密,最终大家比拼的是没有算力和数据去训练算法,更直接一些就是资金,也就是能不能有足够的销量去获取更多的利润去养自动驾驶的算力和数据。很多人说理想卷销量,实际上销量背后是我们对于自动驾驶深刻的思考。
Q21:理想是怎么看待车企做Robotaxi呢?
郎咸朋:我认为Robotaxi是一个产品或商业的形式,并不是技术。在技术发展到一定程度之后,它可能会催生很多的商业形态。Robotaxi,Robobus等。
第二,消费者的需求是不是已经到了大家更愿意用Robotaxi的阶段,或者用自己车来做Robotaxi。
当然还有一些相关的国家法规,国家法规激励新能源车,才能让我们走到现在,所以这和国家法规对这些产品形态的支持有关。
Q22:您觉得智驾未来的商业前景是怎么样的?
郎咸朋:我认为对于智能车,智能驾驶和自动驾驶是不可分割的一部分。如果收费,就会涉及到不缴费的智能车体验会不好。我们的智能驾驶功能是免费的,当技术和能力到了一定程度之后会催生出一些新的商业场景和模式。
大家现在会有很多的畅想,如果实现自动驾驶会有各种各样的场景、产品,现在端到端+VLM是一个分水岭,之前无论是有图还是无图,都是用非人工智能的方式来做智驾,我们做详细产品的需求、规划、拆解以及验证,而对于端到端,与其说我来测试它不如说我来体验它,体验一下它今天学到了什么样的能力。
举个例子,今天发布会上的视频中有,一辆车突然向左方避让了一下,但实际上前方是没有车的,而是后面来了一辆自行车,他会让自行车先过然后再回来,这样规则几乎是不可能有产品经理设计出来的,但是我们的模型可以实现。所以大家要用不同的思路和眼光来审视接下来人工智能时代的自动驾驶,他一定会超越所有人的预期,我们提到一个月内迭代12代,会有些人觉得我们测试不充分,但是两个月,三个月,甚至一年之后就不会再这样想了,因为自动驾驶会大规模落地。
Q23:刚才提到的自行车场景是否类似于自动驾驶?
郎咸朋:有这种感觉,但还是最初的阶段,到了1000万clips的时候肯定能够涌现出来很多东西。
Q24:大家频繁的把世界模型引入到自动驾驶,但大家的理解都不一样,想了解理想对这个模型定义是什么?以及和系统1、系统 2 是怎么去配合?世界模型的上限是像人类认知世界,难度很高,那在自动驾驶领域怎么去定义?
詹锟:大家对世界模型的说法、理解和概念都有很大的差异,就和端到端一样。世界模型最早来自诺贝尔图灵奖获得者杨立昆,他提出这个模型意思是,在这个模型中能够想象未来会发生什么,即我对物理世界有个虚拟的抽象,根据现象可以知道未来会做什么事情。
对我们来说,是想把世界模型用在自动驾驶中,我们的世界模型主要是用来做一个完整的验证系统。这就是对未来的抽象,我们把所有路上遇到的场景和未来可能会发生的交互,甚至各种危险情况,都模拟在了一个模型里。
这个模型会对我当前所有的行为做出下一刻的预判,这样的预判可以帮助我们验证这个模型是不是对的。所以我们想把模型用在我们整个自动驾驶校验系统上,这也是我们做这个世界模型的初衷。对于我们来说,我们想把世界模型在云端验证系统上用的更高效,系统1、系统2其实是在做验证、做校验。系统1和系统 2 是一个超级大的模型,它的校验是最重要的一个环节。衡量标准就是,看你校验是不是准,是不是快。
郎咸朋:世界模型对系统1和系统 2 来说,最大作用是提供一个训练和测试的场地。原来是这个场地放在真实的世界里面,我们把世界弄到模型。在世界模型里,我们的测试、错题、真题,都在这个世界模型中进行训练。
热门跟贴