关注、点赞、转发!更多科技资讯,持续为你带来!

中国科技企业小米公司正式发布并开源其最新研发的Xiaomi OneVL框架。该系统旨在提升自动驾驶模型对道路场景的理解、推理与预测能力。

行业首个多技术融合框架

据小米官方介绍,Xiaomi OneVL是行业内首个将多项核心技术整合至单一系统的框架。这些技术包括视觉-语言-行动模型、世界模型以及潜在空间推理。小米表示,该框架建立在XLA模型的推理能力基础之上,同时显著提升了推理速度与准确率。

自动驾驶研究领域,视觉-语言-行动模型与世界模型通常被视为两种独立的处理方式。前者主要专注于理解交通场景并生成驾驶动作,后者则用于预测场景的演变趋势。小米称,OneVL是首个通过潜在空间推理将两种方法统一起来的框架。

性能表现与技术创新

小米方面声称,该框架在多个主流感知、推理与规划基准测试中均展现出强劲性能。OneVL进一步拓展了潜在推理方法的边界,在保持与仅预测最终答案的潜在空间思维链系统相近速度的同时,实现了比显式思维链推理更高的准确率。

该框架的另一大技术亮点在于可解释性。小米表示,OneVL能够通过语言和视觉两种形式解释其决策过程。在实际应用中,这意味着系统不仅可以描述车辆应采取特定驾驶动作的原因,还能同步展示对道路后续可能情况的预测结果。

战略布局与行业影响

此次发布距离小米开源其音频生成模型Omnivoice仅相隔不久。通过开源OneVL,小米正进一步加大在人工智能与智能出行领域的布局力度,该领域已成为全球主要科技企业之间竞争日益激烈的赛道。

打开网易新闻 查看精彩图片