小米发布并开源自动驾驶视觉语言框架OneVL

牛马科技

2026-05-14 22:31 ·陕西

关注、点赞、转发！更多科技资讯，持续为你带来！

中国科技企业小米公司正式发布并开源其最新研发的Xiaomi OneVL框架。该系统旨在提升自动驾驶模型对道路场景的理解、推理与预测能力。

行业首个多技术融合框架

据小米官方介绍，Xiaomi OneVL是行业内首个将多项核心技术整合至单一系统的框架。这些技术包括视觉-语言-行动模型、世界模型以及潜在空间推理。小米表示，该框架建立在XLA模型的推理能力基础之上，同时显著提升了推理速度与准确率。

在自动驾驶研究领域，视觉-语言-行动模型与世界模型通常被视为两种独立的处理方式。前者主要专注于理解交通场景并生成驾驶动作，后者则用于预测场景的演变趋势。小米称，OneVL是首个通过潜在空间推理将两种方法统一起来的框架。

性能表现与技术创新

小米方面声称，该框架在多个主流感知、推理与规划基准测试中均展现出强劲性能。OneVL进一步拓展了潜在推理方法的边界，在保持与仅预测最终答案的潜在空间思维链系统相近速度的同时，实现了比显式思维链推理更高的准确率。

该框架的另一大技术亮点在于可解释性。小米表示，OneVL能够通过语言和视觉两种形式解释其决策过程。在实际应用中，这意味着系统不仅可以描述车辆应采取特定驾驶动作的原因，还能同步展示对道路后续可能情况的预测结果。

战略布局与行业影响

此次发布距离小米开源其音频生成模型Omnivoice仅相隔不久。通过开源OneVL，小米正进一步加大在人工智能与智能出行领域的布局力度，该领域已成为全球主要科技企业之间竞争日益激烈的赛道。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴