小米技术昨日甩出一颗技术炸弹——Xiaomi OneVL 一步式潜空间语言视觉推理框架正式发布并全面开源。雷军当晚亲自站台,用一句话定了调:这是业内首次通过潜空间推理,把 VLA(视觉语言动作模型)和世界模型塞进同一套框架。
自动驾驶圈苦"模型碎片化"久矣。感知用一套、决策用一套、预测再用一套,中间接口损耗算力不说,延迟更是要命。小米这次玩的潜空间推理,相当于让模型在压缩后的"信息浓缩层"里直接完成思考和输出,省掉了传统思维链(CoT)那种"一步步写出来"的冗余过程。
打开网易新闻 查看精彩图片
官方给出的数据很直白:精度超过显式 CoT,速度对齐"只给答案"的极简方案——简单说就是又快又准。雷军还补了一刀,说在推理、规划等主流基准上"全面刷新性能上限"。
代码和模型权重已挂 GitHub,雷军向全球开发者和研究人员喊话,邀请一起"探索更多可能性"。开源时间点选得微妙:正值端到端自动驾驶路线混战,各家都在赌下一代架构,小米直接把底牌亮上桌。
这套方案是不是真能成为行业标配,还得看社区反馈。但至少,小米在汽车智能化上的技术叙事,从"追赶"悄悄换成了"定义"。
热门跟贴