henry 发自 凹非寺
量子位 | 公众号 QbitAI

好家伙!

这CVPR也就刚过去没几天,会上还在热议的方向,就已经给一家杭州团队跑进了端侧!

刚刚,Om AI发布全球首个面向物理世界的端侧流式多模态模型系列——

VLX

打开网易新闻 查看精彩图片

VLX主打真实世界的端侧与具身场景,总共三款模型,三天连发:

  • VLX-Flow:实时流式感知,让视频像水流一样持续输入,模型实时看、实时想、实时更新世界状态。
  • VLX-Seek:精准定位,从看见走向看清,快速锁定目标。
  • VLX-Go:行动决策,把感知和定位的结果转化成真实动作——该往哪走、怎么操作,一气呵成。

这三款模型连起来,不仅构成了多模态模型持续感知、精准定位、行动决策的能力闭环。

与此同时,其原生端侧设计也让它能够真正跑进手机、无人机、机器人这些端侧设备。

而这,也并不是Om AI第一次在VL(视觉语言)领域发力。

去年,他们推出了全网爆火的VLM-R1

打开网易新闻 查看精彩图片

作为全球首个将DeepSeek R1强化学习范式引入视觉语言模型的开源项目,上线12小时获得超过2000颗GitHub Star。

48小时登顶GitHub全球趋势榜,至今已斩获6000+Star。

这一次,他们交出的新答卷,是VLX。

一条通往物理世界的能力链

一条通往物理世界的能力链

为了更好地理解VLX这次的技术路线,我们可以把它拆成两个关键词:端侧流式多模态

咱们先看后者。

所谓流式多模态,就是让AI能够在物理世界中持续、实时地感知环境,并最终形成一条完整的能力链:

感知(Perception)→ 精准定位(Grounding)→ 行动(Action)。

打开网易新闻 查看精彩图片

它跟我们此前在语音助手里“听”到的流式多模态不同。

语音助手强调的是人与AI的实时交互,而VLX关注的,则是AI在物理世界中持续观察、持续判断,并最终驱动行动,完成从“看图”到“做事”的跨越。

这种定位的不同,其实反映的是VLM角色的转变。

随着具身智能空间智能视频生成等领域快速发展,VLM已经不再只是LLM的一个能力模块,而是在逐渐成为空间理解、视频理解乃至动作规划的新一代基础设施。

这意味着,VLM不仅需要看图说话,更需要具备持续感知、精准定位和驱动行动的能力,从而为下游任务提供统一、精准的基座能力。

一个很直观的信号来自今年CVPR。

打开网易新闻 查看精彩图片

数据显示,VLM/多模态相关论文占比已经从去年的4.9%增长到10.6%,几乎翻倍,成为近年来增长最快的研究方向之一。

而在论文数量快速增长的背后,最值得关注的两个关键词,就是实时感知(Streaming)定位(Grounding)

(注:Grounding的核心就是让模型根据一句自然语言描述,准确找到图像或视频中对应的对象、区域和概念)

VLX的整套设计,也正是围绕这两个方向展开,并进一步把能力延伸到了最终的行动。

VLX-Flow:流式推理

首先是VLX-Flow,负责持续感知,解决的是看见。

在真实世界中,由于物体始终处于运动之中,环境、状态不断变化、视角切换也时刻发生。

一次性的观察,很难应对这样动态、开放且持续变化的环境。因此,模型必须像人一样不断接收新信息、持续更新对环境的理解。

打开网易新闻 查看精彩图片

传统视频模型往往将整段视频切成帧,一次性送入模型做离线理解。

视频一长,不仅计算成本急剧上升,还容易丢失前文信息,难以支撑实时交互。

为解决这一问题,Flow采用了流式处理。

让画面像水流一样持续涌入,靠增量编码和缓存机制不断更新自己的视觉状态,既不用反复重算历史,也不会因为视频变长而失忆。

技术层面, Flow用Linear Attention替代标准Attention,并结合双层记忆机制,让视频流能够持续进入模型而不会因上下文增长导致显存爆炸。

也就是说,它不等视频播完再理解,而是一边看一边更新对环境的认知,必要时还能主动发起交互,并做到实时视频流下的低延迟响应。

不过,持续看只是第一步,模型还必须知道到底该看哪里

VLX-Seek:精细感知

接下来是VLX-Seek,负责精细感知,解决的是看得准。

机器人为例,仅仅知道“前面有一把椅子”远远不够,它还需要准确知道目标在哪里、是哪一个,才能完成跟随、抓取、导航、避障等后续动作。

打开网易新闻 查看精彩图片

但这恰恰是许多通用VLM的短板。它们虽然擅长高层语义理解,却在精确定位、开放词汇检测和细粒度Grounding等任务上表现有限,难以满足真实世界的需求。

传统方法大多采用自回归方式,一个坐标一个坐标地预测目标位置,不仅速度慢,也容易出现偏差。

Seek则换了一种思路。它不再“猜坐标”,而是先生成候选区域,再完成检索和匹配,把定位过程变成“选区域”。

具体来说,Seek用Region Token替代传统坐标生成,在保持识别能力的同时,大幅降低模型大小和端侧部署成本;

这种方式更符合视觉感知任务本身,因此即使模型规模更小,也能在开放词汇检测、细粒度定位和实时跟踪等任务上保持稳定表现,同时更适合实时追踪和端侧部署。

不过,对于物理世界来说,看得准仍然不是终点,真正的目标,是行动。

VLX-Go:运动执行

最后是VLX-Go,负责行动,解决的是动得了。

对于机器人来说,理解环境只是第一步,真正重要的是把理解转化成动作。

传统VLM即使知道“目标在左前方”,最终也大多停留在文字回答;真正走过去、绕开障碍、持续跟随目标,仍然需要额外的控制系统来完成。

Go则进一步打通了这一步。

它通过单目视频、历史视觉记忆和自然语言指令作为输入,Go将这些信息直接处理成机器人可执行的短时航点,直接预测未来一小段时间应该如何运动,而不是只输出一句文字建议。

与此同时,Go还结合离线轨迹学习和在线强化学习,在仿真闭环中不断修正运动策略,使机器人能够根据实时视觉反馈持续调整轨迹,在目标跟随、导航、动态避障等任务中保持稳定表现。

为了满足端侧实时控制的需求,Go没有采用复杂的长链路规划,而是选择了更轻量的短时航点预测方案,仅用0.6B参数,就能完成实时运动规划。

至此,VLX完成了从感知到定位再到行动的最后一块拼图。

打开网易新闻 查看精彩图片

与此同时,Flow、Seek、Go并不是三个彼此独立的模型,而是共享同一个基座,在同一条视频流上完成端到端协作。

从持续感知,到精准定位,再到行动决策,三者共同组成了VLX面向物理世界的一条完整能力链。

反观,这也是为什么仅靠一个通用VLM,很难真正扛起物理世界AI的闭环。

因为只会看,却找不准目标;看得准,却不会行动,都无法真正完成任务。

物理世界需要的,不是一个更会聊天的模型,而是一套能够从看见、看清一路衔接到行动,并持续稳定运行的系统。

而VLX,就是Om AI交出的答卷。

那么,为什么这样一套系统,必须跑在端侧?

Day1端侧原生架构

Day1端侧原生架构

先说结论:对于机器人、无人机、摄像头这些物理世界的设备来说,端侧部署是模型真正落地的前提。

原因嘛,并不复杂。

一个机器人在跟随目标时,等不起把视频上传云端、完成编码、再把结果传回来的几秒钟。

一架无人机在巡检避障时,也不能把“看见”和“行动”拆成两个缓慢的离线步骤。

更现实的是,很多场景本身就受到网络、隐私和算力的限制。数据未必能上传,设备未必始终联网,而真正的物理世界也不会停下来等待模型思考。

这意味着,今天很多云端多模态模型虽然已经足够强,却并不天然适合机器人和具身场景。

因为真实世界是连续的、动态的、资源受限的。模型既要实时感知、快速响应,又要在有限的算力和部署成本下稳定运行,真正完成任务。

针对这个问题,行业里常见的思路,是先训练一个尽可能大的模型,再通过量化、蒸馏等方式,把它压缩到端侧运行。

VLX选择了另一条路。

它不是把云端模型做小,而是从Day 1开始,就按照端侧的算力约束重新设计整个系统

模型架构、推理方式和部署链路,从一开始就是围绕实时视频流和端侧设备设计,而不是等模型训练完成后,再想办法压缩部署。

打开网易新闻 查看精彩图片

本质上,这是两条完全不同的技术路线。一种是把云端模型裁剪到端侧;另一种,则是为端侧重新长出一套模型。

对此,Om AI的判断是:当你从Day 1就为端侧设计,每一层都在算力约束下做最优选择,结果就是“小而准”胜过“大而全”。

光说不算,数据也印证了Om AI的判断:Flow处理单路视频最快仅需0.06秒,同时能够稳定处理多路视频流;

Go仅用约十分之一的参数规模,就取得了优于更大模型的导航表现;

Seek则以3B级模型,在目标检测等任务上达到甚至超过了更大规模通用模型的效果。

这也是VLX最特别的地方。

它追求的并不是做一个更大的通用VLM,而是围绕真实世界的约束,重新设计一套能够持续感知、精准定位、实时行动,并真正跑在端侧的多模态系统。

VLX,不是又一个VLM

VLX,不是又一个VLM

聊完流式多模态,也聊完端侧,我们最后回到VLX本身。

VLX做的不是把一个多模态模型搬到端侧,而是第一次把持续感知、精准定位、行动决策做成一套能够长期连续运转的系统。

所以,严格来说,端侧流式多模态,并不是一个“更小的VLM”,而是一种新的模型形态。

过去几年,多模态模型竞争的重点,一直是谁参数更多、知识更广、推理更强,而VLX换了一道题。

它关心的不是模型能回答多少问题,而是能不能一直待在真实世界里,持续感知、实时响应,并最终完成行动。

这也是它和通用VLM最大的区别。

通用VLM更擅长复杂知识问答、长文本推理、长视频总结;

而VLX关注的是另一类问题:机器人、无人机、摄像头这些设备,如何在有限算力下持续理解环境,并完成行动闭环。

当然,两者并不是非此即彼的替代关系,而是面向不同场景的能力分工。

云端模型继续追求更强的推理和知识能力;端侧模型则越来越强调低延迟、低功耗、持续感知和实时执行。

如果说过去几年,多模态模型回答的是“看懂世界”这道题,那么VLX尝试回答的,则是另一道题:

如何让模型真正活在世界里。

团队介绍

团队介绍

最后,把视角拉回到VLX背后的团队,Om AI

Om AI是一家来自杭州的AI公司,也是国内最早布局多模态模型的团队之一。

打开网易新闻 查看精彩图片

创始人兼CEO赵天成是CMU计算机博士、吴文俊人工智能科技进步奖得主。团队成员来自CMU、清华、浙大、微软、阿里云等机构,手握50多篇顶会论文和50多项发明专利。

打开网易新闻 查看精彩图片

赵天成博士

此前,Om AI最出圈的事件莫过于我们开头提到的VLM-R1,是首个将DeepSeek R1强化学习范式引入视觉语言模型的工作。

事实上,作为国内最早涉猎多模态领域的团队,早在2022年,Om AI就拿下了工信部第一张多模态模型认证,比大模型热潮早了整整一年。

自此,Om AI一直围绕同一个目标迭代——让多模态模型从看图说话,走向持续感知、精准定位和真实行动。

这次发布的VLX,则是这条路线的最新成果。

不同于把云端模型压缩到设备上,VLX从第一天就是围绕端侧设计。Flow、Seek、Go三款模型共享同一基座,在同一视频流上完成感知、定位与行动的协同,真正打通了感知→定位→行动的完整链路。

如果说移动互联网时代需要iOS和Android,那么端侧AI时代,同样需要一套原生的模型基础设施。

而Om AI选择做的,正是这样一套真正能够跑进手机、机器人和各种智能终端的底层能力。

体验平台链接:
https://platform.om-agent.cn/subapp-index/#/front
官网:www.om-ai.com
github:
https://github.com/om-ai-lab
huggingface:
https://huggingface.co/omlab
X: https://x.com/OmAI_lab