智东西作者   王涵编辑   漠影
打开网易新闻 查看精彩图片
智东西作者 王涵编辑 漠影

“物理AI的ChatGPT时刻已经到来。”

2026年1月5日,拉斯维加斯CES展会,英伟达创始人兼CEO黄仁勋宣告AI正式进入新阶段。

在他看来,AI的演进可以分为四个阶段:Perception AI、Generative AI、Agentic AI、Physical AI。当模型能够理解质量、摩擦、惯性、动量守恒,AI才真正走出屏幕。他同时指出,要让机器人理解物理世界,不能仅靠单一模型,而是需要建立一整套智能系统

黄仁勋描绘了未来愿景,但一个问题摆在了所有人面前——物理世界的AI,到底需要什么样的技术能力?

AI真正走向物理世界,机器人、无人机、安防摄像头、可穿戴设备这些场景,需要的不是回答问题,而是持续工作。物理AI最重要的,也就是主动执行的能力。

Om AI联汇CEO兼首席科学家赵天成博士表示:“之前整个业内对通用视觉智能的关注度偏低,大家可能更关注一些可以看秀的表演或操作场景。但通用视觉这个点是未来物理AI真正规模化应用落地必不可少的,而且可能是更加现实、更加直接的核心技术,会更广泛地应用到所有物理AI场景。”

通用视觉智能(General Vision Intelligence),即模型能像人一样持续观察环境、精准定位目标、自主驱动行动,且这一切必须在端侧完成。

近日发布的VLX端侧流式多模态模型系列,正是这一路径的最新实践。

这是业界首次提出 “流式多模态” 这一全新模型架构。区别于传统模型“采集-上传-离线处理”的路径,VLX系列面向物理世界中持续涌入的视频流,实现毫秒级实时感知,并首次在端侧打通“持续感知→精准定位→行动决策”的完整闭环。

一、三个模型、三层能力、一条链路

什么是通用视觉智能(General Vision Intelligence)?

Om AI联汇的定义是三项核心能力:持续感知(无需人工触发)、空间智能(精准定位目标)、行动输出(直接驱动设备)。VLX系列的Flow、Seek、Go按个模型刚好对应这三项能力:

VLX-Flow是持续感知层:

传统视频AI普遍采用离散式处理逻辑,通过截取画面完成单次问答交互,观测存在明显间断。而VLX-Flow采用流式视频输入架构,图像数据流不间断送入模型,实现持续观测与时序记忆留存。VLX-Flow的实时性聚焦底层感知,无需人工下发指令触发,可自主不间断运行。

VLX-Seek是精准定位层:

市面上通用视觉大模型仅能实现画面内容文本描述,只能告知画面存在物体,却无法输出精准空间位置,难以回答目标坐标、数量等实操性问题。VLX-Seek更换底层技术思路,采用区域指代机制,直接输出毫米级精准空间锚点。

VLX-Go是行动输出:

传统视觉模型解析画面后仅能生成文字化操作指令,无法直接驱动硬件执行。VLX-Go更进一步,能够输出设备可直接调用的导航航点,支撑机器人自主完成移动动作,实现低延时实时反馈。

视频流持续进入,Flow负责“看懂”,Seek负责“找对”,Go负责“动起来”。三块拼图拼在一起,才构成完整的物理世界AI。

在基准测试中,VLX用三组数据印证了一个趋势:参数规模与物理世界的实际表现,正在脱钩

Seek-3B在目标检测基准MSCOCO val2017、复杂语义基准RefCOCO、开放词汇检测基准ODinW13以及目标计数基准PixMo Count,均大幅超越Gemini 3.1 Pro和GPT-5等旗舰大模型,用3B小参数做到了旗舰精度。

打开网易新闻 查看精彩图片

在机器人导航与跟踪任务中,Go(0.6B)以极小的参数量实现了85.42%的高成功率,超越参数大其13倍的Qwen-RobotNav-8B;同时以94.08%的跟踪率显著领先所有对比模型,证明其在动态目标跟随方面具备极强的视觉-运动协同能力,更加有力证明了针对端侧物理场景进行专用架构设计的有效性。

打开网易新闻 查看精彩图片

在延迟方面,端侧推理仅需0.1秒,而云端推理通常超过5秒,这50倍的差距直接决定了系统“可用”与“不可用”的边界。

结果证明,当模型必须跑在端侧、必须实时响应、必须自主决策时,“大”反而成了包袱。VLX的真正价值,是用更小的模型在端侧芯片上跑出更好的结果,证明了“为场景设计模型”这条路,比“把通用模型塞进场景”更高效。

二、给物理世界造一套“视觉中枢”

这样亮眼的测试成绩,根源于架构层面的差异。

传统模型处理视觉信息的方式是“截帧-上传-提问-回答”,即拍一张照片或上传一段视频,问一句,答一句。这种模式本质上是离散的、被动的。目前多数模型的解决方案依赖长上下文来处理视频输入,本质仍是“离线看一遍”。

Om AI联汇提出的流式多模态,相当于给设备装上一套持续运转的“视觉中枢”。摄像头采集的视频流像水一样流入模型,模型持续接收、理解、记忆,形成一个不间断的感知流。用户或开发者通过提示词自由定义输出目标,这套中枢可以按需输出文本描述、空间锚点或行动轨迹。

在技术路径上,VLX的流式能力则面向实时交互场景设计,系统可以自主持续观察、精准锁定、即刻行动。二者应用场景不同,架构设计也随之分化。

行业通用做法是先训练大参数模型,再通过量化、蒸馏等方式压缩至端侧,Om AI联汇采取了一条不同的技术路径。

据该公司技术团队介绍,VLX从设计起点即围绕端侧算力约束展开架构设计。Flow采用Linear Attention机制替代标准Attention,保证视频流持续输入时显存不溢出;Seek以区域指代替代坐标生成,在提升精度的同时降低计算量;Go采用短时航点预测,以快速响应周围环境的快速变化。

三、不再纸上谈兵,Om AI联汇定义物理AI新范式

此前,物理AI的落地一直卡在一个尴尬的位置:Demo惊艳,但量产乏力。VLX从头就是为了落地而设计的,并也已经大规模落地

  • 具身智能领域:行业长期面临的一个痛点是:不同机器人平台的系统架构、传感器方案、执行机构高度异构,算法从A机器人迁移到B机器人往往需要大量适配工作。VLX大脑具备跨平台能力,已全面支持云深处、宇树等头部企业的端侧设备,开发者在不同机器人平台上的适配周期大幅缩短。
  • 无人机领域:传统无人机巡检依赖飞手人工操作或拍完视频回传后台审核,耗时耗力。搭载VLX的无人机具备了自主视觉导航精准目标锁定能力,可自主识别违章、自主避障、自主规划航线。巡检效率提升数倍,响应时间从小时级缩短至秒级
  • 可穿戴设备领域:中国有超过1700万视障人士,但市面上的辅助工具大多停留在语音播报或简单障碍物提醒,无法解决“我在哪、周围有什么、怎么走过去”的连贯需求。Om AI联汇Homer平台旗下好马APP已服务近10万视障用户,通过AI助视眼镜帮助用户安全避障、出行导航、空间寻物。

打开网易新闻 查看精彩图片

  • 安防摄像头领域:客户无需更换现有硬件,只需在边缘侧或轻量化网关中接入VLX,即可让摄像头升级为可24小时自主研判的AI哨兵。原有硬件资产得到保护,避免了推倒重来的高额成本。
  • AI PC领域:PC上的端侧AI长期停留在文字对话和简单图像生成层面,缺乏真正的视觉理解与空间交互能力。VLX已完成与苹果、联想、惠普、英伟达四大头部品牌的端侧适配,为PC设备注入了实时视觉理解能力
  • 国产芯片方面:端侧AI的算力部署长期依赖英伟达等海外高端芯片,国产芯片受限于算力与生态,难以承载大参数模型。VLX针对算力约束做了专门优化,已在华为昇腾、地瓜、RK3588等国产平台完成适配。

VLX的行业价值,在于验证了一条不同于数字AI的架构路径

当行业仍在比拼谁把云端模型压缩得更小时,VLX选择从端侧算力约束出发设计模型。测试数据显示这条路无需等待算力迭代即可落地,部署成本大幅压缩,实时响应能力提升数十倍,国产芯片即可流畅运行。

与此同时,这套流式多模态路线已覆盖具身智能、无人机、可穿戴、安防、AI PC等多个场景,物理AI从“Demo展示”到“量产交付”的拐点正在显现。而VLX系列模型向开发者开放体验平台,则进一步降低了端侧智能应用的研发门槛,为产业链协同创新提供了更大的想象空间。

结语:用流式架构为物理世界重新设计AI

回到一开始的那个问题:物理世界,究竟需要怎样的AI?

Om AI联汇用VLX系列模型给出了答案:用流式架构为物理世界重新设计AI。

这背后,是Om AI联汇多年的长线布局与持续深耕。从2016年切入生成式对话技术,到2021年押注多模态赛道,再到2022年拿下国内首张多模态大模型测评证书,团队始终走在行业趋势之前,持续沉淀底层技术能力。

放眼整个物理AI赛道,行业从不缺愿景、概念与演示Demo。真正稀缺的,是能够适配真实场景、稳定运行、可规模化落地的成熟系统。更重要的是,它需要被百万级设备验证过。

VLX为物理AI的端侧化路径,提供了一个可参考的样本。

打开网易新闻 查看精彩图片