你的监控还在翻录像？这家小公司让AI替你"看"完了

我是一个粉刷匠2

2026-04-18 05:20 ·北京

你有没有算过，为了找一段"昨天快递员几点来的"视频，要在监控App里滑多久？

美国创业公司Xthings刚发布的Ulticam IQ V2，想把这个过程压缩成一句话。不是关键词搜索，是真的打字问它——"昨天UPS司机什么时候来的"——然后AI直接把那段视频调出来。

这听起来像科幻片，但产品已经开卖。更奇怪的是，它同时拿到了Matter认证和Google Gemini的AI能力，却是一家名不见经传的小公司做出来的。

我扒了一遍它的技术路线，发现这件事背后有个被忽视的趋势：安防摄像头正在从"录像机"变成"理解器"，而决定胜负的不再是硬件参数，是谁能先把"看懂画面"这件事做好。

一张图看懂：这台相机到底在搞什么

先放核心架构。Ulticam IQ V2的处理逻辑分三层：

第一层在本地。相机自己跑边缘计算，识别基础对象——是人、是车、还是包裹。这部分不上云，响应快，也不吃带宽。

第二层在云端。识别出"有个穿棕色制服的人"之后，画面片段被加密传到Google Gemini。AI开始理解上下文：这是UPS司机，他放下箱子，在门廊待了2分钟，然后离开。

第三层在交互端。用户用自然语言提问，Gemini在已理解的语义层检索，而不是逐帧比对像素。

这个架构的关键在于"分层"——不是把所有事都扔给云端，也不是硬撑本地算力装大模型。Xthings的选择很务实：本地干得了的本地干，本地干不了的交给云，但只传片段、只传加密后的结果。

为什么是现在？Matter 1.5和AI的意外交汇

Ulticam IQ V2有个头衔：第一台通过Matter认证的AI安防相机。Matter 1.5版本去年终于加入了摄像头支持，这是苹果、谷歌、亚马逊、三星等巨头拉扯多年的统一标准。

但这里有个尴尬的时差。

相机拿到了Matter认证，苹果的Home App却还没支持Matter摄像头。Xthings自己在产品页也埋了句实话：等苹果更新。按往年节奏，WWDC 2026（今年夏季）公布iOS 27功能时，这事可能有下文。

所以现在的状态是：标准先到了，生态还没跟上。

Xthings的应对很实际——同时支持ONVIF协议。这意味着你可以把它接进Home Assistant、接进NVR（网络视频录像机）、接进任何兼容标准协议的本地系统。不绑死任何一家平台，先让产品能用起来。

这种"标准先行、生态滞后"的局面，在智能家居领域反复上演。但这一次，AI能力的加入让等待期有了新玩法：就算Home App暂时不支持，Gemini的语义搜索和每日摘要已经能独立运转。

免费云存储：一个反直觉的商业设计

安防行业的订阅模式已经让人疲惫。Ring、Nest、Arlo们的基础功能往往免费，但想看历史录像？请交钱。

Xthings的选择是：7天滚动云存储，免费。不需要订阅。

这个决策背后有两种可能的逻辑。一是硬件毛利足够高，用云存储成本换用户口碑和早期渗透；二是把云存储当引流入口，未来在AI增值服务上收钱——更高级的语义分析、更长周期的存储、企业级管理功能。

无论哪种，对用户的即时吸引力是真实的。AES-256加密+免费7天云存+无订阅门槛，这套组合在200-300美元价位段（参考同类PoE 4K相机定价）相当能打。

当然，"免费"的长期可持续性需要观察。但在这个阶段，它确实降低了尝试门槛——毕竟买一台相机回家，最怕的就是发现"想看回放请先绑定信用卡"。

自然语言搜索：这是真需求还是伪痛点？

让我最在意的功能是"打字找视频"。

现有的安防App搜索，基本是时间轴+事件类型筛选。你知道是昨天下午，知道是"有人移动"，还是要从几十条通知里翻。更高级一点的支持"找人"或"找车"，但前提是系统已经标记过这个人/这辆车。

Xthings声称的突破是：无需预标记，直接问。

"昨天UPS司机什么时候来的"——这句话里包含时间范围（昨天）、对象特征（UPS司机、棕色制服）、事件类型（到达）。Gemini需要把自然语言解析成查询条件，再在已理解的语义数据库里匹配。

如果准确率够高，这确实改变了交互范式。但"如果"是关键。边缘案例会很多：快递员被树挡住了一半、制服颜色在黄昏下偏色、用户说的是"那个送亚马逊的"但系统只标记了"Amazon"没标记"亚马逊"。

Xthings没有公开技术白皮书，所以我们不知道它的实际准确率。但从产品逻辑看，它至少解决了一个真问题：降低回放视频的"检索成本"。

对企业级安防系统来说，这个需求更痛。一个仓库几十路摄像头，保安每天花多少时间在"找某时某地的某段画面"上？如果自然语言搜索真的成熟，省下来的人力成本相当可观。

小公司的机会窗口：为什么不是海康、不是Ring？

值得玩味的是，做出这个产品的不是安防巨头，而是一家叫Xthings的创业公司。

大公司的包袱在于：既有产品线、既有订阅用户、既有技术栈。Ring和Nest的AI通知已经"够用"，它们没有动力推倒重来。海康威视们的主战场在企业级，消费端的软件体验不是优先级。

Xthings的窗口在于：Matter 1.5刚发布，标准支持是空白；Gemini API已经开放，集成门槛降低；PoE+4K的硬件方案成熟，可以采购模组快速组装。

换句话说，它不是在"发明"新技术，而是在新技术交汇的缝隙里，第一个把产品做出来。

这种策略的风险也很明显：软件更新依赖、云AI成本波动、巨头随时可能跟进。但如果它能在6-12个月内建立"AI安防=Ulticam"的用户认知，就有机会被收购或成为细分品类定义者。

你该关注什么：三个待验证的假设

作为潜在用户或行业观察者，Ulticam IQ V2的价值取决于三个假设能否成立：

第一，自然语言搜索的准确率。这是核心卖点，也是最容易翻车的地方。建议等首批用户评测，特别是复杂光线、遮挡、口语化描述的场景。

第二，苹果对Matter摄像头的支持节奏。如果WWDC 2026没有相关更新，这台相机的"未来兼容性"叙事会打折扣。但ONVIF兜底意味着它不会变成砖头。

第三，免费云存储的持续性。7天滚动是营销承诺还是长期政策，需要观察6个月以上的用户反馈。

如果这三点都过关，它可能代表安防摄像头的一个转折点：从"看得清"到"看得懂"，从"存得下"到"找得到"。

一个值得尝试的动作

如果你正在选安防相机，或者负责公司的智能办公采购，可以做一件事：把"自然语言检索"加入评估清单。

不管最后买不买Ulticam，这个能力很快就会成为行业标配。Google、亚马逊、苹果都在推多模态大模型，摄像头是最自然的落地场景之一。

下次供应商来演示，别只问"夜视多少米""能不能识别人脸"，加一句："我能打字问它'昨天谁进了会议室'吗？"

对方的反应，会告诉你这家公司的技术路线在哪个年代。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴