你有没有算过,为了找一段"昨天快递员几点来的"视频,要在监控App里滑多久?
美国创业公司Xthings刚发布的Ulticam IQ V2,想把这个过程压缩成一句话。不是关键词搜索,是真的打字问它——"昨天UPS司机什么时候来的"——然后AI直接把那段视频调出来。
这听起来像科幻片,但产品已经开卖。更奇怪的是,它同时拿到了Matter认证和Google Gemini的AI能力,却是一家名不见经传的小公司做出来的。
我扒了一遍它的技术路线,发现这件事背后有个被忽视的趋势:安防摄像头正在从"录像机"变成"理解器",而决定胜负的不再是硬件参数,是谁能先把"看懂画面"这件事做好。
一张图看懂:这台相机到底在搞什么
先放核心架构。Ulticam IQ V2的处理逻辑分三层:
第一层在本地。相机自己跑边缘计算,识别基础对象——是人、是车、还是包裹。这部分不上云,响应快,也不吃带宽。
第二层在云端。识别出"有个穿棕色制服的人"之后,画面片段被加密传到Google Gemini。AI开始理解上下文:这是UPS司机,他放下箱子,在门廊待了2分钟,然后离开。
第三层在交互端。用户用自然语言提问,Gemini在已理解的语义层检索,而不是逐帧比对像素。
这个架构的关键在于"分层"——不是把所有事都扔给云端,也不是硬撑本地算力装大模型。Xthings的选择很务实:本地干得了的本地干,本地干不了的交给云,但只传片段、只传加密后的结果。
为什么是现在?Matter 1.5和AI的意外交汇
Ulticam IQ V2有个头衔:第一台通过Matter认证的AI安防相机。Matter 1.5版本去年终于加入了摄像头支持,这是苹果、谷歌、亚马逊、三星等巨头拉扯多年的统一标准。
但这里有个尴尬的时差。
相机拿到了Matter认证,苹果的Home App却还没支持Matter摄像头。Xthings自己在产品页也埋了句实话:等苹果更新。按往年节奏,WWDC 2026(今年夏季)公布iOS 27功能时,这事可能有下文。
所以现在的状态是:标准先到了,生态还没跟上。
Xthings的应对很实际——同时支持ONVIF协议。这意味着你可以把它接进Home Assistant、接进NVR(网络视频录像机)、接进任何兼容标准协议的本地系统。不绑死任何一家平台,先让产品能用起来。
这种"标准先行、生态滞后"的局面,在智能家居领域反复上演。但这一次,AI能力的加入让等待期有了新玩法:就算Home App暂时不支持,Gemini的语义搜索和每日摘要已经能独立运转。
免费云存储:一个反直觉的商业设计
安防行业的订阅模式已经让人疲惫。Ring、Nest、Arlo们的基础功能往往免费,但想看历史录像?请交钱。
Xthings的选择是:7天滚动云存储,免费。不需要订阅。
这个决策背后有两种可能的逻辑。一是硬件毛利足够高,用云存储成本换用户口碑和早期渗透;二是把云存储当引流入口,未来在AI增值服务上收钱——更高级的语义分析、更长周期的存储、企业级管理功能。
无论哪种,对用户的即时吸引力是真实的。AES-256加密+免费7天云存+无订阅门槛,这套组合在200-300美元价位段(参考同类PoE 4K相机定价)相当能打。
当然,"免费"的长期可持续性需要观察。但在这个阶段,它确实降低了尝试门槛——毕竟买一台相机回家,最怕的就是发现"想看回放请先绑定信用卡"。
自然语言搜索:这是真需求还是伪痛点?
让我最在意的功能是"打字找视频"。
现有的安防App搜索,基本是时间轴+事件类型筛选。你知道是昨天下午,知道是"有人移动",还是要从几十条通知里翻。更高级一点的支持"找人"或"找车",但前提是系统已经标记过这个人/这辆车。
Xthings声称的突破是:无需预标记,直接问。
"昨天UPS司机什么时候来的"——这句话里包含时间范围(昨天)、对象特征(UPS司机、棕色制服)、事件类型(到达)。Gemini需要把自然语言解析成查询条件,再在已理解的语义数据库里匹配。
如果准确率够高,这确实改变了交互范式。但"如果"是关键。边缘案例会很多:快递员被树挡住了一半、制服颜色在黄昏下偏色、用户说的是"那个送亚马逊的"但系统只标记了"Amazon"没标记"亚马逊"。
Xthings没有公开技术白皮书,所以我们不知道它的实际准确率。但从产品逻辑看,它至少解决了一个真问题:降低回放视频的"检索成本"。
对企业级安防系统来说,这个需求更痛。一个仓库几十路摄像头,保安每天花多少时间在"找某时某地的某段画面"上?如果自然语言搜索真的成熟,省下来的人力成本相当可观。
小公司的机会窗口:为什么不是海康、不是Ring?
值得玩味的是,做出这个产品的不是安防巨头,而是一家叫Xthings的创业公司。
大公司的包袱在于:既有产品线、既有订阅用户、既有技术栈。Ring和Nest的AI通知已经"够用",它们没有动力推倒重来。海康威视们的主战场在企业级,消费端的软件体验不是优先级。
Xthings的窗口在于:Matter 1.5刚发布,标准支持是空白;Gemini API已经开放,集成门槛降低;PoE+4K的硬件方案成熟,可以采购模组快速组装。
换句话说,它不是在"发明"新技术,而是在新技术交汇的缝隙里,第一个把产品做出来。
这种策略的风险也很明显:软件更新依赖、云AI成本波动、巨头随时可能跟进。但如果它能在6-12个月内建立"AI安防=Ulticam"的用户认知,就有机会被收购或成为细分品类定义者。
你该关注什么:三个待验证的假设
作为潜在用户或行业观察者,Ulticam IQ V2的价值取决于三个假设能否成立:
第一,自然语言搜索的准确率。这是核心卖点,也是最容易翻车的地方。建议等首批用户评测,特别是复杂光线、遮挡、口语化描述的场景。
第二,苹果对Matter摄像头的支持节奏。如果WWDC 2026没有相关更新,这台相机的"未来兼容性"叙事会打折扣。但ONVIF兜底意味着它不会变成砖头。
第三,免费云存储的持续性。7天滚动是营销承诺还是长期政策,需要观察6个月以上的用户反馈。
如果这三点都过关,它可能代表安防摄像头的一个转折点:从"看得清"到"看得懂",从"存得下"到"找得到"。
一个值得尝试的动作
如果你正在选安防相机,或者负责公司的智能办公采购,可以做一件事:把"自然语言检索"加入评估清单。
不管最后买不买Ulticam,这个能力很快就会成为行业标配。Google、亚马逊、苹果都在推多模态大模型,摄像头是最自然的落地场景之一。
下次供应商来演示,别只问"夜视多少米""能不能识别人脸",加一句:"我能打字问它'昨天谁进了会议室'吗?"
对方的反应,会告诉你这家公司的技术路线在哪个年代。
热门跟贴