一起突发事件发生,现场附近十二个摄像头拍下了不同角度的画面,两架无人机也在空中盘绕,社交平台上已经流出十几段路人拍摄的视频。然而对于调查员来说,看着满满一屏幕的视频文件,却高兴不起来——这些视频没有统一的索引,没有自动提取的时间轴标记,想找到那个一闪而过的关键瞬间,只能靠肉眼一帧帧地磨。Airis Labs的首席执行官诺姆·弗里德曼说得直白:“政府团队不缺原始视觉数据,他们缺的是机器可读的理解。”这家刚刚浮出水面的AI视频分析初创公司,带着6000万美元融资和一项“把视频分析提速150倍”的技术,想把这个被各类摄像头淹没的市场翻一个底朝天。
先看那笔钱。Airis Labs在正式步入公众视野的同一天,宣布拿到了6000万美元的融资。其中略微超过一半的资金来自A轮,由成长型股权机构PSG Equity领投,跟投方包括TLV Partners、Stepstone Group、Redseed Ventures以及多位天使投资人。整套资本组合看着不像是只赌一把早期概念,更偏向一家已经具备产品落地能力、准备规模化铺开的公司。在政府科技赛道,这样的融资体量往往意味着客户已经不是“未来会有的”,而是“已经在用并且用得着急”。
那么,工具到底解决了什么问题?关键卡在一个数据库老手都熟悉的词上——索引。视频数据本质上是一种非结构化信息流,一帧接着一帧,天然缺少数据库里那种帮人快速跳转的目录。在关系型数据库中,开发人员会用索引文件来预先建好一套捷径,把查询时间从“扫全表”压缩到“直接翻到那一页”。然而监控视频、社交媒体视频、无人机航拍片段,装进硬盘时只不过是一堆连续的比特,想从中挑出“白帽衫男子三秒内从南向北跑过”这样的信息,等于让分析师在没有目录的图书馆里,凭翻书声来找一句话。Airis的平台瞄准的,就是给这些死沉的视频库配上一副能即时生成智能索引的AI大脑。
靠什么生成索引?靠的是把视频这种“人看得懂、机器读不懂”的东西,先扔进一套多模态神经网络里彻底翻译成数字。这套方法听着耳熟——Transformer架构。它最早是拿来分析文本的,但经过一番改造,同样能吞下视频和音频。大致的流程并不神秘:AI会先把文字、声音、图像都转成一组组高维向量,也就是大家都说的“嵌入”。视频片段是一段连续的图像序列,每一帧都能变成一套嵌入向量,音频片段用同样的方式变成数字序列,于是原本互相隔绝的视频流和录音,在数学空间里变成了一堆位置可以比较的点。Transformer恰好擅长在这种数字序列中寻找关联和依赖关系,不必逐个帧线性浏览,就能一下子找到哪些片段在语义上属于“同一件事的不同侧面”。
这样一来,Airis能做一件更不客气的事——它把多个视频源的信息合并成单一视图。同一个现场,监控头朝东,行车记录仪朝西,无人机从头顶掠过,社交媒体上的手机视频还晃得厉害,AI把这些不同角度、不同时间开口的素材统合起来,让一个事件的全局还原不再需要分析员脑内拼接。平台会给出一个用自然语言描述的事件时间线:什么事发生了,发生在哪,什么时候发生的。不需要分析师手动打时间戳、不需要对着波形找异响,界面本身就是一段用日常语言写成的简报流。对一线人员来说,这种“把画面直接翻译成描述”的做法,无异于把刑侦笔记和录像回放捏成了一个东西。
平台被人讨论最多的数字是那个“150倍”。Airis表示,针对某些视频分析任务,处理速度能被拉升到这个幅度。这不是说任何操作都快150倍,而是说过去靠多步骤、跨工具协作才能完成的分析管线,现在被压进一个统一的、带有拖放界面的调查工具里。分析师想挑出一段特定视频,直接拖拽时间轴上的关键帧标记,底层的AI模型同时还能从音频片断和文本中抓出额外的关键细节。那种频繁切换软件、来回导出片段、再用播放器慢放的日子,被强行切断了链条。对那些以小时计费、被案子追着跑的政府分析团队来说,节约下来的不只是机时,更是人时。
具体的场景可以看得更细一点:客户可以让Airis的平台监测某个特定地点的潜在危险。系统会把值得关心的事件推送进一条动态流,用自然语言表述出每一件异常事件的概貌。比如“凌晨2点17分,北侧围栏外,有人向院内投掷未知物体”,时间和方位都附着在上面。这背后并不是简单的移动侦测,而是多模态模型对视频中的物体、动作、声音甚至环境文字做出综合判断后才产出的描述。过去可能需要三个不同部门的两个工作人员来回发邮件才能拼出的画面,现在一条消息就抖出来了。这让很多之前因为人力不足而被埋没的线索,重新摆上了台面。
再往底座挖一层,这类多模态模型之所以能在视频上产生稳定的理解,离不开嵌入向量的精妙之处。不论是一段文本,还是一个三秒的音频切片,还是一帧图片,模型都会把它们压缩成固定维度的数字向量。在向量空间里,描述“爆炸声”的音频向量,和画面里出现火光的视频向量,会因为语义上的高度相关而自动聚在一起。Transformer利用自注意力机制,允许模型在摄入一整段视频序列时,给每一帧的画面向量加上与前后文相关的权重,这让系统不必追着每一帧逐个问“这是警报吗?”,而是一次性对所有帧的关系做全局判断。所以当分析员要找“那一次巨响之后的画面”,系统不是靠关键字匹配,而是靠向量之间的相似度直接定位到那里。这就是为什么
热门跟贴