“五年前,我们做了一个反共识的赌注:机器智能的基质是动态记录的现实,不是语言。”TwelveLabs联合创始人兼CEO Jae Lee在宣布B轮融资时,重新讲述了这个决定公司命运的判断。他补充说:“语言是理解的下游产物。视频才是理解必须回应的数据。”这家专注视频理解基础模型的生成式AI公司,今天宣布完成1亿美元融资,试图从“简单理解”跨越到“整体智能”。

B轮融资由NEA和NAVER Ventures联合领投,Amazon、Radical Ventures、Korea Investment Partners、Index Ventures、Quadrille Capital和Red Bull Ventures参投。加上本轮,TwelveLabs累计融资超过2.07亿美元。这家公司选择了一条与主流大语言模型路线明显不同的技术路径——它的目标是让模型像人类一样理解视频,而不是把视频切成截图再让语言模型去“阅读”。

打开网易新闻 查看精彩图片

TwelveLabs从零开始构建多模态模型,这些模型不是“顺带处理视频”的大语言模型,而是原生理解视频的基础模型。公司的旗舰产品包括Marengo模型系列(3.0版本去年底发布)和Pegasus 1.5。Marengo负责将视频、音频、文本和构图信息转换成机器可读的数据结构,比如向量数据库,让AI模型能在大规模数据中进行理解和搜索。Pegasus则把视频转化为结构化数据——它能识别场景边界、实体、时间片段以及画面中发生的事件,让大语言模型基于视觉信息进行推理,类似语言模型处理长文档和图片时用标记语言做摘要的方式。

一个关键的技术差异在于,TwelveLabs构建的推理能力能够原生理解时间维度上的变化趋势。当前的大语言模型无法一次性“消化”整段视频,只能将视频切割成一系列截图,再基于这些离散画面推理。TwelveLabs的解决方案是让模型在多次查询之间维持记忆,而不是每次查询后记忆就“蒸发”。这种设计让模型随着处理视频数量的增加持续积累知识——用公司的话说,“智慧随视频累积”。

基于这些模型,TwelveLabs计划构建新的视频感知范式,让机器能分析、搜索和调用视频素材。这类技术的应用场景横跨安防、广告、体育、汽车等多个行业,这些领域都有海量信息存在于视频中。作为融资的一部分,公司正在深化与Amazon Web Services的合作关系,其服务至少从2025年起已在AWS Marketplace上线,用户可通过托管方式访问基础模型。