融资1亿美金，这家公司赌语言模型不是AI的未来|推理|融资|语言模型

“五年前，我们做了一个反共识的赌注：机器智能的基质是动态记录的现实，不是语言。”TwelveLabs联合创始人兼CEO Jae Lee在宣布B轮融资时，重新讲述了这个决定公司命运的判断。他补充说：“语言是理解的下游产物。视频才是理解必须回应的数据。”这家专注视频理解基础模型的生成式AI公司，今天宣布完成1亿美元融资，试图从“简单理解”跨越到“整体智能”。

B轮融资由NEA和NAVER Ventures联合领投，Amazon、Radical Ventures、Korea Investment Partners、Index Ventures、Quadrille Capital和Red Bull Ventures参投。加上本轮，TwelveLabs累计融资超过2.07亿美元。这家公司选择了一条与主流大语言模型路线明显不同的技术路径——它的目标是让模型像人类一样理解视频，而不是把视频切成截图再让语言模型去“阅读”。

TwelveLabs从零开始构建多模态模型，这些模型不是“顺带处理视频”的大语言模型，而是原生理解视频的基础模型。公司的旗舰产品包括Marengo模型系列（3.0版本去年底发布）和Pegasus 1.5。Marengo负责将视频、音频、文本和构图信息转换成机器可读的数据结构，比如向量数据库，让AI模型能在大规模数据中进行理解和搜索。Pegasus则把视频转化为结构化数据——它能识别场景边界、实体、时间片段以及画面中发生的事件，让大语言模型基于视觉信息进行推理，类似语言模型处理长文档和图片时用标记语言做摘要的方式。

一个关键的技术差异在于，TwelveLabs构建的推理能力能够原生理解时间维度上的变化趋势。当前的大语言模型无法一次性“消化”整段视频，只能将视频切割成一系列截图，再基于这些离散画面推理。TwelveLabs的解决方案是让模型在多次查询之间维持记忆，而不是每次查询后记忆就“蒸发”。这种设计让模型随着处理视频数量的增加持续积累知识——用公司的话说，“智慧随视频累积”。

基于这些模型，TwelveLabs计划构建新的视频感知范式，让机器能分析、搜索和调用视频素材。这类技术的应用场景横跨安防、广告、体育、汽车等多个行业，这些领域都有海量信息存在于视频中。作为融资的一部分，公司正在深化与Amazon Web Services的合作关系，其服务至少从2025年起已在AWS Marketplace上线，用户可通过托管方式访问基础模型。