金融界2025年7月8日消息,国家知识产权局信息显示,谷歌有限责任公司申请一项名为“利用从对比式解说词进行的零样本迁移的视频-文本建模”的专利,公开号CN120283271A,申请日期为2023年12月。

专利摘要显示,提供了一种用于为包括开放词汇视频分类、文本到视频检索、视频解说词添加和视频问答的任务建立基础视频‑文本模型的有效率方法。一些示例实现方式包括可以被称为VideoCoCa的模型。示例实现方式重用经预训练的图像‑文本对比式解说词添加器(CoCa)模型,并在具有少的或最小额外训练的情况下使其适配于视频‑文本任务。虽然先前工作采用具有各种跨帧融合模块(例如,跨帧注意力层或感知器重采样器)的图像‑文本模型,并在视频‑文本数据上微调经修改的架构,但是本公开的各方面利用以下发现:图像‑文本CoCa设计中的生成式注意力池化层和对比式性注意力池化层可以立即适于“扁平化帧嵌入”,从而为许多视频‑文本任务产生强的零样本迁移基线。

本文源自:金融界

作者:情报员