金融界2025年3月29日消息,国家知识产权局信息显示,罗伯特·博世有限公司申请一项名为“用于大视觉-语言模型的可伸缩提示学习”的专利,公开号 CN 119693671 A,申请日期为2024年9月。

专利摘要显示,一种使用视觉‑语言模型(VLM)来生成文本驱动提示和类别预测概率的方法,包括:接收与图像的多个候选类别相关联的候选类别名称,基于候选类别名称的文本描述来生成类别文本词元,以及使用提示生成器来生成多个上下文提示向量。上下文提示向量定义了与要由VLM执行的图像分类任务相关联的上下文信息。所述方法进一步包括:通过将相应的类别文本词元附加到多个候选类别中的每一个的上下文提示向量来针对多个候选类别中的每一个生成提示,以及使用VLM基于多个上下文提示向量来生成并输出样本图像的类别预测概率。

本文源自:金融界

作者:情报员