金融界2025年4月2日消息,国家知识产权局信息显示,SAP欧洲公司申请一项名为“基于信息词掩蔽的文档信息抽取模型的自指导预训练”的专利,公开号CN 119740632 A,申请日期为2024年9月。

专利摘要显示,本公开涉及用于基于训练技术从商业文档中提取信息以通过预训练来生成文档基础模型的计算机实现的方法、软件和系统。获得基于多个未标记文档的第一训练数据,以用于训练用于文档信息提取的第一模型。根据针对多个未标记文档中的每个未标记文档的单词令牌计数可调整的动态窗口来预训练第一模型。预训练包括评估多个未标记文档中的每个未标记文档中的单词令牌,其中根据针对单词令牌确定的个体掩蔽率来应用掩蔽。个体掩蔽率指示单词令牌的相应信息相关性。提供预训练的第一模型,用于初始化要基于作为第二训练数据的标记文档来训练的第二文档信息提取模型。

本文源自:金融界

作者:情报员