金融界2025年1月30日消息,国家知识产权局信息显示,深圳市迪博企业风险管理技术有限公司申请一项名为“一种大模型训练数据自动筛选方法”的专利,公开号 CN 119377407 A,申请日期为2024年12月。

专利摘要显示,本申请涉及一种大模型训练数据自动筛选方法,该方法包括:收集大规模文本数据集,通过训练好的Transformer模型对大规模文本数据集中的各文本段落进行似然估计,得到各文本段落的生成概率;基于各文本段落的生成概率计算得到文本段落间的语义互信息熵值;以各文本段落作为节点,以文本段落间的语义互信息熵值作为边的权重,构建互信息熵图;基于互信息熵图,采用并查集算法进行节点聚类,得到多个簇;在每个簇内,通过随机采样的方式选择并保留一个节点,删除剩余节点;整合所有保留的节点对应的文本段落,得到精简的文本数据集。该方法避免了重复数据对模型训练的负面影响,实现了全自动、智能的大模型训练数据自动筛选。

天眼查资料显示,深圳市迪博企业风险管理技术有限公司,成立于2001年,位于深圳市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本3914.4万人民币,实缴资本3914.4万人民币。通过天眼查大数据分析,深圳市迪博企业风险管理技术有限公司共对外投资了3家企业,参与招投标项目706次,知识产权方面有商标信息3条,专利信息51条,此外企业还拥有行政许可17个。

本文源自:金融界

作者:情报员