金融界2024年11月11日消息,国家知识产权局信息显示,江苏云从曦和人工智能有限公司申请一项名为“文档数据过滤方法、大语言模型训练方法、设备及介质”的专利,公开号CN 118916336 A,申请日期为2024年7月。

专利摘要显示,本申请涉及计算机技术领域,具体提供一种文档数据过滤方法、大语言模型训练方法、设备及介质。旨在解决大语言模型的训练数据质量不佳的技术问题。本申请的文档数据过滤方法包括:获取文档数据集,文档数据集包括多个文档数据;对文档数据集中的文档数据执行分类操作,确定每个文档数据对应的文档类别;对文档数据集中的文档数据进行质量评估,确定文档数据的质量分数;基于文档数据对应的文档类别和质量分数,判断文档数据是否符合过滤条件;若是,则将文档数据进行过滤。本申请通过文档数据的文档类别和质量分数将符合过滤条件的低质量文档数据进行过滤,有效地优化了文档数据集的数据质量。

本文源自:金融界

作者:情报员