金融界2025年6月9日消息,国家知识产权局信息显示,小沃科技有限公司申请一项名为“一种LLMs预训练数据集优化方法、设备及存储介质”的专利,公开号CN120105100A,申请日期为2025年02月。
专利摘要显示,本发明公开了一种LLMs预训练数据集优化方法,包括:选取数据集内部数据,采用滑动窗口对文本进行逐片段的隐马尔可夫模型困惑度计算;基于所述隐马尔可夫模型困惑度计算结果,通过困惑度加权平均计算获得整个文本的综合困惑度评分,用于筛选数据集内部语义混乱的语句。本发明在传统的困惑度计算基础上通过引入滑动窗口技术和加权平均策略,能够为整个文本提供综合的质量评估指标,方便更精确地评估文本的语言模型适配度,相比单一困惑度计算,能更全面反映文本的质量状况,同时能够有效筛选出数据集中语义混乱的句子,将免费获取的网络低质量语料文本转换为高质量、有价值的语料,有效节省LLMs预训练成本、提升模型能力。
天眼查资料显示,小沃科技有限公司,成立于2014年,位于上海市,是一家以从事互联网和相关服务为主的企业。企业注册资本20000万人民币。通过天眼查大数据分析,小沃科技有限公司共对外投资了4家企业,参与招投标项目739次,财产线索方面有商标信息95条,专利信息74条,此外企业还拥有行政许可4个。
本文源自:金融界
作者:情报员
热门跟贴