国家知识产权局信息显示,西安电子科技大学、西安洞见数据科技有限公司申请一项名为“基于模型蒸馏的长文本标签分类的小尺寸大模型训练方法”的专利,公开号CN121705748A,申请日期为2026年2月。
专利摘要显示,本发明公开了一种基于模型蒸馏的长文本标签分类的小尺寸大模型训练方法,属于人工智能模型训练领域,包括:对根据文献库构建的样本数据集进行预处理,将得到的预处理后的样本数据集输入大尺寸大模型进行语义分析,并根据预设标签体系生成标签集合;根据预处理后的样本数据集、标签集合和预设损失函数对小尺寸大模型进行监督微调训练,并通过分类Token和直接偏好优化对小尺寸大模型进行特征对齐和偏好对齐,得到训练完成的小尺寸大模型;将待预测长文本输入训练完成的小尺寸大模型,得到预测标签。本发明通过模型蒸馏使得小尺寸大模型具备大尺寸大模型的语义理解能力,资源消耗低、响应速度快,通过DPO机制使预测标签的结果贴近偏好。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:情报员
热门跟贴