观点网讯:2月13日,阿里巴巴(中国)有限公司申请公布"一种基于思维链训练大型语言模型的方法、装置和设备"专利。专利摘要显示,该方法通过获取多个初始采样数据生成思维链数据集合,对基础大型语言模型进行全量微调,迭代生成中间思维链数据,并采用组相对策略优化算法GRPO对中间大型语言模型进行强化学习,最终确定目标大型语言模型。该技术方案可提高大型语言模型的可解释性和审核精度。
免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。
观点网讯:2月13日,阿里巴巴(中国)有限公司申请公布"一种基于思维链训练大型语言模型的方法、装置和设备"专利。专利摘要显示,该方法通过获取多个初始采样数据生成思维链数据集合,对基础大型语言模型进行全量微调,迭代生成中间思维链数据,并采用组相对策略优化算法GRPO对中间大型语言模型进行强化学习,最终确定目标大型语言模型。该技术方案可提高大型语言模型的可解释性和审核精度。
免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。
热门跟贴