金融界2024年12月18日消息,国家知识产权局信息显示,北京智谱华章科技有限公司申请一项名为“一种优化大语言模型指令遵循能力的方法、设备及介质”的专利,公开号 CN 119129754 A,申请日期为2024年11月。

专利摘要显示,本申请涉及一种优化大语言模型指令遵循能力的方法、设备及介质,属于人工智能技术领域。本申请采用自我博弈训练框架,通过大语言模型扮演生成者模型和完善者模型来进行自我博弈;其中,在每一轮自我博弈训练过程中,生成者模型对给出的指令数据生成回复;完善者模型对每个回复进行评判打分,找到执行失败的回复;利用树搜索的自我完善策略,完善者模型对所述执行失败的回复进行修正,得到修正后的回复;构建出生成者训练数据对生成者模型进行迭代优化;构建出完善者训练数据对完善者模型进行迭代优化。本申请采用的自我博弈框架利用树搜索和自我完善生成有效的偏好数据,能够排除干扰因素,优化了大规模语言模型的指令遵循能力。

本文源自:金融界

作者:情报员