国家知识产权局信息显示,三六零数字安全科技集团有限公司申请一项名为“强化学习方法、装置、设备、存储介质及产品”的专利,公开号CN121390196A,申请日期为2025年11月。
专利摘要显示,本申请公开了一种强化学习方法、装置、设备、存储介质及产品,涉及人工智能技术领域,包括:根据模型处理轨迹数据对历史轨迹缓存进行更新,生成当前轨迹缓存;基于所述当前轨迹缓存、当前模型梯度以及先验知识数据构建方向性梯度修正;根据所述当前模型梯度以及所述方向性梯度修正对所述目标大语言模型的模型参数进行更新。本申请通过提前构建一个由先验知识驱动的方向性梯度修正项,使策略更新不仅依赖于当前的梯度估计,还能融合历史更新轨迹、环境动态特征以及任务相关的结构化知识,解决了传统策略梯度方法在更新方向性、训练稳定性与先验知识融合方面的关键技术瓶颈,提高了强化学习的实际使用效果。
天眼查资料显示,三六零数字安全科技集团有限公司,成立于2011年,位于北京市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本5860.4万人民币。通过天眼查大数据分析,三六零数字安全科技集团有限公司共对外投资了62家企业,参与招投标项目1635次,财产线索方面有商标信息50条,专利信息928条,此外企业还拥有行政许可9个。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:情报员
热门跟贴