金融界2025年1月24日消息,国家知识产权局信息显示,上海临竞科技有限公司申请一项名为“基于强化学习的多风格高可控策略学习方法及系统”的专利,公开号CN 119337966 A,申请日期为2024年12月。

专利摘要显示,本发明提供了一种基于强化学习的多风格高可控策略学习方法及系统,获取智能体在环境中的元行为,对每个元行为进行奖励塑造,每个元行为包括一个对应的风格参数,风格参数控制完成这些元行为后的奖励尺度;在智能体与环境交互的过程中,根据元行为的数目,随机生成一组风格参数,风格参数与状态组合送入智能体的模型进行推理得到动作,动作反馈至环境后,产生当前时刻智能体获得的奖励和下一时刻的状态;对智能体与环境交互的过程中的风格参数、状态、动作以及奖励进行强化学习,得到多风格高可控策略模型。本发明能够令单一强化学习模型同时具有多种风格的策略,通过调节多风格参数,可以对模型的策略进行控制,增加了策略的可控性。

天眼查资料显示,上海临竞科技有限公司,成立于2024年,位于上海市,是一家以从事科技推广和应用服务业为主的企业。企业注册资本22.2222万人民币。通过天眼查大数据分析,上海临竞科技有限公司共对外投资了1家企业,专利信息3条。

本文源自:金融界

作者:情报员