该模型是金融领域首个类 GPT-O1 推理大模型,首次将大模型深度推理能力注入金融领域,采用创新的“思维链 + 过程奖励 + 强化学习”训练范式,显著提升逻辑推理能力,并可展示 O1 模型未公开的完整思考过程。轩辕 -FinX1 由度小满研发,本次发布的是预览版本,现已在开源社区开放免费下载。后续优化版本也将持续开源,供用户下载使用。
Github 地址:https://github.com/Duxiaoman-DI/XuanYuan
基准测试结果
在金融评测基准 FinanceIQ 上,初代轩辕 -FinX1 展现了卓越的表现。在CPA、银行从业资格、证券从业资格等 10 大类金融权威资格认证中,均超越了 GPT-4o 和开源模型 Qwen2.5-72B,并相较上一版 XuanYuan3 实现了大幅提升。尤其是在精算师这一类别,此前所有大模型得分普遍偏低,而轩辕 -FinX1 将分数从 37.5 提升至 65.7,显著体现了其在金融逻辑推理和数学计算方面的强大优势。
除了金融领域,初代轩辕 -FinX1 也展现了突出的通用能力。在多个权威评测集上的测试结果显示,轩辕 -FinX1 不仅在GPQA(科学推理)、MATH-500(数学) 和 AIME2024(数学竞赛)等评测中取得卓越成绩,还超越了 GPT-4o,与 O1 以及国内最新发布的推理版大模型共同位列顶尖梯队,验证了其强大的基础推理能力。
轩辕 -FinX1 代表了在 2024 年度小满为“金融大模型该往何处走”提供的答案。这背后有着怎样的深度思考?总结起来就是:深挖专有数据,优化推理能力,提升业务深度,以及持续开放开源。
ChatGPT 火爆以来,金融机构一直在积极探索如何将生成式大模型应用在金融领域,但全球范围内都没有标杆案例。金融领域大部分数据都是私密的,市场上的大模型难以直接适配业务需求,而且在精准度要求高和计算复杂度高的业务,比如反欺诈、财务分析等,生成式大模型被发现即便投入大量资源也无法解决这些问题。
推理大模型诞生前,金融领域的大模型主要用于文档摘要、客服、营销等非核心业务场景。对于高难度应用,大模型只能给出开放性的参考建议,而不能自己完成最后一公里的决策步骤。
因此,推理优化给金融领域带来的冲击,将是变革性的。
押注推理能力优化
推理是 2024 年 AI 领域的主角,从 O1 到 O3,大模型显示出越来越强大的推理能力。这些成果并非像过去那样主要基于更大的算力、模型和数据集,而是集中在推理能力计算上的优化。
推理计算优化能力的提升有多种典型的模式,比如多输出、反馈迭代、逆向推理、思维链、Best-of-N 策略、Agent 工作流、复杂问题拆解、推理过程评估等,其中复杂问题拆解和推理过程评估经发现是提升最普遍有效的方法。
度小满也在其最新发布的金融推理大模型中重点采用了这类方法,并与经典方法进行了融合,实现了基于金融决策加强的双奖励模型的强化学习训练方法。
为了评估模型在金融决策场景下的表现,度小满设计了结果导向 (ORM) 和过程级 (PRM) 两个互补的奖励模型。
PRM 是度小满针对金融领域的推理过程的创新,重点解决了开放性金融问题(如市场分析、投资决策等)的评估难题。
对于 PRM 的训练数据构建,度小满针对不同场景采用了不同策略:对于风险评级等有确定答案的问题,更偏重结果,使用反向验证方法;对于开放性的金融分析问题,则更偏重过程,通过多个大模型从正确性、必要性、逻辑性等多维度进行标注,并通过下采样和主动学习解决了分析类思考过程中正样本中过多带来的数据不平衡问题。
在强化学习训练阶段,度小满采用 PPO 算法进行 online 训练,将 PRM 和 ORM 作为奖励信号。对于思考过程,使用 PRM 在每个思考步骤进行打分,及时发现和纠正思考路径中的错误;对于答案部分,则针对不同类型的问题采用不同的评估策略:对有确定答案的金融问题(如风险等级评估)采用规则匹配计算奖励,对开放性问题(如市场分析)则使用 ORM 进行整体评分。基于此,度小满实现了 PRM 和 ORM 双引导下的强化学习微调。
这种基于双重奖励的训练机制,不仅克服了单一奖励模型的局限性,也通过稳定的强化学习训练显著提升了模型在金融决策场景下的推理能力。
可以看出,上述路线中的关键是对不同于数学或者逻辑的金融分析类开放问题的思维链数据的构造和奖励模型的评估,目前度小满仍在仍在不断优化和迭代,会持续探索更有效的技术路线。
基于这些技术创新,度小满率先展现了使用大模型进行金融复杂分析决策的价值。
专注金融复杂分析决策
度小满首次将大模型深度推理能力注入金融领域,推动大模型在金融领域的应用从非核心业务场景深入到风控决策等核心业务场景。
决策与风控能力
决策与风控能力方面,在风险识别与预测、风控模型构建、策略制定等核心任务中,轩辕 FinX1 凭借强大的推理能力和完整的思维链机制,能够系统分析风险因素间的关联与传导路径,为机构提供全面深入的风险洞察。
例如,根据用户上传的银行流水,轩辕 FinX1 能够从上千条交易记录中精准识别高频彩票消费、游戏消费等风险信号,并结合收入水平和债务负担,科学评估用户的还款能力和信贷风险。
轩辕 FinX1 分析用户上传的银行流水
研究分析能力
研究分析能力方面,轩辕 FinX1 能对宏观经济数据、市场情绪、政策影响等进行多维度分析,通过清晰的逻辑链条逐步拆解复杂问题。
例如,在分析美联储政策时,模型不仅深入探讨了经济数据背后的深层原因,还结合多维度市场信息进行量化分析,甚至能够对未来政策走势进行预测,展现出专业的研究深度。
轩辕 FinX1 预测美联储降息政策
数据智能能力
数据智能能力的核心是高效的数据处理能力和深度的分析能力。轩辕 FinX1 可帮助金融机构快速挖掘数据背后的业务逻辑与价值。
例如,将某公司季度财务数据输入轩辕 FinX1,模型能够精准提取核心信息,直观展示资产质量、流动性与业务动态。通过分析“流动性压力”“资产扩张驱动”等关键指标,轩辕 FinX1 在量化比较的基础上补充定性解释,揭示财务数据背后的潜在风险与增长机会,助力企业优化决策。
轩辕 FinX 分析某公司季度财务数据
在金融行业数智化转型浪潮中,“决策与风控能力”、“研究分析能力”和“数据智能能力”构成了推动业务创新和价值提升的关键维度。这些能力分别通过精准的风险识别与管控、深入的市场研判与价值发现、高效的数据建模与分析,为机构带来持续价值增长。
但对于 AI 金融推理这个大命题而言,这仅仅是一个开始。
垂域 AI 推理的无限潜力
今年整个行业的领先者都在大力押注大模型推理优化,是别无选择,还是推理优化有可预见的潜力?
LLM 最初展现出推理能力,是基于 CoT 即思维链的激发,也就是通过提示工程,让大模型不直接给出答案,而是一步一步地推理再给出最终结果。经验表明这样能让大模型的生成结果准确率显著提升。
OpenAI 资深研究科学家 Noam Brown 曾说出一个惊人的发现,只需让大模型多思考 20 秒,其提升效果相当于将模型的规模扩大 10 万倍并增加 10 万倍的训练时间。可以说,仅仅是 AI 从不假思索到深度思考的经验性提升程度,就足以给人信心投入下一代模型的开发。
而另一个决定性的判据是,理论研究表明,只要投入足够的时间和资源,LLM 推理能做到的事情和通过一般计算机、编程做到的事情是一致的,所以 AI 还能借助推理机制继续增强能力。学界甚至认为大模型推理机制是本质存在的,存在于潜在空间“黑盒”中,不是对于人类思维的模仿。
如此看来,AI 发展还远远没有撞墙,对推理优化需求更强的各个垂直领域将大有可为。
为了加速推进推理优化的发展,不同于 O1,轩辕 FinX1 选择了更加开放的方式,打开了“黑盒”,它能够在生成回答前先呈现完整的思考过程,构建从问题拆解到最终结论的全透明思维链。通过这一机制,轩辕 FinX1 不仅提升了推理的可解释性,也解决了传统大模型的“黑盒”问题,为金融机构提供了更加可信的决策支持工具。
如下图所示,对于“智能高频交易风险评估系统设计与实现”这个问题,轩辕 FinX1 在分析问题、解决问题等阶段,都非常详尽地展示了其完整的思考过程,不仅是分步骤的,也是逐步深入的,会在思考推进至问题解决的核心因素之后再逐步解决问题。
轩辕 FinX1 的思维链生成示例
在垂直领域、推理范式上,AI 还有无穷的金矿等待挖掘,在这个时间节点上着力垂域推理大模型,正当其时。
在 AI 大模型技术如汹涌浪潮席卷软件开发领域的当下,变革与机遇交织,挑战与突破共生。2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,以 “智能融合,引领未来” 为年度主题,汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。现在报名可以享受 8 折优惠,单张门票立省 1360 元,详情可联系票务经理 18514549229 咨询。
热门跟贴