保观 | 聚焦保险创新

由于近期公众号推送机制改变,欢迎您在公众号首页点击右上【···】,将保观设为“星标”,及时跟踪行业最新资讯

随着人工智能技术的快速发展,大模型已经成为驱动金融行业生态变革的重要力量。在这一大背景下,如何科学、客观地评估金融大模型的真实能力,成为全行业所关注的焦点。

近日,由上海人工智能实验室联合金融行业权威机构共同推出的CNFinBench评测榜单正式发布,引起了业内的广泛关注。

据悉,该榜单分别从金融专业知识、业务理解和分析、推理和计算、合规性和风险控制、应用程序安全性五个核心维度,对国内外主流大语言模型进行了全方位的专业评估,为金融行业选择大模型应用提供了重要参考依据。

打开网易新闻 查看精彩图片

具体来看,本次榜单共收录11款全球领先的金融大模型,涵盖国内外开源与闭源两大类型。同时11款大模型在五大测评维度中各有侧重,反映出不同研发主体在金融大模型领域的技术优势与布局方向

具体来看,“金融专业知识问答”考察的是模型对金融概念、法规的掌握程度,DeepSeek-R1以73.5的单项得分排名第一;

“金融业务理解与分析”评估的是模型处理实际业务流程的能力,Gemini-2.5-Flash以65.2的单项得分排名第一;

“金融事实推理与计算”评估的是模型在复杂金融场景下的逻辑推演能力,PinganGPT-Qwen3-32B以78.0的单项得分排名第一;

“金融合规与风险控制”评估的是模型对监管要求的敏感性与判断力,Doubao-1.5-pro以57.4的单项得分排名第一;

“金融内生与应用安全”评估的是模型在应用过程中的稳定性和安全性,Gemini-2.5-Flash以99.7的单项得分排名第一。

其中由平安集团推出的金融大模型PinganGPT-Qwen3-32B以综合得分66.1分的成绩摘得榜单第一名,成为本次测评中的最大亮点。在加速迭代的AI浪潮中,平安在金融领域多年沉淀的技术实力仍然不容小觑。

本文将对上榜的11款大模型进行深度分析,解读各模型的测评表现、技术特点等。

1.PinganGPT-Qwen3-32B

发布时间:2026年2月5日

综合评分:66.1

PinganGPT-Qwen3-32B由中国平安旗下团队Omni-Sinitic研发,于2026年2月5日正式发布,并在3月4日完成更新,作为一款闭源金融大模型,参数量仅32B,却以66.1的综合得分斩获榜单第一。

在测评表现上,该模型的金融专业知识评分为69.3分、业务理解和分析为56.7分、推理和计算为78分、合规性和风险控制为54.7分、应用程序安全性为72分,其中推理和计算得分是五大测评维度中评分最高的一项,其他维度得分同样处于上游水平,全方位的优异表现印证了平安集团在金融垂直领域的技术积累。

具体来看,该款模型依托平安30万亿字节的海量金融数据、3.2 万亿高质量文本语料训练而成,能够实现复杂金融场景下的精准数值计算与严谨逻辑推理,如今已经广泛的应用于平安生态内的车险报案、智能问数、费用审核等97个实际业务场景。

此外,中国平安依托于全金融牌照和自主研发的金融大模型,将人工智能技术嵌入到客户服务、风险减量、信贷风控等多个领域,实现内部效率重构到外部生态赋能的完整闭环。截至2025年前三个季度,中国平安已沉淀30万亿字节数据,覆盖近2.50亿个人客户,超75亿图片语料,以海量数据为基础,让AI持续拓展场景应用的深度和广度。

2.DeepSeek-R1

发布时间:2025年5月28日

综合评分:66.0

DeepSeek-R1由DeepSeek研发,于2025年5月28日正式发布,作为一款开源大模型,671B的超大参数量成为本次榜单的一大亮点,并以66.0的综合得分位居榜单第二名,充分展现出在金融大模型领域的强劲竞争力。

在测评表现上,该模型的金融专业知识评分为73.5分、业务理解和分析为54.4分、推理和计算为76.9分、合规性和风险控制为48.8分、应用程序安全性为76.6分。其中金融专业知识问答是11家大模型中评分最高的,合规与风险控制得分稍低,也是与第一名拉开差距的关键因素之一。

具体来看,DeepSeek-R1最大的优势就是能够在超大参数量支撑下,具备较强的知识储备与推理能力,在金融专业知识的覆盖度与准确性上表现突出,但在风险预警等场景下,性能仍有较大提升空间。

3.Doubao-1.5-pro

发布时间:2025年1月22日

综合评分:64.3

Doubao-1.5-pro由字节跳动研发,于2025年1月22日正式发布,作为一款闭源大模型,其参数量未公开,凭借64.3的综合得分,位居榜单第三名,是国内自研金融大模型的重要代表之一。

在测评表现上,该模型展现出均衡的发展特点,其中金融专业知识评分为72.9分、业务理解和分析为52.8分、推理和计算为66.0分、合规性和风险控制为57.4分、应用程序安全性为72.4分。

作为字节跳动在大模型领域的核心成果,Doubao-1.5-pro依托字节跳动在自然语言处理、人工智能技术上的数据积累,具备较强的自然语言交互能力与场景适配能力,能满足金融客服、智能咨询等标准化的金融场景需求。同时在合规风险把控上表现尤为突出,进一步满足了金融融行业监管和政策法规要求。

4.Claude-sonnet4

发布时间:2025年5月22日

综合评分:63.5

Claude-sonnet4由美国科技公司Anthropic研发,于2025年 5月22日正式发布,作为海外的头部科技企业的闭源大模型,其参数量未公开,以63.5的综合得分位居榜单第四名,潜力十分巨大。

在测评表现上,该模型金融专业知识评分为71.3分、业务理解和分析为61.2分、推理和计算为52.7分、合规性和风险控制为51.5分、应用程序安全性为80.8分。其中除了合规与风险控制是短板,其他领域的得分都处于上游水平。

与其他大模型有所不同,Claude-sonnet4在自然语言理解、复杂业务场景分析上具备不小的优势,可以根据任务复杂度灵活分配算力,从而进行快速响应,以及复杂问题分析。所以目前Claude-sonnet4主要用于日常开发或者企业级落地应用中,凭借其出色的成本效益和稳定可靠性,成为众多开发团队的首选主力模型。

5.Qwen3-235B-A22B-Instruct

发布时间:2025年7月21日

综合评分:62.2

Qwen3-235B-A22B-Instruct由阿里巴巴研发,于2025年7月21日正式发布,参数量在本次上榜开源模型中处于中等水平,综合得分62.2分,位居榜单第5名。

在测评表现上,该模型表现较为均衡。具体来看,金融专业知识评分为63.4分、业务理解和分析为60.4分、推理和计算为62.3分、合规性和风险控制为51.6分、应用程序安全性为73.1分,仅应用程序安全性这一项得分突破了70。

作为阿里系大模型在金融领域的重要布局,该模型与阿里旗下的电商、金融生态深度融合,在推理能力、多语言支持、工具调用上具备天然的优势。不过在金融专业知识深度、合规风险把控上仍有提升空间。未来有望依托阿里的技术生态,在更多的金融场景里实现落地。

6.Gemini-2.5-Flash

发布时间:2025年4月17日

综合评分:58.9

Gemini-2.5-Flash由海外头部科技企业谷歌研发,于2025年4月17日正式发布,作为闭源大模型,其参数量未公开,以58.9的综合得分位居榜单第六名。

在测评表现上,与其他的大模型有所不同,该模型呈现出极度不均衡的特点,99.7的金融内生与应用安全得分创下本次榜单的最高分,而金融专业知识问答得分仅23.0、合规与风险控制得分仅36.6,均位列榜单倒数,成为其综合得分偏低的主要原因。

作为谷歌旗下的重要大模型之一,Gemini-2.5-Flash在模型安全、业务场景分析、逻辑推理上具备一定的优势,这体现了谷歌在人工智能安全、数据隐私保护上的技术积淀。但值得注意的是,海外大模型进入中国市场时,期监管政策适配性、专业术语的理解成为了进入中国市场的主要障碍。

7.TouchstoneGPT-7B-Instruct

发布时间:2024年11月8日

综合评分:58.4

TouchstoneGPT-7B-Instruct由粤港澳大湾区数字经济研究院研发,于2024年11月8日正式发布,是一款开源小参数量大模型,以 58.4的综合得分位居榜单第七名,是中小科研机构在金融大模型领域的代表案例之一。

在测评表现上,该模型表现中规中矩,金融专业知识评分为64.8分、业务理解和分析为40.8分、推理和计算为59.3分、合规性和风险控制为53.5分、应用程序安全性为73.4分。

TouchstoneGPT-7B-Instruct最大的特点是部署成本低、运行效率高,适合中小金融机构进行部署运用。但是因为受限于参数量的影响,该模型在金融业务理解与分析上存在不小的短板,难以满足复杂的金融场景需求,所以不适合大型金融机构进行部署运用。

8.GPT-4o

发布时间:2025年5月13日

综合评分:56.6

GPT-4o由海外科技公司OpenAI研发,于2025年5月13日正式发布,其参数量暂未公开,以56.6的综合得分位居榜单第八名,表现低于外界预期。

在测评表现上,该模型的发展较为均衡,但整体得分水平偏下。其中金融专业知识评分为37.5分、业务理解和分析为63.9分、推理和计算为69.0分、合规性和风险控制为41.8分、应用程序安全性为70.8分。

作为全球领先的通用大模型,GPT-4o的优势是成本与效率优化显著、综合性能领先,同时可以深度集成至ChatGPT全平台。但该模型受限于研发时间与行业数据积累,在金融专业知识、业务理解、合规风控上存在明显的不足。

9.Kimi-K2-Instruct

发布时间:2025年9月5日

综合评分:53.6

Kimi-K2-Instruct由Moonshot研发,于2025年9月5日正式发布,作为一款超大参数量的开源大模型,其1000B的参数量为本次榜单之最,与超大参数量形成鲜明反差的是综合得分仅53.6,位居榜单第九名。

在测评表现上,该模型呈现两极分化的特点。其中金融专业知识评分为35.4分、业务理解和分析为53.8分、推理和计算为59.8分、合规性和风险控制为24.3分、应用程序安全性为69.0分。

作为千亿参数量的开源大模型,Kimi-K2-Instruct在需要强计算能力的场景中具备较强的优势,比如数据建模、金融量化分析、逻辑推理等等。但在金融专业知识、合规风控上存在明显短板。这说明大参数量并非金融大模型的核心竞争力,未来还需要结合金融行业数据进行专项训练。

10.Fin-R1

发布时间:2025年3月21日

综合评分:49.5

Fin-R1由上海财经大学团队研发,于2025年3月21日正式发布,作为一款由高校科研实验室推出的开源小参数量大模型,综合得分为49.5,居榜单第十名。

在测评表现上,该模型得分均处于下游水平。其中金融专业知识评分为36.8分、业务理解和分析为50.8分、推理和计算为60.1分、合规性和风险控制31.4分、应用程序安全性为68.5分。

作为高校科研成果,Fin-R1的研发重点更多的放在技术创新上,因此在金融专业知识、合规风险控制、业务理解等方面并不占据优势,因此难以与商业金融场景进行适配。

11.Llama3.3-70B-Instruct

发布时间:2024年12月6日

综合评分:46.0

Llama3.3-70B-Instruct由海外科技巨头Meta研发,于2024年12月6日正式发布,70B的参数量处于中等水平,以46.0的综合得分成为本次榜单的最后一名。

在测评表现上,该模型得分均位列下游。其中金融专业知识评分为22.9分、业务理解和分析为53.8分、推理和计算为59.8分、合规性和风险控制24.3分、应用程序安全性为69.0分。

该模型最大的特点就是成本低、性能优秀,且在大模型领域具备一定的技术影响力。而在此次测评中的不佳表现的主要原因是该模型的侧重点放在了自然语言交互,而在金融领域中缺乏针对性的训练与优化。

最后,CNFinBench发布的金融大模型测评榜单,为行业提供了专业的评估和参考。同时以平安集团为代表的金融大模型,已经充分展现出国内在金融大模型领域的技术实力和数据积累。未来随着AI技术与金融业务的持续融合,金融大模型将发挥愈加重要的作用。

保观知识星球