百川智能发布金融大模型Baichuan4-Finance，称准确率领先GPT-4o

雷递

2024-12-23 10:58 ·北京

雷递网乐天 12月23日

百川智能今日发布全链路领域增强大模型Baichuan4-Finance，称其金融专业能力和场景应用能力领先GPT-4o。

称整体准确率领先GPT-4o近20%

FLAME（Financial Large-Language Model Assessment and Metrics Evaluation）是中国人民大学财政金融学院12月17日发布的金融评测体系。

作为金融领域最新的评测体系，FLAME兼顾专业性和实用性，由两个方向的评测基准组成。其中，FLAME-Cer主要面向模型的专业金融能力评测，覆盖了CPA、CFA、FRM等14类权威金融资格认证；FLAME-Sce则侧重模型的场景应用能力，包含10个一级核心金融业务场景，21个二级细分金融业务场景，近百个三级金融应用任务。

FLAME-Cer评测结果显示，Baichuan4-Finance在银行、保险、基金、证券等多个资格认证领域的准确率均突破95%，整体准确率93.62%，领先GPT-4o和XuanYuan3-70B-Chat，超出GPT-4o近20%。

GPT-4o是金融领域公认的综合实力最强的通用模型之一，而XuanYuan3-70B-Chat则是国内首个开源中文金融大模型。

在FLAME-Sce评测中，Baichuan4-Finance一级核心金融业务场景的整体可用率达84.15%，其金融数据计算、金融知识理论等场景的可用率超过90%。

模型金融专项能力和通用能力同步提升

如何让模型在提升专业能力的同时不损失通用能力，是当下大模型落地具体场景最大的阻碍。为解决这一问题，百川智能打造了一套全链路领域增强方案，该方案覆盖了高质量数据集构建、模型预训练、微调、强化学习等从模型研发到场景应用的全流程。

在模型训练阶段，百川智能实现了模型专项能力和通用能力同步提升的效果，提升了模型多元场景的可用性。百川智能称，Baichuan4-Finance全链路金融领域增强让其既掌握了扎实的金融理论基础，又具备了丰富的多场景实践应用能力。

具体而言，Baichuan4-Finance的高质量金融数据集全面且严谨，既包含金融专业教材与学术著作、顶级金融期刊论文、监管机构政策文件、金融法律法规等核心专业金融知识数据，也覆盖了金融专业问答集、企业财报与年度报告、金融类研究分析报告等实践应用类数据，为提升模型金融能力提供了良好的底层支撑。

在此基础上，Baichuan4-Finance还在领域自约束训练过程中引入了更高精的通用数据，与高质量金融数据一起进行混合训练，最终实现了模型通用能力不下降，金融能力稳定增长的效果。

此外，百川智能在后训练环节也做了大量增强工作，如：通过合成数据、指令数据对模型进行有监督的微调；在强化学习策略中，针对数学计算等金融领域特别关注的场景进行样本增强等，进一步提升了模型性能。

为了更好地助力金融企业将大模型应用到各种真实场景，百川智能还在官网发布了Baichuan4-Finance全链路领域增强的技术报告，详细阐述了包括“领域自约束训练”在内的各项技术细节。此举增强金融行业对大模型的认知，还将有效提升金融企业部署大模型的能力与意愿。

助力金融机构智能化升级

攻克了专项能力和泛化能力平衡问题这一模型落地应用的最大阻碍后，Baichuan4-Finance能够在效率提升、风控合规、客服、决策支持等诸多层面为金融行业带来价值提升。

例如，它能够帮助金融从业者处理文档审核、客户咨询、产品营销等大量日常工作，还能依托深厚的金融专业知识和法律法规理解能力，为机构提供精准的风险识别和合规保障。此外，还可以凭借强大的数据分析能力为管理层提供专业的市场洞察和决策建议。

用友表示，Baichuan4-Finance凭借其海量的金融专业知识储备，在财税知识问答场景中，准确率较Baichuan4-Turbo提升了20%，较GPT-4o提升了10%。

百川智能称，目前已经服务了数千家客户，包括北电数智、完美世界游戏、爱奇艺、360集团、生学教育、爱学堂等各行业的企业，并且与信雅达、用友、软通动力、新致软件、达观数据、华胜天成等多家行业生态伙伴，以及华为、中科曙光等硬件厂商，中国移动、中国电信、中国联通等运营商达成合作，携手构建百川大模型生态。

雷递由媒体人雷建平创办，若转载请写明来源。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴