2025金融大模型评测体系在沪发布|可靠性|大模型|评测|选型|金融

证券时报记者陈雨康

上海人工智能实验室与上海库帕思科技有限公司联合主办的“2025金融大模型评测体系发布会”日前举办。发布会上，“2025金融大模型评测体系暨金融评测基准”正式发布。同时，上海市委金融办金融科技处等单位联合上海人工智能实验室、库帕思及上海财经大学，共同发布了《金融大模型应用评测报告（2025）》与《金融大模型评测数据集（2025）》。

库帕思COO施佳樑表示，该评测体系汇聚了4个公开数据集与22个自建数据集，约3.6万条评测数据，坚持科学与鲁棒的评测过程，采用循环选项打乱机制和多样化提示词，并研发金融裁判大模型，实现评测全流程自动化、标准化，为上海金融领域银行、券商、基金、投资等企业或者机构人员提供权威、精准的大模型能力评估，助力机构选型、优化及风险把控。

去年库帕思、上海人工智能实验室等单位发布了全国首个“以金融业务为中心”的金融大模型评测体系。所谓大模型评测体系，通常是评估大模型的性能、安全性、可靠性等方面的指标、方法、基准和流程的集合，对于大模型行业的标准化发展有至关重要的作用。近年来，国内涌现出多个金融大模型，但行业还缺少较为权威和认可的评测体系。

例如，金融大模型的实时性与动态适应性不足。施佳樑表示，金融市场行情、政策法规、突发事件(如黑天鹅事件)具有强时效性，而大模型的训练数据存在明显的 “时间滞后性”。此外，金融领域存在大量专业规则、监管条款和市场逻辑，通用大模型的训练数据多为公开文本，对深度专业内容的理解不足。

上海市委金融办副主任、一级巡视员葛平在致辞中指出，人工智能正在深刻重塑金融行业发展格局，大模型技术在应用场景深化、关键要素强化和应用生态协同推进三方面加速赋能。葛平强调，去年由库帕思、上海人工智能实验室等机构发布的全国首个“以金融业务为中心”的金融大模型评测体系，为行业提供了科学选型与能力对标的重要“标尺”。今年评测体系的全面升级，将助力上海建设具有全球影响力的金融科技中心。

在最新的评测体系下，今年的金融大模型测试结果全面超越去年。数据显示，在测试数据更合理、难度提升的情况下，2025大模型测试结果均分从71.9提升到87.37。同时，测试结果还发现，海内外大模型整体能力相差不大，但在中文领域，国内大模型处于领先水平。另外，国内金融大模型在语言理解、术语消歧、法规政策更新和合规对齐等领域领先，国外金融大模型则在数学计算、跨步推理、跨语言推理和超长文本处理上领先。

在主题为“新基线引领模型新发展”的圆桌论坛上，上海人工智能实验室刘东瑞主持，上海财经大学张立文教授、库帕思CTO王长冕、商汤科技王凯靖、东方财富郑烨婕等嘉宾深入探讨了金融语料治理、模型安全、评测标准国际化等前沿议题，强调需通过产学研协同，构建开放、安全、可持续的金融AI生态。