证券时报记者 陈雨康

上海人工智能实验室与上海库帕思科技有限公司联合主办的“2025金融大模型评测体系发布会”日前举办。发布会上,“2025金融大模型评测体系暨金融评测基准”正式发布。同时,上海市委金融办金融科技处等单位联合上海人工智能实验室、库帕思及上海财经大学,共同发布了《金融大模型应用评测报告(2025)》与《金融大模型评测数据集(2025)》。

库帕思COO施佳樑表示,该评测体系汇聚了4个公开数据集与22个自建数据集,约3.6万条评测数据,坚持科学与鲁棒的评测过程,采用循环选项打乱机制和多样化提示词,并研发金融裁判大模型,实现评测全流程自动化、标准化,为上海金融领域银行、券商、基金、投资等企业或者机构人员提供权威、精准的大模型能力评估,助力机构选型、优化及风险把控。

去年库帕思、上海人工智能实验室等单位发布了全国首个“以金融业务为中心”的金融大模型评测体系。所谓大模型评测体系,通常是评估大模型的性能、安全性、可靠性等方面的指标、方法、基准和流程的集合,对于大模型行业的标准化发展有至关重要的作用。近年来,国内涌现出多个金融大模型,但行业还缺少较为权威和认可的评测体系。

例如,金融大模型的实时性与动态适应性不足。施佳樑表示,金融市场行情、政策法规、突发事件(如黑天鹅事件)具有强时效性,而大模型的训练数据存在明显的 “时间滞后性”。 此外,金融领域存在大量专业规则、监管条款和市场逻辑,通用大模型的训练数据多为公开文本,对深度专业内容的理解不足。

上海市委金融办副主任、一级巡视员葛平在致辞中指出,人工智能正在深刻重塑金融行业发展格局,大模型技术在应用场景深化、关键要素强化和应用生态协同推进三方面加速赋能。葛平强调,去年由库帕思、上海人工智能实验室等机构发布的全国首个“以金融业务为中心”的金融大模型评测体系,为行业提供了科学选型与能力对标的重要“标尺”。今年评测体系的全面升级,将助力上海建设具有全球影响力的金融科技中心。

在最新的评测体系下,今年的金融大模型测试结果全面超越去年。数据显示,在测试数据更合理、难度提升的情况下,2025大模型测试结果均分从71.9提升到87.37。 同时,测试结果还发现,海内外大模型整体能力相差不大,但在中文领域,国内大模型处于领先水平。另外,国内金融大模型在语言理解、术语消歧、法规政策更新和合规对齐等领域领先,国外金融大模型则在数学计算、跨步推理、跨语言推理和超长文本处理上领先。

在主题为“新基线引领模型新发展”的圆桌论坛上,上海人工智能实验室刘东瑞主持,上海财经大学张立文教授、库帕思CTO王长冕、商汤科技王凯靖、东方财富郑烨婕等嘉宾深入探讨了金融语料治理、模型安全、评测标准国际化等前沿议题,强调需通过产学研协同,构建开放、安全、可持续的金融AI生态。