打造“AI+金融”高质量发展新引擎 2025金融大模型评测体系在沪发布|大模型|评测|金融

东方网记者王佳妮12月28日报道：2025金融大模型评测体系发布会日前在沪举行。记者从会上获悉，“2025金融大模型评测体系暨金融评测基准”正式发布。该体系在标准引领、数据驱动、安全可信与生态共建四大维度实现全面升级，首次构建覆盖金融全场景的评测基线，为行业提供统一、权威、可操作的技术评估框架。

四维升级构建全场景基准，树立行业权威“能力标尺”

随着大模型技术深刻重塑金融行业格局，如何科学评估模型能力成为行业亟待解决的课题。本次发布会上，由上海人工智能实验室、库帕思携手同济大学、蚂蚁集团、中国工商银行、商汤科技等机构共同启动了“2025金融大模型评测体系暨金融评测基准”。

该评测体系在标准引领、数据驱动、安全可信与生态共建四大维度实现了全面进化。其核心亮点在于，首次构建了覆盖金融全场景的评测基线，打破了以往评测维度碎片化的局限，为行业提供了统一、权威且具备高度可操作性的技术评估框架。市委金融办副主任葛平指出，该体系作为全国首个“以金融业务为中心”的评价标准，已成为金融机构进行科学选型与能力对标的重要“标尺”。通过这一标准，金融机构能够更清晰地识别大模型在深度应用场景中的优劣，推动技术要素与应用生态的协同进化。

3.6万条数据驱动精准测评，全流程自动化加速应用落地

为了确保评测的科学性与实战价值，本次发布会同步推出了《金融大模型应用评测报告（2025）》与《金融大模型评测数据集（2025）》。这套“组合拳”直击金融垂直领域大模型应用的痛点，旨在支撑机构实现降本增效，加速模型在投研、风控、客服等核心环节的规模化落地。

在技术实现上，该评测体系展现出极高的专业壁垒。库帕思COO施佳樑介绍，体系汇聚了约3.6万条高质量评测数据，涵盖4个公开数据集与22个自建数据集。为解决大模型评测中常见的“刷题”或“随机性”问题，体系创新性地采用了循环选项打乱机制和多样化提示词，并研发出专门的“金融裁判大模型”。这一举措实现了评测全流程的自动化与标准化，极大提升了结果的鲁棒性与精准度。

此外，圆桌论坛环节进一步探讨了金融语料治理与模型安全等前沿议题，强调了产学研协同在构建开放AI生态中的关键作用。本次发布会不仅是上海深化“模塑申城”工程的重要举措，更通过建立可信、可控的智能化转型基石，引领金融行业向更高质量的智能化未来迈进。