东方网记者王佳妮12月28日报道:2025金融大模型评测体系发布会日前在沪举行。记者从会上获悉,“2025金融大模型评测体系暨金融评测基准”正式发布。该体系在标准引领、数据驱动、安全可信与生态共建四大维度实现全面升级,首次构建覆盖金融全场景的评测基线,为行业提供统一、权威、可操作的技术评估框架。

打开网易新闻 查看精彩图片

四维升级构建全场景基准,树立行业权威“能力标尺”

随着大模型技术深刻重塑金融行业格局,如何科学评估模型能力成为行业亟待解决的课题。本次发布会上,由上海人工智能实验室、库帕思携手同济大学、蚂蚁集团、中国工商银行、商汤科技等机构共同启动了“2025金融大模型评测体系暨金融评测基准”。

该评测体系在标准引领、数据驱动、安全可信与生态共建四大维度实现了全面进化。其核心亮点在于,首次构建了覆盖金融全场景的评测基线,打破了以往评测维度碎片化的局限,为行业提供了统一、权威且具备高度可操作性的技术评估框架。市委金融办副主任葛平指出,该体系作为全国首个“以金融业务为中心”的评价标准,已成为金融机构进行科学选型与能力对标的重要“标尺”。通过这一标准,金融机构能够更清晰地识别大模型在深度应用场景中的优劣,推动技术要素与应用生态的协同进化。

3.6万条数据驱动精准测评,全流程自动化加速应用落地

为了确保评测的科学性与实战价值,本次发布会同步推出了《金融大模型应用评测报告(2025)》与《金融大模型评测数据集(2025)》。这套“组合拳”直击金融垂直领域大模型应用的痛点,旨在支撑机构实现降本增效,加速模型在投研、风控、客服等核心环节的规模化落地。

在技术实现上,该评测体系展现出极高的专业壁垒。库帕思COO施佳樑介绍,体系汇聚了约3.6万条高质量评测数据,涵盖4个公开数据集与22个自建数据集。为解决大模型评测中常见的“刷题”或“随机性”问题,体系创新性地采用了循环选项打乱机制和多样化提示词,并研发出专门的“金融裁判大模型”。这一举措实现了评测全流程的自动化与标准化,极大提升了结果的鲁棒性与精准度。

此外,圆桌论坛环节进一步探讨了金融语料治理与模型安全等前沿议题,强调了产学研协同在构建开放AI生态中的关键作用。本次发布会不仅是上海深化“模塑申城”工程的重要举措,更通过建立可信、可控的智能化转型基石,引领金融行业向更高质量的智能化未来迈进。