作 者 | 孙中东
来 源 | 孙中东
在当代全球金融体系中,数据治理的内涵正在经历从“技术资产管理”向“业务知识管理”的根本性转变。随着监管要求的日益严苛,尤其是巴塞尔银行监管委员会(BCBS)第239号原则(BCBS 239)的全面落地,以及生成式人工智能(Generative AI)和AI智能体(Agentic AI)在金融领域的渗透,传统的数据管理手段已显捉襟见肘。本体(Ontology)与数据血缘(Lineage)的结合,不仅为解决银行内部数据碎片化、孤岛化提供了技术路径,更成为了构建现代银行业“语义治理”体系的核心基石。本文旨在深入探讨本体与血缘关系的理论交织,剖析高盛、摩根大通等全球领先银行的应用实践,并洞察2026年及以后的未来发展趋势。
第一章 本体与数据血缘的理论逻辑与协同机制
在数据治理的语境下,本体与血缘代表了两种维度的知识表征。本体侧重于定义现实世界中的“概念”及其“相互关系”,而血缘则侧重于追踪数据的“流向”与“演变轨迹”。
语义本体(Semantic Ontology)的深度架构
语义本体不仅是一个结构化的框架,更是一种知识表示的载体,它允许系统以模拟人类感知的方式组织信息 。在银行业复杂的业务场景中,一个“客户”概念可能在信贷系统中体现为“借款人”,在财富管理系统中体现为“投资者”,在合规系统中体现为“被审查对象”。本体通过建立共享词汇表和互操作规则,消除了这种语义歧义 。
本体的核心要素构建了这种语义的一致性:
本体组件
银行业务定义
治理功能
类(Classes)
定义通用概念,如“金融产品”、“法律实体”、“交易事件”。
建立跨系统的一致性分类标准,消除概念混淆 。
实例(Instances)
类中的具体实体,如“摩根大通银行”是“法律实体”的实例。
为具体数据记录提供业务背景标签 。
属性(Properties)
描述类与实例的特征及其相互关系,如“客户”拥有“账户”。
定义实体间的关联逻辑,支持复杂业务规则的建模 。
传递性关系(Transitivity)
如果A是B的母公司,B是C的母公司,则A是C的母公司。
支持自动化的风险传导分析和所有权穿透 。
数据血缘的技术属性与业务升华
数据血缘传统上被定义为追踪数据从源头到目的地的流动过程,涵盖了处理、转换的全生命周期 。对于银行而言,血缘不仅是IT工程师的故障排除工具,更是风险模型准确性的“审计追踪。
现代血缘已从单一的“技术血缘”演变为“语义血缘”(Semantic Lineage)。语义血缘不仅展示表与表之间的SQL关联,更揭示了业务术语与底层物理资产之间的依赖关系 。通过将数据目录与业务术语表集成,银行可以清晰地看到某项“流动性指标”是由哪些具体的数据库列经过何种逻辑计算而成的。
本体对血缘的治理赋能:解耦与语义契约
本体作为血缘之上的“语义治理层”,解决了传统血缘系统“脆弱”的问题 。在高度碎片化的异构系统中,物理架构的微小变动往往导致血缘链路的中断。本体通过建立一种独立于底层系统的“语义契约”,实现了业务含义与物理实现的解耦 。
这种协同机制表现在以下几个维度:
语义推理与自动化链路构建:利用本体的层次结构,可以自动推断隐含的数据依赖,减少手动标注的工作量 。
跨系统语义对齐:当银行添加新的数据源(如并购产生的新系统)时,只需将其物理架构映射到已有的本体架构中,即可无缝接入现有的血缘网络 。
政策与规则的集中执行:通过本体层而非物理层实施数据访问控制和PII(个人隐私信息)标记,确保血缘路径上的所有节点都遵循一致的安全策略5。
第二章 监管驱动力:BCBS 239与合规治理的深度集成
BCBS 239 是巴塞尔银行监管委员会(BCBS)于 2013 年 1 月发布的《有效风险数据汇总和风险报告原则》,核心是通过 14 项原则(分 4 大类)强化银行风险数据治理、跨业务线 / 实体的数据整合能力与风险报告质量,以提升危机下的风险管控与决策效率,最初主要针对全球系统重要性银行(G-SIBs),后逐步延伸至国内系统重要性银行(D-SIBs)等。该原则是银行业加强数据治理的根本驱动力 。该原则强调了准确、全面和及时的风险数据汇总能力,这是识别和管理重大财务风险的关键 。
BCBS 239核心原则与血缘能力的匹配性
BCBS 239不仅要求银行能够生成报告,更要求银行能够证明这些报告数据的“来源”和“处理过程” 。数据血缘在此过程中提供了不可替代的审计路径。
BCBS 239领域
核心要求
本体与血缘的支撑作用
治理与基础设施
建立稳健的数据管理框架,整合至战略优先级 。
通过本体明确数据所有权(Ownership)和问责机制 。
风险数据汇总
确保在压力环境下数据的准确性、完整性和及时性 。
自动化血缘减少对手动核对的依赖,实现暴露风险的溯源 。
风险报告
报告必须清晰、简洁且可操作 。
语义血缘确保报告消费者理解指标的定义及其业务来源 。
监管审查
监管机构定期评估合规性并跟踪进展 。
提供透明的“蓝图”,使欧洲央行(ECB)等机构能验证合规性 。
计算透明度与变更溯源
在BCBS 239的应用实践中,银行必须展示风险模型的输入数据来自何处,以及经过了哪些业务规则转换 。例如,一份政策记录如何变成储备估计值,其中涉及的每一步计算规则都必须是透明且可追溯的 。当银行修改某个计算指标时,利用本体驱动的血缘系统可以立即识别出该变更对下游所有分析模型和合规报告的影响 。
这种透明度不仅是为了满足外部审计,更是为了提升内部决策的质量。成熟的银行利用血缘分析可以显著缩短解决数据质量问题的周期(平均减少34%),并将合规审计的时间成本降低57% 。
第三章 全球银行应用案例深度剖析
领先的金融机构已不再满足于零散的数据工具,而是构建了集成了本体建模与自动化血缘的综合性数据平台。
高盛(Goldman Sachs):Legend 平台的开源治理之路
高盛开发的 Legend 平台(原名 Alloy)是金融行业数据建模与治理的标杆 。高盛花费七年时间打磨这一平台,并于2020年通过金融科技开源基金会(FINOS)向全球开源 。
Legend 的核心架构与建模范式
Legend 提供了一个端到端的数据平台体验,涵盖了从数据发现、建模到交付的全生命周期 。
Legend Studio:提供直观的可视化建模环境,使业务专家和工程师能够共同描述数据概念及其关联,构建“信息图谱“。
Legend-Pure 语言:作为平台的基础,Pure 是一种基于 UML 的不可变函数式编程语言,用于表达复杂的业务规则和质量标准 。
自动化血缘与执行引擎:Legend 内置了自动化血缘捕捉机制,从物理数据源到产品化的数据服务,每一步转换逻辑都被记录在案 。其执行引擎支持将逻辑查询转化为 SQL、JSON Schema 等多种格式,确保了跨系统的互操作性12 。
跨云治理与 BigQuery 的集成
高盛通过将 Legend 与 Google Cloud(如 BigQuery 和 BigLake)集成,实现了在公有云环境下的严苛治理 。利用 Legend 的 Lambda 表达式,高盛可以跨组织共享逻辑数据查询,同时通过 Legend 的连接器与身份和访问管理(IAM)系统深度绑定,确保用户只能访问其权限范围内的模型化数据 。这种做法极大地缩短了新工具的入驻和集成时间,因为 Legend 作为统一的语义入口管理了所有的授权规则 。
摩根大通(JPMorgan Chase):知识图谱与代理式 AI 的飞跃
摩根大通利用知识图谱(Knowledge Graph)技术统一了内部的数据孤岛,并将其作为构建研究助手和高级搜索能力的基础设施18。
欺诈预警与代理式架构
通过从传统模型转向由共同知识图谱支撑的智能体AI(Agentic AI),摩根大通在欺诈监测领域实现了显著突破。
虚假预警大幅下降:在实施该技术后,虚假欺诈预警率下降了95%,显著降低了运营成本并提升了客户体验 。
多代理协同执行:在复杂的风险管理工作流中,专门负责流动性、信用和资本的独立代理能够在一个共同的知识图谱上共享上下文,协同完成交易执行、风险仪表盘更新及监管报告生成 。这种水平扩展的架构使得银行可以快速支持新的资产类别或地理区域,而无需重写核心引擎 。
DFML 系统与专利布局
摩根大通在数据流管理与数据人工智能(Data AI)领域申请了多项专利,特别是关于数据流机器学习(DFML)的专利 。该系统利用机器学习自动管理数据流,并提供出色的治理功能:
来源(Provenance):明确特定数据的原始出处 。
血缘(Lineage):记录数据是如何被获取和处理的 。
影响力分析(Impact):评估特定数据点对下游应用的影响力,为风险控制提供深度洞察 。
汇丰银行(HSBC)与德意志银行:语义标准的应用
汇丰银行将数据与分析战略视为核心竞争优势,重点布局数据采集、管理与分析的统一化 。在 BCBS 239 项目中,汇丰利用参考数据执行(Reference Data Execution)来实现跨系统的语义一致性 。
同时,德意志银行(Deutsche Bank)等机构正在探索通过神经符号系统(Neuro-symbolic systems)整合文本报告数据与符号逻辑框架,以支持 ESG(环境、社会与治理)分析 。这代表了本体技术的新方向,即通过 AI 自动化提取非结构化数据中的业务逻辑,并将其转化为结构化的本体知识模型。
第四章 技术挑战:遗留系统与组织转型的阵痛
尽管前景广阔,但在全球银行业实施本体与血缘的深度集成面临着巨大的现实阻碍,其中最为严峻的是遗留系统的负重。
遗留核心系统的“数据陷阱”
许多全球银行仍依赖于基于大型机(Mainframe)和 COBOL 语言开发的遗留系统 。
架构僵化:单体架构深度交织,细微的逻辑修改都可能引发系统性风险,这使得在其之上构建现代元数据标签异常困难 。
数据孤岛化:数据被锁定在碎片化的结构中,难以实现统一的“客户全景视图”,严重阻碍了 AI 模型的训练和高级分析的应用 。
人才断层:精通 COBOL 等旧语言的专业人才正在枯竭,导致维护成本不断飙升,且难以通过 API 与现代金融生态系统对接 。
整合过程中的技术复杂度
将本体引入遗留系统并非简单的“打补丁”,而是一个耗资巨大、周期冗长的过程 。
实时处理缺陷:旧系统往往不支持实时数据流处理,这导致基于实时血缘的合规决策存在延迟,增加了银行在洗钱监测等领域的风险暴露 。
解释性难题:监管机构要求 AI 模型必须具有可解释性(Explainability)。当银行试图在旧系统之上构建复杂的深度学习模型时,往往难以提供清晰、可审计的决策链条 。
第五章 创新范式:AI 与大模型驱动的自动化治理
为了应对手动维护血缘和本体的沉重负担,银行业正积极引入大语言模型(LLM)来重塑治理流程。
基于 LLM 的自动化血缘解析
传统的数据血缘解析依赖于硬编码的钩子或复杂的 SQL 解析器,对于非 SQL 脚本(如 Python、Shell、Python)的解析效果极差 。
解析效率提升:研究表明,拥有 1000 亿参数的 LLM 在表级血缘解析中的准确率已超过 95%,显著优于传统方法 。
工作流标准化:LLM 可以自动化处理提示构建、血缘提取及结果标准化(输出为 JSON 格式),实现了异构系统间血缘信息的无缝交换 。
代码意图理解:LLM 不仅能提取数据流向,还能解释算法意图,建议代码优化方案,帮助合规人员理解复杂的模型逻辑 。
威胁建模与合规自动化的深度融合
在银行业特殊的网络安全与合规场景中,本体与 LLM 的结合正催生出新的应用。例如,利用 ThreatModeling-LLM 框架,银行可以根据系统描述自动识别潜在的安全威胁,并将其映射到等保 2.0 、NIST 800-53 等监管标准,自动建议缓解措施 。这种自动化不仅提升了效率,更确保了安全控制与全球合规要求的精准对齐。
第六章 架构演进:数据网格(Data Mesh)中的分布式治理
随着银行数据规模的指数级增长,传统的集中式数据平台(如数据仓库、数据湖)正面临严重的扩展性瓶颈。数据网格作为一种去中心化的架构范式,正成为全球领先银行的选择 。
去中心化所有权与联邦治理
数据网格主张将数据所有权从中心化 IT 团队交还给具体的业务领域(Domains),如信贷、风控、营销部门 。
数据即产品:每个业务领域将其数据作为独立的产品进行管理,并对数据的质量、治理和 SLA(服务等级协议)负责 。
联邦计算治理:虽然所有权是分布式的,但必须遵循全局共享的语义规则。本体在此充当了“通用翻译器”,确保各领域的数据产品能够跨部门互操作 。
语义数据网格的价值实现
通过将知识图谱与数据网格集成,银行可以构建“语义数据网格”。
语义发现:用户可以通过业务术语跨领域搜索数据,而无需关心数据存储的具体物理位置 。
数据合同(Data Cont racts)标准化:知识图谱确保数据合同在语义上是正确的,保证了实体间关系的逻辑有效性 。
策略即代码(Policy-as-Code):利用自动化工具在元数据层实施全局访问政策。当一个领域团队发布新的数据产品时,系统会自动标记敏感字段(如客户余额),并根据全局本体规则应用加密和脱敏策略 。
第七章 未来展望:2026-2030 年银行业治理趋势
展望未来五年,银行业的数据治理将从“事后审计”转向“实时、主动、智能”的全面语义化阶段。
主动元数据(Active Metadata)的崛起
Gartner 预测,到 2026 年,30% 的组织将采用主动元数据实践 。
动态同步:元数据将不再是静态的文档,而是在系统间持续流动的实时信号 。
智能成本优化:主动元数据将监控资产的流行度和使用模式,自动归档长期闲置的数据集,帮助银行将云数仓支出降低 15% 至 30% 。
即时根因分析:当合规报表数据异常时,主动元数据驱动的自动化血缘可以在分钟级定位到上游逻辑变更,显著降低事故处理时间 。
前沿计算技术的跨界融合
未来银行业将见证量子计算、联邦学习与治理架构的深度融合。
智能体银行(Augmented Banking)的实现
到 2030 年,预计银行业将迈入“智能体银行”时代,人类专家与 AI 代理将形成高度共生的关系 。AI 不再只是提供数据,而是通过推理系统理解法律依赖和客户关系,主动建议战略决策方案并提供完整的推理链条。这种能力的底层核心,正是由本体定义的业务语义框架和由血缘定义的知识验证路径。
第八章 结论与战略建议
本体与数据血缘的深度融合,不仅是应对监管合规的技术手段,更是银行业实现数字化转型的必经之路。通过构建语义化的治理体系,银行可以将冰冷的物理数据转化为可理解、可推理、可审计的知识资产。
针对全球银行决策者,本文提出以下战略建议:
从语义层切入治理战略:不再仅仅关注“表和列”,而是优先构建跨部门的业务本体模型。建议参考金融行业业务本体(FIBO)等行业标准,结合自身业务特色进行扩展 。
拥抱开源与标准化生态:积极参与 Legend、OpenLineage 等开源项目,利用行业共建的力量降低开发成本,并确保治理框架的长期互操作性 。
加速治理流程的 AI 化:投入资源研发基于 LLM 的自动化血缘提取和元数据分类工具,将数据管理员从繁重的手动标注中解放出来,转向更高价值的战略治理 。
构建分布式数据网格基础设施:为去中心化的数据产品提供自助服务式的基础设施,并通过联邦计算治理确保全局一致性,以应对数据规模的指数级增长 。
在 2026 年及以后的竞争格局中,那些能够通过本体与血缘实现“知识自治”和“语义闭环”的银行,将不仅在合规性上保持领先,更将在人工智能时代拥有不可逾越的竞争优势。
引用的著作
1.Semantic Ontology: Understanding Data Relationships and Hierarchies - CastorDoc, https://www.castordoc.com/data-strategy/semantic-ontology-understanding-data-relationships-and-hierarchies
2.Build trust in banking with data lineage - IBM, https://www.ibm.com/think/topics/data-lineage-for-banking
3.Tracing semantic lineage | Talend Data Catalog User Guide Help, https://help.qlik.com/talend/en-US/data-catalog-user-guide/8.0/tracing-semantic-lineage
4.Technical & Semantical Lineage - Blindata, https://blindata.io/product/data-lineage/technical-and-semantical-lineage/
5.Why Ontologies are Key for Data Governance in the LLM Era | by ..., https://medium.com/timbr-ai/why-ontologies-are-key-for-data-governance-in-the-llm-era-47412f263112
6.What is AI-Powered Data Lineage? A Complete Guide | Devoteam, https://www.devoteam.com/expert-view/what-is-ai-powered-data-lineage-a-complete-guide/
7.Implementation of the Principles for effective risk data aggregation and risk reporting (BCBS 239 Principles) - Bank for International Settlements, https://www.bis.org/publ/bcbs_nl36.htm
8.Four ways data lineage powers BCBS 239 compliance | Collibra, https://www.collibra.com/blog/four-ways-data-lineage-powers-bcbs-239-compliance
9.BCBS 239 Principles: Complete Guide for 2026 - OvalEdge, https://www.ovaledge.com/blog/bcbs-239-principles
10. DATAVERSITY® Demo Day, https://content.dataversity.net/rs/656-WMW-918/images/FEB23-DVDD-Solidatus.pdf
11. Your trusted source for data conversion and transformation insights - Zengines, https://www.zengines.ai/resources
12. finos/legend: The Legend project - GitHub, https://github.com/finos/legend
13. CASE STUDY - The FINOS Legend Studio Pilot: an Open Source Success Story in Financial Services, https://www.finos.org/hubfs/FINOS/assets/FINOS%20Legend%20Case%20Study%202021.pdf
14. Goldman Sachs Open Sources its Data Modeling Platform through FINOS - REGnosys, https://regnosys.com/press/goldman-sachs-open-sources-its-data-modeling-platform-through-finos/
15. What is Legend? | Legend, https://legend.finos.org/docs/overview/legend-overview
16. Goldman Sachs: Accelerating time to value in data ... - awsstatic.com, https://d1.awsstatic.com/events/Summits/reinvent2022/FSI201_Goldman-Sachs-Accelerating-time-to-value-in-data-analytics.pdf
17. How Goldman Sachs' open-source data platform, Legend, democratizes access to information - Google Cloud, https://cloud.google.com/transform/goldman-sachs-legend-open-source-data-management
18. What Is a Knowledge Graph — and Why It Matters | Towards Data Science, https://towardsdatascience.com/what-is-a-knowledge-graph-and-why-it-matters/
19. Agentic AI In Financial Services Market Size, Share & 2030 Growth Trends Report - Mordor Intelligence, https://www.mordorintelligence.com/industry-reports/agentic-artificial-intelligence-in-financial-services-market
20. WO2018039266A1 - System and method for dynamic lineage tracking, reconstruction, and lifecycle management - Google Patents, https://patents.google.com/patent/WO2018039266A1/en
21. Speakers | FIMA Europe 2026 - Worldwide Business Research, https://fimaeurope.wbresearch.com/speakers/2018
22. (PDF) Title: Advanced AI in Banking: Strategic Applications ...,https://www.researchgate.net/publication/390625969_Title_Advanced_AI_in_Banking_Strategic_Applications_Emerging_Technologies_and_Institutional_Transformation
23. Legacy Core Banking Systems: Definition & Key Challenges - Crassula.io, https://crassula.io/blog/legacy-core-banking-systems/
24. Legacy Financial Systems: Key Challenges and Solutions for Businesses - Aalpha, https://www.aalpha.net/articles/legacy-financial-systems-challenges-and-solutions/
25. 5 ways to overcome AI integration challenges in legacy banking systems - SymphonyAI, https://www.symphonyai.com/resources/blog/financial-services/ai-integration-legacy-banking-systems/
26. Overcoming Data Lineage Challenges | Decube, https://www.decube.io/post/data-lineage-challenges
27. A Large Language Model-Based Approach for Data Lineage Parsing - MDPI, https://www.mdpi.com/2079-9292/14/9/1762
28. A Large Language Model-Based Approach for Data Lineage Parsing - ResearchGate, https://www.researchgate.net/publication/391156254_A_Large_Language_Model-Based_Approach_for_Data_Lineage_Parsing
29. ThreatModeling-LLM: Automating Threat Modeling using Large Language Models for Banking System - arXiv, https://arxiv.org/html/2411.17058v2
30. Semantic Data Mesh for Scalable Data Management | Timbr.ai, https://timbr.ai/blog/semantic-data-mesh-for-scalable-data-management/
31. Why Decentralized Data Governance is the Future, https://data.world/blog/decentralized-data-governance/
32. What Is Data Mesh | Ontotext Fundamentals, https://www.ontotext.com/knowledgehub/fundamentals/what-is-data-mesh/
33. Metadata Management in Data Mesh: Toward Federated Discovery and Governance*, https://sol.sbc.org.br/index.php/sbbd/article/download/37290/37073/
34. Data mesh governance: a blueprint for decentralized data management - ACA Group, https://acagroup.be/en/blog/data-mesh-governance-a-blueprint-for-decentralized-data-management/
35. Active Metadata: 2026 Enterprise Implementation Guide - Atlan, https://atlan.com/active-metadata-101/
36. Data Quality Improvement Stats from ETL – 50+ Key Facts Every Data Leader Should Know in 2026 | Integrate.io, https://www.integrate.io/blog/data-quality-improvement-stats-from-etl/
37. fibo/ONTOLOGY_GUIDE.md at master · edmcouncil/fibo - GitHub, https://github.com/edmcouncil/fibo/blob/master/ONTOLOGY_GUIDE.md
38. FIBO - EthOn ontology alignment, https://finregont.com/fibo-ethon-ontology-alignment/
39. Discover Top 12 AI-Powered Open Source Data Lineage Tools - OvalEdge, https://www.ovaledge.com/blog/ai-powered-open-source-data-lineage-tools
热门跟贴