由表及里介绍知识图谱及AutoML! OGB KG链接预测任务榜首模型技术解析|方向|算法

本篇文章由表及里介绍知识图谱及AutoML算法情况，作者为第四范式资深算法研究员—张永祺。他的Talk分享“AutoSF+: OGB-KG任务榜首模型技术解析”，也将在北京时间8月26日(周四)晚8点，在TechBeat人工智能社区准时首播，欢迎大家关注！

相关论文：AutoSF: Searching Scoring Functions for Knowledge Graph Embedding. 发表于ICDE 2020.

论文地址:

https://ieeexplore.ieee.org/abstract/document/9101641,

https://arxiv.org/pdf/2107.00184.pdf

代码地址:

https://github.com/AutoML-4Paradigm/AutoSF

一、知识图谱嵌入概述

知识图谱（Knowledge Graph, KG）是一种特殊的由实体和关系组成的多关系图结构，通常用三元组（头实体、关系、尾实体）的形式来表示事实。应用上，知识图谱可提供更高效的搜索结果，挖掘实体之间的潜在关系，启发了如智能搜索、智能问答、医疗诊断、金融风控等许多下游应用，对数据挖掘和机器学习都具有重要的意义。近年来知识图谱发展迅速，常见的知识图谱有FreeBase、WikiData、DBPedia、Yago、NELL等，行业相关的图谱如Google KG和第四范式星图，这些规模巨大的知识图谱通常包含数百万个节点和数十亿个事实三元组，且被成功地应用于众多实际落地场景中。

虽然知识图谱在表示结构化数据方面很有效，但是这类三元组的符号象征特性难以被直接运用于机器学习算法，为了更智能更高效地应用知识图谱，学术界提出了一种极具前景的研究方向——知识图谱嵌入（Knowledge Graph Embedding, KGE）。基于事实三元组数据，知识图谱嵌入技术将原始知识图谱中的离散的实例和关系嵌入到低维连续的向量空间中；相比于原始的三元组数据，经过嵌入后的连续数值能够被更好地理解和使用。

知识图谱嵌入的核心技术是衡量图谱中三元组可编程性的评分函数（Scoring Function, SF）。评分函数也是理解知识图谱中复杂语义信息、挖掘潜在关系的关键，现有评分函数设计专注于统一的语义模型，而实际应用中，知识图谱性质随任务场景千变万化，在现有的基准数据集上，没有一个评分函数能比其他模型表现得更好。

二、OGB介绍

Open Graph Benchmark （OGB）是公认的图学习基准数据集代表，由斯坦福大学Jure Leskovec教授团队建立，于2020年国际顶级学术会议NeurIPS上正式开源。OGB囊括了节点性质预测、边性质预测、图性质预测等知识图谱领域多项赛题，以质量高、规模大、场景复杂、难度高著称，素有知识图谱领域“ImageNet”的称号，是众多科技巨头、科研院所和高校团队试验技术成色的试金石，来自斯坦福、康奈尔等顶尖大学及阿里巴巴、facebook等知名企业的团队均已参与其中。

在第四范式参加的两项知识图谱链接预测任务中:

·ogbl-biokg基于多个生物医学知识库，节点类型涵盖疾病、蛋白质、药物、副作用及蛋白质功能等生物医学概念，涉及了从分子规模到整个种群的近10万结点之间的51种异构相互作用，构成500多万个三元组。该数据集有助于药物属性预测及生物医学研究。

·ogbl-wikikg2数据采集于Wikidata知识库，描述现实世界中约250万个实体间的500多种关系，构成1700多万个事实三元组，其主要难点在于从海量且复杂的已知事实中进行学习，并精准预测实体间的潜在关系。该任务对推荐系统、智能问答等下游场景任务具有辅助作用。

三、AutoSF算法

AutoSF发表于国际顶级会议ICDE 2020。得益于自动化搜索的优越性，AutoSF设计的评分函数可以更高效地利用模型参数，在更小模型复杂度的基础上，AutoSF于OGB的biokg榜单的预测性能位居第一，wikikg2榜单位居前二，并以较大优势超过蚂蚁金服NLP团队最新工作PairRE [1] （ACL 2021）和其他知名评分函数如TransE [2]（NeurIPS 2013，引用3185次）、ComplEx [3]（ICML 2017，引用915次）、RotatE [4]（ICLR 2019，引用333次）等。

受自动化机器学习技术（AutoML）的启发，第四范式设计的自动评分函数技术（AutoSF），可以自动搜索给定图谱的评分函数，能够自动适应不同的图谱，可大幅降低门槛和成本。AutoSF针对性理解生物医学、维基百科等复杂知识图谱中的不同语义信息，设计出更符合特定场景中认知特性的评分函数，实现在对应任务上的性能突破。

然而，要实现上述目标并非易事，需要重点考虑两个方面：一是搜索空间，它有助于找出目标问题建模的重要性质；二是搜索算法，它决定了在空间搜索的效率。

如何针对知识图谱嵌入任务，来设计搜索空间和搜索算法这两个核心组件，是该工作的关键所在。

AutoSF首先对评分函数建立了统一的表达形式及相应的搜索空间。如下图所示，其中 h 和 t 为头尾实体的嵌入表达，是一个跟关系嵌入 r 相关的方阵，其表达形式由 K x K 的结构矩阵 A 决定，而评分函数之间的区别就在于结构 A 的不同。如下图所示，现有打分函数结构 A 对应的方阵 gK 都可以抽象成 K x K 的分块矩阵，不同评分函数的区别主要在如何将关系嵌入 r 填入其中每一块。基于此观察，AutoSF抽象出了如下图的搜索空间，可以有效覆盖已知的双线性模型，同时有能力探索新颖的、未被尝试的模型。

评分函数 f 对应的统一表达式为：

考虑到搜索空间共有个不同的结构，而训练和评估每一个结构都需要花费数十分钟的时间，完整遍历搜索空间的成本极高，如何快速有效地搜索更好的结构，是搜索算法所需要关心的问题。

AutoSF采用的贪心搜索算法虽高效，但并未充分探索搜索空间，容易产生局部最优解。为避免次优解、兼顾搜索效率和解的质量，作者在后续工作AutoSF+中设计了基于遗传算法的搜索策略，从简单模型渐进搜索更复杂的模型；为进一步提高搜索效率，AutoSF+为搜索空间专门设计了一种滤波器，可以把退化的矩阵，以及等价的矩阵结构过滤掉，避免在这些不好的、等价的模型上花费时间去评估；同时，为了挖掘图谱中对称性等重要性质，AutoSF+采用预测器的技术，从矩阵结构提取对称相关的特征，再利用评估过的结果，学习特征与效果之间的映射，从而可以只利用矩阵结构，选出更值得训练的模型。

AutoSF+在OGB数据集上搜索得出的模型结构如下图所示。

四、总结与展望

本文提出了一种自动设计评分函数的AutoSF(+)算法，适用于知识图谱嵌入任务。通过使用一个由滤波器和具有特定领域知识的预测器增强的遗传搜索算法，AutoSF(+)可以在巨大搜索空间中有效地设计出与数据相关的、崭新的、优于人类手工设计的评分函数。

除AutoSF外，第四范式在图学习中还探索出一系列前沿自动化技术，包括自动负采样算法NSCaching [5]，自动递归模型搜索算法Interstellar [6]，高效评分函数设计算法ERAS [7]，可微图神经网络架构搜索算法SANE [8]，均发表于国际顶级期刊会议上，用于处理多种不同图谱学习场景。

未来工作中，潜在的研究方向有同时搜索自适应于给定图谱的模型结构和超参数组合，以及显式地利用（子）图结构特征来辅助推理。

Paper list：

[1]PairRE: Knowledge Graph Embeddings via Paired Relation Vectors. arXiv 2021

[2]TransE: Translating Embeddings for Modeling Multi-relational Data. NeurIPS 2013

[3]ComplEx: Complex Embeddings for Simple Link Prediction. ICML 2017

[4]Rotate: Knowledge Graph Embedding by Relational Rotation in Complex Space. ICLR 2019

[5]NSCaching: Simple and Automated Negative Sampling for Knowledge Graph Embedding. VLDB-Journal 2021

[6]Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding. NeurIPS 2020

[7]ERAS: Efficient Relation-aware Scoring Function Search for Knowledge Graph Embedding. ICDE 2021

[8]SANE: Search to Aggregate Neighborhood for Graph Neural Network. ICDE 2021

// 作者Talk预告 //

Talk时间：8月26日（本周四）晚8点！

张永祺博士，2020年3月加入第四范式科学技术部，担任算法研究员，从事机器学习算法研究，负责自动化知识表示学习（AutoKGE）相关的研究工作。其研究成果在链接预测、实体对齐等基线上达到国际领先水平，将AutoKGE相关工作发表于国际顶级会议期刊ICDE、VLDB Journal、NeurIPS上。其中论文Interstellar获得人工智能顶会NeurIPS spotlight paper(3%)认可，将AutoKGE概念推向学术前沿。

于2020年3月在香港科技大学获得博士学位，主要研究方向为自动化机器学习，知识图谱表示及深度学习。于2015年在上海交通大学获得学士学位。

Illustrastion by Oleg Shcherba from Icons8

-The End-

扫码观看！

本周上新！

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈