认知图谱问答网络框架简介|推理|神经网络

总结人工智能近70年的历史，认知科学的进展总在其关键的发展阶段起着引领性的作用。深度学习的基础架构——神经网络，便是基于认知科学对人类大脑的分析而建模成的数学模型。经过近十年的发展，基于深度神经网络的感知智能逐渐陷入平台期，如何从认知科学中进一步汲取灵感与思想，成为当前深度学习取得突破的必要条件。在实现认知智能的道路上，近期许多研究工作已经做出了极具影响力的创新。
例如，清华大学知识工程实验室围绕着认知科学中核心的工作记忆理论做出了一系列突破。工作记忆理论认为，人类的认知分为系统一和系统二：系统一进行感知和直觉式的推理，而系统二进行认知和理性式的推理。鉴于此，在2019年，CogQA认知图谱问答架构被提出来了。认知图谱问答提出一种新颖的迭代框架：算法使用两个系统来维护一张认知图谱，系统一在文本中抽取与问题相关的实体名称并扩展节点和汇总语义向量，系统二利用图神经网络在认知图谱上进行推理计算。

人类认知的系统一是“无知觉的”，CogQA中的系统一也是流行的预训练语言模型BERT。首先，系统一的输入分为三部分：问题本身、从前面段落中找到的“线索”、关于某个实体的维基百科文档；其目标是抽取文档中的“下一条实体名称”和“答案候选”。这些抽取的到的实体和答案候选将作为节点添加到认知图谱中，并会被系统一计算出语义向量，在系统二中用作关系推理的初始值。
系统二在系统一构建的认知图谱上进行推理计算，文中使用图神经网络（GNN）实现的隐式推理计算——每一步迭代，前续节点将变换过的信息传递给下一条节点，并更新目前的隐表示。最终所有的“答案候选”点的隐表示将通过一个带有softmax函数的全连接网络来判断哪个是最终答案。基于这套认知框架，CogQA在认知多条问答数据集HotpotQA上连续占据榜首长达三个月。
在工作记忆理论中，还有一个重要的组成成分——中央处理机制。“工作记忆的核心是一个中央处理机制，它协调多种来源的信息”，并且“它发挥一个有限容量的注意力系统的作用，这个系统能选择和操作控制过程和策略”，这是工作记忆的提出者巴德利（Baddeley）在他1992年发表在《科学》（Science）上的论断。受此启发，在CogQA的接触上，清华知识工程实验室的研究者们进一步提出CogLTX，并用同样的方法来处理长文本。如果将BERT的512个输入字符限制比作人的工作记忆，那么既然人思考问题时能够找到关键的少量信息并在工作记忆中推理出结果，BERT的512个输入字符限制也应该远远足够；关键在于，对特定的问题而言还需要关键的信息。
CogLTX遵循一种特别简单直观的范式，即“抽取关键的句子→通过BERT得到答案”这样的两步流程。常见的几种任务都可以用这种范式来解决。比如语段抽取、序列级别任务、字词级别任务的处理方法。在这里，工程师们将完成任务要训练的BERT称为推理机（reasoner），解决问题的关键语段记为z，CogLTX通过一个被称为“MemRecall”的过程，如同人类调度工作记忆一样的方式来抽取关键的语段。
对于关键信息的认识本身也是智能的重要部分，这并非易事。最直观的想法是通过信息检索的办法（例如BM25）来抽取关键句，但因为下游任务具有不确定性，无法建模成信息检索的形式；另外，直接检索的方式也过于粗糙，同时无法处理多条推理的信息。相较之下，人在工作记忆中的思考是一个时序的过程，会不断忘记被错误检索的信息而将空间留给新信息。因此，工程师们模仿这样的过程设计了MemRecall，其核心是一个对每个字词进行相关度打分的评分机（judge）模型，也用BERT实现。
首先将长文本切块，用现有的关键信息去连接每一块，通过评分机获取块平均相似度得分，其中最高分的块被放入“工作记忆”，但是这是暂时的，正如人脑的工作记忆一样，如果只对重要的信息进行重演，其他信息就会很快忘掉，在MemRecall中将这些最高分的块一起通过评分机，使信息充分交换后再进行评分，并且“忘掉”那些得分不高的块。新的关键信息将用来重复这一过程，完成多步推理。