谷歌DeepMind全新ToT基准：全面评估LLM时间推理能力|deepmind|基准|算术|算法|谷歌

新智元报道

编辑：alan

【新智元导读】近日，来自谷歌DeepMind的研究人员，推出了专门用于评估大语言模型时间推理能力的基准测试——Test of Time（ToT），从两个独立的维度分别考察了LLM的时间理解和算术能力。

大语言模型的时间推理能力怎么样？

我们先来看一道幼儿园的题目：

给出切尔西历年的主教练名单，向模型提问：Pochettino之前的教练是谁？

此时，LLM能够给出正确的回答（Lampard），——貌似有点实力？

但是，如果我们把人名来个变量代换（E1~E5），其他内容保持不变，LLM瞬间就降智了：

事实上，在第一次的题干里，我们并没有说明Lampard教练叫什么名字，而答案里直接就出现了Frank。

所以LLM有可能只是碰到了原题？

于是小编用这两道题分别测试了Gemini 1.0 pro、Claude 3 Sonnet、Llama 3和ChatGPT。

从结果来看，上面被公开处刑的应该是ChatGPT。

而Gemini 1.0 pro和Claude 3 Sonnet甚至还不如ChatGPT，两题全错（虽然也给出了全名），估计是刷题的时候懈怠了。

相比之下，Llama 3的回答则呈现出智力上的优越：

在如此简单的问题上，不同的LLM却「各显神通」，看来是时候搞个权威的考核指导一下了。

近日，来自谷歌DeepMind的研究人员，推出了专门用于评估大语言模型时间推理能力的基准测试——Test of Time（ToT）。

论文地址：https://arxiv.org/pdf/2406.09170

值得注意的是，ToT是基准测试的名字，不是颜文字表情

ToT由两门考试组成：

第一关：ToT-semantic，考验LLM在进行时间推理时，对于语义和逻辑的理解。第二关：ToT-arithmetic，考验LLM进行时间相关算术的能力。

ToT-semantic中的问题是合成的，保证LLM在考试中不会遇见原题；

而ToT-arithmetic采取众包的形式，保证了问题的深度和广度。

基准测试和数据集：https://huggingface.co/datasets/baharef/ToT

ToT的数据集分为三个子集：ToT-semantic包含1850个示例，ToT-arithmetic包含2800个示例，另外还有一个ToT-semantic-large，包含46480个示例，能够在更大的尺度上衡量时间理解的语义和逻辑。

ToT的使用方法很简单，先安装Huggingface数据集，然后两行代码导入即可：

from datasets import load_dataset dataset = load_dataset("baharef/ToT")

数据格式

ToT-semantic和ToT-semantic-large数据集包含以下字段：

question：包含问题的文本。 graph_gen_algorithm：图生成器算法的名称。 question_type：对应于数据集中的7种问题类型之一。 sorting_type：对应用于事实的排序类型。 prompt：包含用于评估LLM任务的完整提示文本。 label: 问题的标准答案。

而ToT-arithmetic数据集包含question、question_type和label三个字段。

Test of Time

LLM的时间推理最近获得了极大的关注，许多研究集中在增强LLM对时间概念的理解上，通过预训练和微调策略来提高他们的时间推理能力。

而相应的基准测试则大多以知识图谱为中心：比如TempTabQA提供了基于维基百科信息框的众包问题，而TGQA是一个源自YAGO11k知识图谱的数据集。

为防止数据泄露，TGQA将每个实体名称更改为GPT3.5生成的名称，保证名称与实体类型一致，并且不会以其他方式出现在YAGO11k中。

但这种策略有两个问题：首先是会引入虚假的实体名称相关性，其次可能会产生事实不正确或违反常识的声明。

于是，本文选择了合成数据的方式来建立LLM的评估基准。

同时，研究人员将时间推理能力拆分成两个不同的维度：理解时间的语义和逻辑，以及执行准确的时间算术。

两个维度分别建立任务，独立进行评估，能够更好地展现LLM的优势和劣势。

ToT-semantic

ToT-semantic能够分离和分析一个LLM的核心推理能力，同时避免依赖预先存在的知识。

ToT-semantic的创建过程如下图所示：

第 1 步：生成随机结构，然后使用这些结构来创建时间问题。为了确保随机结构的多样化，这里参考图结构的生成。

研究人员采用几种现有的算法来生成具有不同属性的图结构，包括ER图、无标度网络（SFN）、遵循BA模型和随机块模型（SBM）的图，以及星形图。

每种图生成算法都表现出不同的属性，对应于不同的应用场景。例如，ER图通常是稀疏的，平均度数较低，而BA图是密集的，表现出幂律分布。

建立出世的图结构之后，我们就为边缘分配关系。对于每个图，我们首先确定要分配给边的多个关系类型，并将这些关系类型中的每个类型分配给一对一、一对多、多对一和多对多之一。

第 2 步：问题生成。这里考虑了以下八种类型的问题，常见于日常生活中，以及各种基准测试中。

EventAtTimeT：询问在T时刻哪个实体与实体E有某种关系R EventAtWhatTime：询问两个实体E1和E2之间的关系R在什么时间开始/结束 NumberOfEventsInTimeInterval：询问有多少实体在T1到T2之间与实体E有关系R BeforeAfter：询问在E1之前/之后哪个实体与E2有关系R EventAtTimeOfAnotherEvent：询问当E1与E2有关系R1时，哪个实体与E3有关系R2 FirstLast：询问哪个实体是第一个与E建立关系R的实体 RelationDuration：询问E1和E2之间第k次建立关系R时，持续了多长时间 Timeline：要求按时间顺序对与E有关系R的实体进行排序

ToT-Arithmetic

ToT-Arithmetic将任务从合成数据转移到了现实世界。

创建ToT-Arithmetic数据集的步骤如下图所示：

下面分别介绍每个步骤的工作：

种子集：检查现有基准中出现的时间算术问题类型，并通过网络搜索，来收集一小部分初始问题。

扩展：向15名注释者展示种子集，注释者负责提出不在种子集中的新问题，或者提供与其他场景或问题模板相对应的问题。

过滤器：人工浏览所有问题，并过滤那些专注于极端情况、或者需要广泛知识的问题。

分类：将合格的问题分为七类，如下表所示：

AddSubtract：从日期或时间中添加或减去一个数字 Compare：按时间顺序比较以不同格式提供的日期/时间 Duration：计算两个日期/时间之间的差值 Schedule：在多块时间内找到相互空闲点 Timezone：涉及处理不同的时区 Trick：有一点脑筋急转弯 MultiOp：涉及需要上述多个操作的问题

函数化：将问题写成函数，以便为每个问题抽取不同的值并根据这些值进行求解。

抽样：从函数中抽取问题和答案，保证样本数量与属于每个类别的不同问题的数量成正比。

具体来说，AddSubtract采样了350个，Compare采样了350个，Duration采样了200个，Schedule采样了250个，Timezone采样了100个，Trick采样了250个，MultiOp采样了350个——构成了总共包含1850个问题的数据集。

实验分析

实验评估了三个前沿的大语言模型，他们是：Claude-3-Sonnet、GPT-4和Gemini 1.5 Pro。

另外，由于ToT-Semantic任务需要较长的上下文，所以使用GPT4-Turbo代为出战。

通过实验，我们可以探讨以下几个问题：