打开网易新闻 查看精彩图片

麻省理工学院(MIT) 的研究人员最近提出了测试时训练”(Test-Time Training, TTT) 的新方法,并在抽象推理挑战赛 (ARC) 中取得了突破性进展,其性能达到人类平均水平

打开网易新闻 查看精彩图片

ARC挑战赛正是以其高难度、对泛化能力的严格要求以及与人类推理的紧密联系而闻名,因此,MIT的TTT新方法 在此 benchmark 上的成功具有重要的意义,预示着未来模型推理的新方向

这项研究为何重要?

TTT(Test-Time Training)并非MIT独创,在MIT的这篇论文之前就已经存在了,Sun等人2020年的论文"Test-time training for out-of-distribution generalization" 就比较明确地提出了TTT的概念,并将其用于提高模型在分布外泛化 (Out-of-Distribution Generalization) 方面的性能。 他们使用少量未标记的测试数据在测试时对模型进行微调,从而使模型适应新的数据分布

在那之后,也有一些研究探索了类似的想法,例如在测试时进行元学习或在线学习。不过,MIT的这篇论文在以下几个方面做出了贡献:

系统地研究了TTT在ARC挑战赛上的应用:他们详细探讨了数据生成、推理方法和预训练策略等关键因素,并取得了SOTA的结果

提出了"可逆变换下的自洽性"方法:这种创新的推理方法有效地提高了模型在ARC上的性能

结合LoRA等高效的微调技术:这使得TTT在实际应用中更加可行

因此,虽然TTT的概念并非全新,但MIT的研究将其推到了一个新的高度,并展示了其在解决复杂推理任务方面的巨大潜力

MIT的研究做了什么?

MIT的研究人员对TTT进行了深入研究,并将其应用于ARC挑战赛。他们系统地探索了以下几个关键问题:

TTT需要哪些数据?

研究人员比较了两种生成TTT数据的方法:上下文学习(In-Context Learning, ICL)和端到端学习(End-to-End, E2E)。ICL从给定的测试示例 demonstrations 中创建“留一法(Leave-One-Out Cross-Validation,LOOCV)”任务,利用测试样例中的部分数据作为演示,模拟少样本学习的场景。E2E则将每个输入/输出对视为单独的任务。此外,他们还应用了多种几何变换(例如旋转、翻转)来增强数据,创建更多样化的训练样本。结果表明,ICL结合数据增强效果最佳,显著优于单独使用E2E或仅使用ICL

打开网易新闻 查看精彩图片

如何高效地进行TTT?

研究人员使用了低秩适应(Low-Rank Adaptation, LoRA) 技术来更新模型参数,这是一种高效的模型微调方法。LoRA的关键在于冻结预训练模型的权重,并在每一层注入可训练的秩分解矩阵。这样可以显著减少需要训练的参数量,从而加快训练速度并降低内存需求

打开网易新闻 查看精彩图片

一个关键问题是:应该为每个测试任务训练一个新的LoRA,还是使用所有测试任务生成的数据集训练一个共享的LoRA?研究人员比较了这两种方法,发现为每个测试任务训练一个新的LoRA(Per-task LoRA或FT + TTT)效果更好,显著优于使用共享LoRA(Shared-TTT)的方案。这意味着针对每个测试任务进行个性化的调整比使用通用的调整策略更有效

TTT后如何进行推理?

由于ARC没有思维链(Chain-of-Thought, CoT)的提示,无法直接使用多数投票等方法来提高准确率。为了解决这个问题,研究人员开发了一种名为“可逆变换下的自洽性”(Self-Consistency under Invertible Transformations) 的方法。他们使用可逆函数(例如旋转、平移)对输入进行变换,生成多个版本的输入数据。然后将这些变换后的输入分别馈送给模型,得到相应的输出。最后,将所有输出逆变换回原始空间,并通过多数投票或其他聚合方法选择最佳答案。这种方法通过利用变换的不变性来提高预测的准确性和鲁棒性

打开网易新闻 查看精彩图片

TTT前如何进行微调?

研究人员发现,使用ARC训练集中的任务进行微调,并结合少量几何变换进行数据增强,就足以获得良好的性能。而使用更复杂的、基于大型语言模型生成的合成数据进行微调,并没有带来额外的提升

打开网易新闻 查看精彩图片

这表明,针对特定任务的数据比通用数据更有效。令人惊讶的是,TTT还能缩小不同规模模型(例如参数量不同的模型)之间的性能差距,这为资源受限的场景提供了新的可能性

打开网易新闻 查看精彩图片

实验结果:

在ARC公共验证集上,TTT方法显著提升了各种语言模型的性能。一个经过简单微调的语言模型,在应用TTT后,得分从18分跃升至47分。结合BARC论文中的程序生成模型,最终得分达到了58.5%。更令人振奋的是,使用BARC一周前发布的微调模型进行实验,结合TTT后,得分达到了61%,与人类平均水平相当。Minds AI团队也在私有测试集上取得了类似的成绩,他们是第一个将TTT应用于ARC benchmark的团队。这表明TTT具有巨大的潜力,可以显著提高模型在复杂推理任务上的性能,并且这种方法可以与其他方法(例如程序生成)相结合,进一步提升性能

打开网易新闻 查看精彩图片

局限性:

研究人员也坦诚这项研究的一些局限性,包括:由于硬件资源和运行时间限制(12小时运行时间限制在A100 GPU上,而官方提交要求在P100或2xT4 GPU上12小时内完成),难以在私有测试集上进行全面评估;实验缺乏标准误差分析,难以评估结果的统计显著性;以及公开的ARC数据集可能存在数据泄露的风险,即预训练模型可能已经接触过这些数据

业内人士评价:

打开网易新闻 查看精彩图片

这项研究也引起了业内人士的关注和讨论。OpenAI的研究员Noam Brown评论道:“通过OpenAI o1,我们开发了一种扩展测试时计算的方法,但这并非唯一的方法,也可能不是最佳方法。我很高兴看到学术研究人员在这个方向上探索新的方法。” 这表明测试时计算正逐渐成为一个重要的研究方向,并且有多种不同的实现方式

打开网易新闻 查看精彩图片

Yam Peleg则对这项研究给予了高度评价:“非常巧妙的方法,攻克了ARC挑战赛!测试时增强(TTA)是一种已知的提升性能的方法:在推理过程中多次输入带有噪声或增强的数据,并对预测结果进行平均。但这里他们使用了简单的增强(例如翻转),并在测试集上训练模型来执行这些增强。” 这说明MIT的方法虽然简单,但却非常有效,并且对传统的TTA方法进行了创新

参考:

https://ekinakyurek.github.io/papers/ttt.pdf

Sun, Y., Wang, X., Liu, Z., Miller, J., Efros, A. A., & Darrell, T. (2020). Test-time training for out-of-distribution generalization. arXiv preprint arXiv:2009.13231.

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~