高通研究院：Transformer模型在特定记忆任务中落后于传统模型|原理|复杂度|实验|序列|新论文|高通研究院

当我们说起人工智能，大多数人首先想到的可能是那些能写诗、能聊天、能画画的大型语言模型。这些模型就像是非常聪明的学生，似乎什么都懂一点。但是，如果让它们玩一个看似简单的数学游戏——比如记住一串数字并计算它们的和——结果可能会让你大吃一惊。

这项由Qualcomm AI研究院领导的突破性研究发表于2026年2月，论文编号为arXiv:2602.18333v1，首次系统性地揭示了现代变形金刚（Transformer）模型在状态追踪任务中的根本性限制。研究团队发现，即使在训练和测试数据完全匹配的理想情况下，这些看似强大的模型在处理需要持续记忆和状态更新的任务时，表现竟然远不如传统的循环神经网络。

要理解这个发现的重要性，我们可以把AI模型比作不同类型的计算器。变形金刚模型就像一台超级计算器，拥有巨大的屏幕，可以同时显示所有之前输入的数字，然后一次性计算出结果。而循环神经网络则像一台老式计算器，只有一个小屏幕，但它有一个特殊的记忆按钮，每次输入新数字时都会自动更新内部的累计值。

研究团队设计了一个看似简单却极具揭示性的实验：让不同的AI模型玩"数字累加"游戏。规则很简单——给模型一串数字，让它计算这些数字的总和，然后取模（就是除法的余数）。比如，给出数字序列2、1、0、3、4，在模5的情况下，答案就是(2+1+0+3+4) mod 5 = 0。这个任务看起来微不足道，任何一个小学生都能轻松完成，但它却完美地考验了AI模型的状态追踪能力。

状态追踪，简单来说，就是在处理信息流程中持续记住和更新重要信息的能力。就像你在购物时需要不断记住已经花了多少钱一样，AI模型在处理序列数据时也需要持续追踪和更新内部状态。这种能力对于真实世界的应用至关重要——比如聊天机器人需要记住对话的上下文，自动驾驶汽车需要持续追踪周围环境的变化。

令研究团队惊讶的是，当他们比较不同模型的表现时，发现了一个颠覆常识的现象：在这个简单的累加任务中，传统的循环神经网络模型只需要几个训练样本就能完美掌握规律，而强大的变形金刚模型却需要成千上万倍的训练数据才能达到同样的效果。更令人意外的是，变形金刚模型似乎为每一种不同的序列长度都学习了完全独立的解决方案，就像一个学生为了记住2+2=4、3+3=6、4+4=8，竟然把每个等式都单独背下来，而不是理解加法的基本规律。

一、"归纳偏置"：AI模型思维方式的隐秘差异

要理解为什么会出现这种差异，我们需要了解一个被称为"归纳偏置"的概念。归纳偏置就像是不同AI模型与生俱来的思维习惯或偏好。就像有些人天生喜欢一步一步地解决问题，而有些人更喜欢把所有信息摆在桌面上然后一次性找到答案一样，不同的AI架构也有着不同的信息处理偏好。

研究团队将这种特殊的思维偏好称为"感应偏置"。这个名称来源于数学证明中的归纳法——先证明基础情况成立，然后证明如果第n步成立，那么第n+1步也成立，从而得出对所有情况都成立的结论。拥有感应偏置的AI模型就像一个善于归纳推理的学生，它们倾向于学会一个基础的操作规则，然后将这个规则重复应用到整个序列中。

循环神经网络天生就具有这种感应偏置。当它处理数字序列2、1、0、3、4时，它会这样工作：首先看到数字2，记住当前累计值是2；然后看到1，更新累计值为3；接着看到0，累计值保持3；然后看到3，累计值变为6；最后看到4，最终累计值为10，取模5得到0。每一步都是相同操作的重复——"看到新数字，加到累计值上"。这种处理方式使得模型能够将学到的基础操作自然地应用到任何长度的序列上。

相比之下，变形金刚模型的工作方式完全不同。它们更像是拥有全局视野的分析师，能够同时看到整个数字序列2、1、0、3、4，然后通过复杂的注意力机制来计算最终结果。虽然这种方法在很多任务上都非常强大，但它缺乏自然的逐步处理偏好。因此，当面对不同长度的序列时，变形金刚模型往往会为每种长度开发出独特的解决策略，而不是学习一个可以普遍应用的基础规则。

这种差异的影响是深远的。在数学上，研究团队发现，拥有感应偏置的模型会学习到这样的规律：在给定最新的隐藏状态的条件下，下一个输出标记的概率分布会因式分解，即p(x_{t+1}|x_1,...,x_t,h_t) = p(x_{t+1}|x_t,h_t)，其中h_t代表时间步t的隐藏状态，它是确定x_{t+1}的最小充分统计量。简单来说，就是模型学会了仅凭当前状态和新输入就能准确预测下一步，而不需要重新查看所有历史信息。

二、三种学习方式的较量

为了深入理解不同AI模型的学习特点，研究团队设计了三种不同的教学方式，就像是三种不同的数学课教学方法。

第一种方式叫做"结果监督"，就像老师只告诉学生题目和最终答案，让学生自己摸索解题过程。在累加任务中，这意味着只给模型输入序列2、1、0、3、4，然后告诉它正确答案是0，但不提供任何中间计算步骤的信息。这种方式最接近真实世界的学习情况，因为我们通常只知道问题和期望的结果。

第二种方式被称为"思维链"教学，类似于老师在黑板上完整展示解题步骤。模型首先看到输入序列2、1、0、3、4，然后需要依次输出中间计算结果：2、3、3、6、0。这种方式帮助模型理解解题的逻辑流程，就像学生通过观察老师的演算过程来学习解题方法。

第三种方式叫做"对齐思维链"，这是最细致的教学方法。每当输入一个新数字时，模型都要立即输出到目前为止的累计结果。对于序列2、1、0、3、4，模型需要在看到2时输出2，看到1时输出3，看到0时输出3，看到3时输出6，看到4时输出0。这种方式强制模型在每一步都更新其内部状态，最接近人类逐步计算的思维过程。

实验结果令人震惊。在"结果监督"方式下，循环神经网络表现出色，只需要很少的训练样本就能掌握规律。对于最简单的二进制累加任务（相当于计算序列中1的个数是奇数还是偶数），LSTM模型通常只需要十几个样本就能学会，而变形金刚模型需要数百个样本，差距高达几十倍。随着任务复杂度增加，这种差距变得更加悬殊。

在"思维链"教学方式下，情况发生了有趣的逆转。变形金刚模型突然变得高效起来，而循环神经网络的表现反而下降了。这是因为"思维链"方式要求模型在看完整个输入序列后，再依次回忆和输出所有中间步骤。对于循环神经网络来说，这变成了一个记忆力测试——它需要记住整个计算历史，然后按顺序回放，这反而不是它的强项。

而在"对齐思维链"方式下，循环神经网络重新占据了优势地位。这种教学方式完美契合了循环网络的逐步处理特性。令人惊讶的是，在这种方式下，循环网络往往只需要个位数的训练样本就能完美掌握任务，即使是相对复杂的模运算任务也是如此。

这些发现揭示了一个重要道理：没有绝对最好的AI模型，只有最适合特定任务和教学方式的模型。就像有些学生适合听讲座，有些学生适合动手实践一样，不同的AI架构也有各自的学习偏好和优势领域。

三、数据饥饿症：变形金刚的隐秘弱点

研究团队的深入分析揭示了变形金刚模型的一个令人担忧的特点：它们患有严重的"数据饥饿症"。随着任务复杂度的增加，变形金刚模型对训练数据的需求呈现出令人咋舌的增长速度。

这种现象可以用一个生动的比喻来理解。设想你要学习烹饪不同规模的晚餐。一个有经验的厨师（类似循环神经网络）学会了基本的调味原则后，无论是为2个人还是20个人做饭，都能根据人数比例调整食材用量。但变形金刚模型就像一个记忆型学习者，它需要分别记住为2人、3人、4人、5人等每一种具体情况的完整食谱，而不是掌握可以灵活应用的烹饪原则。

具体数据显示了这种差距的惊人程度。在处理长度为20的序列时，如果循环神经网络需要大约100个训练样本，变形金刚模型可能需要10万个样本才能达到相同的效果。更糟糕的是，当序列长度从20增加到30时，循环网络可能只需要增加50%的训练数据，而变形金刚可能需要增加500%的数据量。

这种数据需求的爆炸性增长与两个关键因素密切相关：状态空间的大小和序列的长度。状态空间可以理解为问题的复杂度——就像从记住2种颜色的组合到记住20种颜色的组合。而序列长度则是时间维度的复杂性——从记住3步操作到记住30步操作。对于循环神经网络来说，由于其感应偏置的存在，这两个维度的增长都能通过学习基础规则来应对。但对于变形金刚来说，每一种新的组合都可能需要单独学习。

更加令人担忧的发现是，变形金刚模型在处理不同序列长度时几乎没有知识迁移能力。研究团队通过精心设计的实验发现，当一个变形金刚模型学会了处理长度为10的序列后，这种能力几乎无法帮助它更快地学习处理长度为15的序列。就像一个学生死记硬背了10道数学题的答案，但这种记忆对解决第11道题没有任何帮助。

相比之下，循环神经网络展现出了令人印象深刻的知识复用能力。一旦它们学会了基础的累加规则，这个规则就能自然地应用到任何长度的序列上。更有趣的是，研究发现较短的序列实际上对循环网络的学习更有帮助，因为它们提供了更纯净、更容易理解的基础模式。

这种差异在实际应用中的含义是深刻的。在现实世界中，我们经常面临需要处理不同长度输入的情况——从短文本摘要到长篇文档分析，从简短对话到复杂多轮交互。变形金刚模型的这种特性意味着，为了在所有可能的输入长度上都表现良好，我们可能需要准备海量的训练数据，覆盖每一种可能的长度组合。

四、权重分享的秘密：模型如何跨越长度边界

为了更深入地理解这种现象，研究团队设计了一个巧妙的实验来量化不同模型的"知识分享能力"。他们提出了一个被称为"分享因子"的指标，用来衡量模型在处理不同序列长度时是否真正学会了可复用的机制。

这个实验的设计思路很简单但很有洞察力。研究团队比较了两种训练策略的效果：第一种是训练一个能够处理长度2到10的所有序列的通用模型；第二种是分别为每个长度训练一个专门的模型，然后将所需的训练数据相加。如果通用模型真的学会了可复用的机制，那么它所需的训练数据应该远少于所有专门模型的数据总和。

分享因子的计算方式是：所有专门模型所需训练数据的总和除以通用模型所需的训练数据。如果这个比值大于1，说明模型实现了知识分享和学习摊销；如果等于1，说明模型为每个长度都学习了独立的解决方案；如果小于1，则说明存在破坏性干扰，不同长度的学习任务互相冲突。

实验结果令人震惊。对于循环神经网络，在它们擅长的任务设置下，分享因子常常达到几十甚至上百，这意味着通用模型的数据效率是专门模型的几十倍。比如，如果分别训练长度2到10的专门模型需要总共10万个样本，那么通用的循环模型可能只需要1千个样本就能达到相同的效果。

而变形金刚模型的表现则大相径庭。在大多数情况下，它们的分享因子接近或小于1。在某些情况下，特别是在思维链教学方式下，分享因子甚至低至0.3，这意味着训练一个通用模型比训练多个专门模型需要更多的数据。这种破坏性干扰表明，不同长度的学习任务在变形金刚内部实际上是相互竞争和冲突的。

这种现象可以用一个生动的比喻来理解。循环神经网络就像一个优秀的工匠，学会了使用锤子的基本技能后，能够用同一把锤子敲打不同大小的钉子。每次使用这个技能都会强化对工具的掌握，使得整体技能水平提升。而变形金刚模型更像一个收藏家，为每一种特定的钉子都购买了专门的锤子，虽然每把锤子都很精确，但它们之间缺乏技能的相互促进。

更有趣的是，研究团队发现分享因子与模型的长度泛化能力之间存在强烈的相关性。那些在训练数据范围内表现出高分享因子的模型，在面对超出训练长度范围的序列时也表现得更好。这一发现验证了一个重要假设：真正理解任务本质的模型不仅能在已知情况下高效学习，也能在未知情况下保持稳健性。

这种相关性揭示了AI模型学习的一个深层规律：数据效率和泛化能力往往是同一个硬币的两面。一个能够从少量数据中学到可迁移知识的模型，往往也能更好地应对新的、未见过的情况。相反，那些需要大量特定数据才能学会任务的模型，通常在面对新情况时表现脆弱。

五、现实意义：从实验室到真实世界

这项研究的发现远不止是学术层面的有趣观察，它们对现实世界的AI应用有着深刻的启示意义。当我们把目光从实验室的简单数学任务转向真实世界的复杂应用时，这些发现的重要性变得更加明显。

在对话系统中，状态追踪是核心能力之一。一个聊天机器人需要记住用户在对话中提到的信息——比如用户的姓名、偏好、之前讨论的话题等。这些信息需要在整个对话过程中保持和更新，就像我们实验中的累加任务一样。研究结果暗示，基于变形金刚的对话系统可能需要见过大量不同长度的对话样本才能稳定工作，而且它们可能难以将从短对话中学到的规律应用到长对话中。

在智能代理和机器人控制领域，状态追踪的重要性更加突出。一个自动驾驶汽车需要持续追踪周围车辆的位置和速度，一个家庭机器人需要记住房间的布局和物品位置。如果这些系统基于变形金刚架构，它们可能需要针对每一种可能的场景长度和复杂度进行专门训练，这在实际部署中是不现实的。

研究还揭示了为什么大型语言模型在处理长文本时会出现"上下文衰减"现象。当文本长度超过模型在训练时常见的长度范围时，模型的性能往往会显著下降。这不仅仅是因为计算限制，更根本的原因可能是这些模型为不同的上下文长度学习了不同的处理策略，缺乏真正的长度无关的理解机制。

从训练成本的角度来看，这些发现也有重要的经济影响。如果要让一个变形金刚模型在各种不同长度的任务上都表现良好，所需的训练数据可能呈指数级增长。这不仅意味着更高的数据收集和标注成本，也意味着更长的训练时间和更大的计算资源消耗。相比之下，具有适当感应偏置的模型可能以极小的成本达到相似或更好的效果。

然而，这项研究也提醒我们不要过于简单化地理解AI模型的优劣。变形金刚模型在许多任务上的卓越表现是不可否认的，特别是在需要复杂推理和创造性思维的领域。关键在于理解每种架构的优势和限制，并在适当的场景中使用适当的工具。

这些发现也为AI研究的未来方向提供了重要线索。一个有前途的研究方向是开发结合了变形金刚的表达能力和循环网络的感应偏置的混合架构。另一个方向是为变形金刚模型设计新的训练方法，使其能够学习到更可迁移的表示。

六、深入机制：AI模型的学习策略解析

为了更好地理解为什么会出现这样的差异，研究团队深入分析了不同模型的内部工作机制。这种分析就像是打开不同品牌汽车的引擎盖，观察它们如何以不同的方式达到相似的目的地。

循环神经网络的工作方式体现了一种"渐进式学习"策略。当处理序列2、1、0、3、4时，LSTM模型会维护一个内部状态，这个状态在每一步都会被精确更新。第一步看到2，内部状态变为"当前和为2"；第二步看到1，状态更新为"当前和为3"；以此类推。这种处理方式的优美之处在于，无论序列有多长，每一步的操作都是相同的：读取新输入，更新内部状态。

这种机制使得LSTM能够自然地实现参数共享。用于处理第3个元素的神经网络权重与用于处理第30个元素的权重是完全相同的。这就像一个熟练的打字员，无论是打一个单词还是一篇文章，每个字母的敲击动作都遵循相同的肌肉记忆模式。

相比之下，变形金刚模型采用的是"全局分析"策略。它同时观察整个序列2、1、0、3、4，然后通过复杂的注意力机制来计算最终结果。这个过程更像是一个数学家在黑板上写下一个复杂的方程式，然后通过多步推理得出答案。虽然这种方法在许多复杂推理任务中非常有效，但它对于简单的序列累加任务来说可能过于复杂。

更重要的是，变形金刚的注意力机制会为不同长度的序列学习不同的权重模式。处理长度为5的序列时，它可能学会了"第一个位置关注自己，第二个位置关注前两个位置"的模式；而处理长度为10的序列时，它可能需要学习完全不同的关注模式。这就解释了为什么变形金刚在不同长度之间缺乏知识迁移能力。

研究团队还发现了一个特别有趣的现象：在某些情况下，变形金刚模型会学会模拟循环计算的过程，但这种模拟是通过学习特定的注意力模式来实现的，而不是通过理解循环计算的本质。这就像一个学生通过死记硬背背下了乘法表，而不是理解乘法的概念，因此无法灵活应用到新的情况。

这种机制上的差异也解释了为什么不同的教学方式对两种模型有如此不同的影响。"对齐思维链"教学方式强制模型在每一步都输出中间结果，这与循环网络的自然处理方式完全吻合，因此大大提高了学习效率。而"思维链"方式要求在看完整个序列后再输出所有中间步骤，这对循环网络来说变成了一个额外的记忆负担。

七、超越简单任务：复杂群操作的挑战

为了验证这些发现的普遍性，研究团队将实验扩展到了更复杂的数学结构——非交换群操作。如果说之前的累加任务像是学习简单的算术，那么这个新任务就像是学习抽象代数。

具体来说，研究团队选择了对称群S5作为测试平台。对称群听起来很抽象，但我们可以把它想象成一套复杂的魔方操作。每个操作都是对5个对象的重新排列，比如将位置(1,2,3,4,5)变换为(2,1,4,5,3)。与简单的数字累加不同，这种操作是不可交换的——先做操作A再做操作B，与先做操作B再做操作A，通常会得到完全不同的结果。

这种非交换性使得任务变得极其复杂。模型不能像处理累加任务那样依赖简单的数值计算，而必须学会追踪复杂的符号操作序列。这更接近真实世界中的许多任务——比如机器人的动作序列规划，或者程序代码的执行过程，其中操作的顺序至关重要。

令人印象深刻的是，即使在这种复杂的设定下，研究的主要发现依然成立。循环神经网络继续表现出优秀的学习效率和跨长度的知识迁移能力，而变形金刚模型依然需要大量的训练数据，并且为不同的序列长度学习独立的解决方案。

更令人惊讶的是，在这个复杂任务中，模型之间的性能差距变得更加悬殊。对于累加任务，变形金刚模型虽然需要更多数据，但最终还是能够学会；而在对称群操作任务中，变形金刚模型在某些设定下完全无法收敛到正确解。这表明，随着任务复杂度的增加，感应偏置的重要性不是减少，而是增加。

这个发现对于理解AI模型的能力边界有着重要意义。在很多实际应用中，我们面临的任务都具有类似的复杂性和非交换性。比如，在自然语言处理中，词序的重要性使得语言理解任务具有天然的非交换特性；在机器人控制中，动作的执行顺序直接影响最终结果；在软件工程中，代码语句的顺序决定了程序的行为。

八、训练策略的奥秘：数据分布的隐藏影响

研究团队还发现了一个容易被忽视但极其重要的现象：训练数据的呈现顺序对模型学习效果有着显著影响，而且这种影响在不同类型的模型上表现得截然不同。

他们设计了三种不同的数据分布策略。第一种是"固定长度"策略，只使用最长的序列进行训练，就像让学生只做最难的题目。第二种是"均匀分布"策略，各种长度的序列随机混合，就像让学生随机练习不同难度的题目。第三种是"由短到长"策略，按照长度递增的顺序呈现训练数据，就像传统的教学方法——先学简单的，再学复杂的。

对于循环神经网络，"由短到长"策略显示出了明显的优势。这种策略让模型能够首先在简单的短序列上掌握基础规律，然后逐步将这些规律应用到更长的序列中。就像学习钢琴时先练习简单的音阶，再逐步挑战复杂的乐曲一样。短序列提供了更纯净、更容易理解的学习信号，帮助模型构建正确的内部表示。

这种现象的原因在于，短序列中的"信噪比"更高。在长序列中，模型需要同时处理更多的信息，容易被无关的变化干扰；而在短序列中，核心的计算规律更容易被识别和学习。一旦模型在短序列上建立了正确的计算机制，这个机制就能自然地扩展到长序列。

相比之下，变形金刚模型对数据呈现顺序的敏感度要低得多。无论是采用哪种策略，它们的学习效果都没有显著差异。这进一步证实了变形金刚模型缺乏真正的归纳学习能力——它们不是通过掌握可迁移的规律来学习，而是通过记忆特定的输入-输出模式。

在"结果监督"设定下，这种差异变得更加明显。循环网络在"由短到长"策略下的表现远超其他策略，有时甚至能够用十倍更少的数据达到相同的效果。这个发现对实际应用有重要启示：如果我们要训练一个处理序列数据的AI系统，从简单案例开始的渐进式训练策略可能比随机混合所有数据更有效。

这种现象也解释了为什么人类的学习通常遵循从简单到复杂的顺序。我们的大脑似乎也具有类似循环网络的感应偏置，能够将在简单情况下学到的规律有效地迁移到复杂情况中。传统的教育方法——比如先学加法再学乘法，先学单词再学句子——可能正是利用了这种内在的学习机制。

九、未来展望：重新思考AI架构设计

这项研究的发现不仅揭示了现有AI模型的重要特性，更为未来的AI研究指明了新的方向。研究团队的工作提出了一个根本性的问题：我们是否过度依赖了计算力的暴力提升，而忽视了架构设计中的归纳偏置？

在当前的AI发展趋势中，主流做法是构建越来越大的模型，使用越来越多的数据。这种路径在很多任务上确实取得了惊人的成功，但这项研究提醒我们，单纯的规模扩展可能无法解决所有问题。对于需要持续状态追踪的任务，架构的选择可能比模型的规模更加重要。

一个特别有趣的发现是，分享因子与长度泛化能力之间的强相关性。这意味着，一个在训练数据范围内表现出良好知识迁移能力的模型，也更可能在面对训练时未见过的情况时保持稳健。这为模型选择和评估提供了一个新的标准：我们不仅要关注模型在特定任务上的表现，更要关注它的学习是否具有可迁移性。

研究还揭示了教学方式与模型架构之间的深度匹配关系。不同的AI架构适合不同的监督策略，这启发我们在设计AI系统时要考虑架构和训练方法的协调配合。比如，如果我们选择使用循环架构，那么"对齐思维链"式的训练可能更有效；如果选择变形金刚架构，可能需要采用不同的策略来弥补其归纳偏置的缺失。

从实用角度来看，这些发现对AI产品的开发有重要指导意义。在需要处理变长序列的应用中——比如对话系统、文档分析、时序预测等——选择具有适当归纳偏置的架构可能比简单地增加模型规模更有效。这不仅能提高性能，还能显著降低训练成本和数据需求。

研究也为解释当前大型语言模型的某些限制提供了新视角。许多用户发现，这些模型在处理很长的文档或对话时表现不稳定，可能会"忘记"早期的信息或产生不一致的回复。根据这项研究的发现，这些问题可能不仅仅是技术实现的问题，而是变形金刚架构本身缺乏有效状态追踪机制的体现。

展望未来，一个有前途的研究方向是开发结合了不同架构优势的混合系统。比如，可以设计一个系统，其中循环组件负责状态追踪和序列处理，而变形金刚组件负责复杂推理和创意生成。这种分工合作的架构可能能够在保持各自优势的同时，弥补各自的不足。

另一个重要方向是为现有架构设计新的训练方法，使其能够学到更好的归纳偏置。比如，可以研究如何通过特殊的正则化技术或训练策略，鼓励变形金刚模型学习更可迁移的表示。也可以探索如何通过课程学习或多任务学习来提高模型的泛化能力。

说到底，这项研究提醒我们，在AI发展的道路上，理解比规模更重要。只有深入理解不同AI架构的本质特性和适用范围，我们才能构建真正智能、高效、可靠的AI系统。随着AI技术越来越多地融入现实世界的应用，这种深层理解将变得更加珍贵和必要。

当我们谈论人工智能的未来时，也许我们应该更多地关注如何让机器学会像人类一样学习——不是简单地记忆大量的例子，而是从少量的经验中提取可迁移的原理，并将这些原理灵活地应用到新的情况中。这项由Qualcomm AI研究院完成的研究，为我们理解和实现这个目标提供了重要的科学基础。

Q&A

Q1：变形金刚模型和循环神经网络在状态追踪任务上有什么不同？

A：变形金刚模型像是拥有全局视野的分析师，能同时看到整个序列然后计算结果，但为每种序列长度都要学习独特策略。循环神经网络像有经验的工匠，学会基本操作后能重复应用到任何长度序列，具有天然的逐步处理能力。

Q2：为什么循环神经网络需要的训练数据比变形金刚模型少那么多？

A：循环神经网络具有"感应偏置"，会自动学习可重复应用的基础规则，就像学会加法原理后能处理任意数量的加法。而变形金刚模型倾向于为每种情况记忆独特解决方案，无法有效地在不同长度间迁移知识，因此需要大量数据覆盖各种可能情况。

Q3：这项研究对现实中的AI应用有什么启示？

A：研究提醒我们在选择AI架构时要考虑任务特点。对话系统、机器人控制等需要持续状态追踪的应用，可能更适合循环架构而非简单地使用大型变形金刚模型。同时，训练策略也很重要——从简单到复杂的渐进式学习往往更有效。

高通研究院：Transformer模型在特定记忆任务中落后于传统模型

热搜

热门跟贴

热搜

热门跟贴

相关推荐

你刷到的视频是真的么？用物理规律拆穿Sora谎言

DPO「只看总分不看细节」？TI-DPO用Token重要性重塑大模型对齐

CL-Bench的故事没有结束，生成式CL-Bench：GENIUS来了

Agent的苦涩觉醒：智能正从语言走向经验

从算法走向制造能力：智元给人形赛道的中局判断

从单一智能到多端AI互联，我在MWC高通展台看见了未来

电动车边走边发电的原理

拿走一块不被发现，网友：这是什么原理

原理明白了请问货上哪里买呢

杯子一按自动上饮料，这到底是什么原理，是真的看不懂！

男子路边给女孩剪头发，没想到那么顺滑就下来了，这是什么原理？

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

自动售货机售卖活螃蟹的原理与过程解析

这家伙太聪明了，搞不懂什么原理

当视频难以被表征：UCSD、HKUST等机构联合提出FlowRVS

飞机起飞，其实就是模仿天鹅，起飞原理都一样

4个常见测量血糖的数值分别要怎么看？

用简单的原理，检查大梁是否变形，民间的智慧

为什么猫的形状没有狗多?

Dense、MoE之外第三条Scaling路径：交大提出JTok模块，省1/3算力