打开网易新闻 查看精彩图片

这项由蚂蚁集团DeepFind团队与华东师范大学合作完成的研究发表于2026年2月,论文编号为arXiv:2602.10622v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你打开支付宝准备买咖啡时,系统是如何知道向你推荐哪家店的?当你浏览商品时,它又是怎样猜中你的心思的?这背后隐藏着一个fascinating的技术秘密——大语言模型正在学习"读懂"用户。

蚂蚁集团的研究团队最近发现了一个重要问题:现有的大语言模型虽然在理解文字方面表现出色,但在理解用户行为时却遇到了困难。就像一个善于阅读文章的学者,却不太懂得察言观色一样。传统的BERT模型虽然能够全面理解用户信息,但就像需要把整本书看完才能回答问题的学生,无法应对实时变化的用户行为。而GPT这样的生成式模型虽然能够实时响应,但它们的"注意力"机制最初是为了生成文字而设计的,在理解用户行为时就像戴着有色眼镜看世界,视野受到了限制。

研究团队提出了一个革命性的解决方案——"梯度引导的软掩码"技术,简称GG-SM。这个技术就像给模型配备了一副可以自动调节焦距的智能眼镜,让它既能像近视镜一样专注于当前信息,又能像远视镜一样看清全局。更重要的是,这副"眼镜"能够根据学习过程中的反馈信号自动调整,找到最适合理解用户行为的视角。

他们使用了超过1.4亿个真实用户的支付宝数据进行训练,涵盖了用户的消费习惯、应用使用记录、搜索行为等多个维度。通过在9个不同的用户理解任务上进行测试,包括预测用户是否会参加音乐会、判断用户的消费偏好、分析用户对营销活动的敏感度等,研究结果显示这种新方法比传统方法的准确率提升了显著的幅度。

一、解码器模型的"视野"困境

要理解这项研究的意义,我们需要先了解大语言模型是如何"看"信息的。传统的解码器模型就像一个只能从左到右阅读的人,当它读到一个句子的中间部分时,无法回头看前面的内容,也不能提前偷看后面的内容。这种设计在生成文字时很有用,因为写作本身就是一个从左到右的过程。

但是当我们要让模型理解用户时,情况就不同了。用户的行为是一个复杂的整体,就像一幅画,你需要同时看到所有部分才能理解画的真正含义。如果只能从左上角开始,一点一点地扫描到右下角,你很可能错过画面中重要的关联和整体的意境。

研究团队发现,现有的方法主要有三种"视野"模式。第一种是"隧道视野",也就是传统的因果注意力机制,模型只能看到当前位置之前的信息,就像戴着马眼罩的马,虽然不会分心,但视野极其有限。第二种是"全景视野",即双向注意力机制,模型可以同时看到所有信息,就像站在山顶俯瞰全景,但这种方法与预训练时的习惯相违背,可能导致"水土不服"。第三种是"混合视野",在用户历史部分使用全景模式,在其他部分使用隧道模式,试图在两者之间找到平衡。

然而,研究团队发现,问题的关键不仅仅在于选择哪种视野模式,更在于如何从一种模式平滑地过渡到另一种模式。这就像让一个习惯了戴近视镜的人突然换成远视镜,需要一个适应过程,否则会产生眩晕和不适。

二、创新的"智能眼镜"技术

研究团队开发的梯度引导软掩码技术可以比作一副智能眼镜,这副眼镜有两个神奇的特点:它能够自动调节焦距,还能根据学习效果实时优化调节策略。

这个技术的工作原理非常巧妙。在训练的初期,系统会监测模型在学习过程中的"困难程度"——通过梯度信号来衡量。当模型在某个地方学习困难时,梯度信号就会变强,就像学生在难题前皱眉的程度。系统会根据这些信号调整注意力的分配,让模型更多地关注那些重要但困难的信息点。

具体来说,在训练的预热阶段,模型使用这些梯度信号来决定应该给未来信息多少"关注权重"。如果某个未来信息对当前的学习很重要(梯度信号强),那么就给它更高的关注度;如果不太重要,就降低关注度。这个过程就像一个老师在讲课时,根据学生的反应调整讲课重点,哪里学生听得吃力,就多花些时间解释。

预热阶段结束后,系统会"冻结"这些重要性权重,然后开始第二阶段的训练。在这个阶段,系统会逐渐增加对未来信息的关注度,最终实现完全的双向注意力。这个过程就像让眼睛从适应近距离阅读逐渐调整到远距离观察,给予充分的适应时间。

整个过程可以用一个数学公式来描述:在预热阶段,未来信息的关注权重由该信息的梯度强度决定;在调度阶段,权重在梯度确定的基础权重和完全开放权重之间线性插值。这确保了从局部注意力到全局注意力的平滑过渡。

三、数据的精心烹饪

研究团队不仅在技术上有所创新,在数据准备方面也下了大功夫。他们使用了两种类型的训练数据,就像准备一道复杂菜肴时需要不同的食材一样。

第一种是基于规则的行为轨迹数据集。这类数据记录了用户在支付宝上的真实行为,包括过去三个月的各种交互记录,以及未来一个月的行为作为预测目标。这就像记录一个人的生活习惯,然后预测他明天会做什么。研究团队会随机采样未来行为的代表性子集,确保训练数据的多样性和真实性。

第二种是LLM合成的问答对齐数据集。这种数据的生成过程颇为精妙,就像一个厨师在开发新菜谱时不断试错和改进。研究团队首先使用千问大模型生成各种用户理解场景作为"种子库"。然后,对于每个用户,他们会从种子库中检索最相关的10个场景,并基于这些场景和用户的历史行为生成问答对。

但这还没有结束。研究团队发现,普通的问答对可能太"简单"了,就像太容易的练习题无法提高学习效果一样。因此,他们开发了一套"困难样本"识别系统。这个系统会计算用户信息和答案之间的相似度,相似度越低,说明这个样本越"困难"——也就是说,从用户信息很难直接推断出答案。

对于这些困难样本,研究团队会进行进一步的分析,使用"思维链"推理来理解为什么这些样本困难,然后利用这些洞察来改进数据生成的提示词。这个过程会重复进行,直到生成高质量的困难正样本。整个过程就像一个学生在做完作业后,专门挑选错题进行深入分析和反复练习。

四、训练架构的精妙设计

研究团队设计的训练架构采用了双塔结构,可以比作一座有两个塔楼的城堡,两个塔楼之间通过桥梁相连但各自独立工作。

在左塔中,用户的多模态数据首先通过专门的编码器进行处理。这些编码器就像不同语言的翻译官,将用户的支付记录、小程序使用记录、搜索查询等不同类型的信息都翻译成统一的"语言"。然后,这些翻译后的信息通过轻量级的适配器投射到大语言模型的嵌入空间中,就像将不同格式的文件都转换成统一的格式。

右塔处理的是对应的答案信息,同样通过相同的大语言模型进行编码。两个塔楼使用相同的模型骨架,但在编码过程中彼此独立,这确保了训练的高效性,同时保持了与原始语言模型token语义的兼容性。

训练目标采用对比学习,这个过程就像教一个孩子辨认不同的物体。系统会同时看到一个用户和多个答案,其中只有一个是正确匹配的。训练的目标就是让系统学会将用户和正确答案拉近,与错误答案拉远。为了避免"误伤好人"的情况(即将实际相似但标注为负样本的情况当作负样本),研究团队还引入了一个掩码机制,当负样本与正样本太过相似时,会将其从负样本中排除。

五、实验验证的严谨设计

为了验证这项技术的有效性,研究团队进行了极其详尽的实验。他们使用Qwen2.5-0.5B-Instruct作为基础模型,这个选择颇有讲究——既不会因为模型太小而影响表现,也不会因为模型太大而掩盖技术改进的效果。

实验设置就像一场精心设计的竞赛,所有参赛选手(不同的注意力机制方案)都使用完全相同的训练配置:相同的批次大小(2048)、相同的训练步数(7万步)、相同的优化器设置和学习率调度策略。这确保了实验结果的公平性和可比性。

测试任务涵盖了三个主要领域。在用户预测领域,系统需要预测用户是否会点击音乐会信息、是否会登录应用、是否存在月活跃用户流失风险。在行为偏好领域,系统要判断用户对公共交通的偏好、消费能力水平、对美食和电影的兴趣。在营销敏感性领域,系统需要分析用户对成就感营销和实体偏好营销的敏感程度。

每个测试任务都使用约50万个样本,采用AUC(ROC曲线下面积)作为评价指标。AUC可以理解为系统"猜对"的概率,数值越接近1表示系统越准确。

六、令人瞩目的实验结果

实验结果令人印象深刻。使用梯度引导软掩码技术的模型在所有9个测试任务上都取得了最佳表现,平均AUC达到了0.7745。相比之下,传统的因果注意力方法只有0.7709,调度器方法为0.7733。虽然看起来数值差异不大,但在机器学习领域,这样的提升已经相当显著。

更有意思的是,研究团队发现他们的0.5B参数模型竟然超越了许多参数量大得多的通用嵌入模型。比如,Llama-embed-nemotron(参数量约为8B)的平均AUC只有0.7357,KaLM-Embedding模型为0.7156。这个结果说明了一个重要道理:在特定任务上,精心设计的小模型往往比简单粗暴的大模型更有效。

从不同任务类型的表现来看,新方法在所有领域都展现了优势。在用户预测任务中,比如预测用户登录行为,准确率达到了0.8438;在行为偏好分析中,比如判断用户消费能力,准确率高达0.9689;即使在最困难的营销敏感性分析中,系统也保持了稳定的性能。

研究团队还特别分析了训练过程的稳定性。他们发现,使用传统调度器方法时,模型的训练损失曲线会出现明显的波动,就像坐过山车一样忽高忽低。而使用梯度引导软掩码技术后,训练过程变得更加平滑稳定,就像驾驶一辆配备了先进悬挂系统的汽车,即使在颠簸的路面上也能保持平稳。

七、技术突破的深层意义

这项研究的意义远远超出了技术层面的改进。从用户体验的角度来看,更准确的用户理解意味着更精准的个性化服务。当系统能够更好地理解用户的真实需求和偏好时,用户就能得到更合适的推荐,减少信息过载的困扰。

从技术发展的角度来看,这项研究为解码器模型在非生成任务上的应用开辟了新的道路。传统观点认为,解码器模型主要适用于文本生成等任务,而理解类任务更适合使用编码器模型。这项研究证明,通过合适的注意力机制调整,解码器模型在理解任务上同样可以发挥出色的表现,甚至超越专门设计的编码器模型。

研究团队还发现了一个有趣的现象:梯度引导的权重分配策略能够自动识别出对用户理解最关键的信息片段。这些信息片段往往不是那些显而易见的内容,而是那些需要深入分析才能发现其重要性的隐含信息。这就像一个经验丰富的侦探,能够从看似平凡的细节中发现关键线索。

从工程实践的角度来看,这种方法的另一个优势是与现有的预训练模型保持良好的兼容性。企业可以在现有的大语言模型基础上应用这种技术,而不需要从零开始重新训练,大大降低了应用成本和技术门槛。

八、面向未来的思考

尽管取得了显著的进展,研究团队也坦诚地指出了当前方法的一些局限性。首先,梯度引导的权重计算需要额外的计算开销,虽然这个开销相对于整体训练成本来说并不大,但在大规模部署时仍需要考虑。其次,预热阶段的长度需要根据具体任务进行调整,这增加了超参数调优的复杂性。

研究团队表示,未来的工作将集中在几个方向上。一是进一步优化梯度引导策略,减少额外的计算开销。二是探索自适应的预热长度调整机制,让系统能够自动确定最佳的预热时长。三是将这种技术扩展到更多类型的任务和数据模态中。

他们还计划研究这种注意力机制调整对模型可解释性的影响。通过分析梯度引导的权重分配模式,或许可以更好地理解模型是如何"思考"用户行为的,这对于构建更加透明和可信的人工智能系统具有重要意义。

另一个有趣的研究方向是将这种技术与其他用户建模技术结合。比如,结合联邦学习技术保护用户隐私的同时提升用户理解能力,或者与强化学习技术结合实现更加动态的用户兴趣追踪。

从应用前景来看,这项技术有望在电商推荐、内容分发、风险控制等多个领域发挥重要作用。随着数字经济的进一步发展,精准的用户理解将成为企业竞争的核心能力之一,而这项技术为实现这一目标提供了新的可能性。

说到底,这项研究解决的是一个看似简单但实际上非常复杂的问题:如何让机器更好地理解人。虽然我们距离真正的"读心术"还很遥远,但这项技术让我们向这个目标又迈进了一步。当系统能够更准确地预测你想要什么、喜欢什么、需要什么时,我们的数字生活将变得更加便捷和个性化。

当然,随着技术的进步,我们也需要思考如何在提升用户体验的同时保护用户隐私,如何确保算法的公平性和透明度。这些都是未来需要持续关注和解决的重要问题。无论如何,这项来自蚂蚁集团的研究为我们展示了人工智能在用户理解领域的新可能性,也为相关技术的进一步发展奠定了坚实的基础。

Q&A

Q1:梯度引导软掩码技术是什么?

A:梯度引导软掩码技术是一种让大语言模型更好理解用户行为的方法。它就像给模型配备了一副智能眼镜,能根据学习过程中的困难程度自动调节注意力焦点。当模型在某个信息点学习困难时,系统会让它更多关注相关的未来信息,然后逐渐过渡到全面关注所有信息。

Q2:为什么小参数模型能超越大参数通用模型?

A:在特定任务上,精心设计的小模型往往比通用大模型更有效。大参数通用模型虽然知识面广,但在处理用户行为这种结构化数据时可能引入不相关的噪声。而针对性训练的小模型能够更专注于任务相关的特征,就像专业工具比万能工具在特定场景下更好用。

Q3:这项技术对普通用户有什么实际意义?

A:这项技术能让各种应用更准确地理解你的需求和偏好,从而提供更精准的个性化服务。比如购物时能推荐你真正需要的商品,浏览内容时能找到你感兴趣的信息,使用金融服务时能得到更合适的产品建议,总体上让数字生活更便捷、更符合个人需求。