会话推荐旨在根据用户在短期内的行为预测其兴趣偏好,为其提供个性化推荐服务。过去的工作主要集中在利用神经网络结构建模商品 ID 的共现关系,但最近的研究开始将商品模态信息(如描述文本、图片等)纳入模型,以提高推荐的准确性和多样性。
然而,研究发现 ID 和模态信息代表着完全不同的推荐逻辑,因此本文提出了一个ID 和模态信息解耦的会话推荐模型 DIMO,以提高推荐系统的准确度和可解释性。
![](http://dingyue.ws.126.net/2024/0520/69a28991j00sdrd77002td200u0009og00it0062.jpg)
论文题目: Disentangling ID and Modality Effects for Session-based Recommendation 论文链接: https://arxiv.org/abs/2404.12969 代码链接: https://github.com/Zhang-xiaokun/DIMO
一、研究动机
![](http://dingyue.ws.126.net/2024/0520/6930a6f2j00sdrd78005nd200u000beg00it0075.jpg)
会话推荐 (Session-based Recommendation) 旨在根据匿名用户在短期内的行为,预测其兴趣偏好,进而为其提供个性化推荐服务。早期大部分工作致力于利用多种神经网络结构来建模商品 ID 的共现关系,并以此给用户提供个性化建议。采用的神经网络结构包括循环神经网络 (RNN)、注意力机制以及图神经网络 (GNN) 等。
最近部分研究则将商品模态信息纳入模型,以增强模型对用户意图的理解,包括商品的描述文本、商品图片、商品类别以及商品价格等。模态信息的引入使得模型能够从多个角度捕捉用户偏好, 进而提高了模型的表现,并可以缓解会话推荐系统天然存在的数据稀疏问题。然而,本文研究发现,商品 ID 和模态信息蕴含着完全不同的推荐逻辑,即商品 ID 信息反映商品间的共现关系,而商品模态信息则体现用户的细粒度偏好。
一方面,商品的 ID 仅仅是一个符号标识符,其无法表示具体的商品特征,而只是从统计的角度反映了所有用户-商品交互中的商品共现关系。具体地,如上图左侧所示,ID 的共现模式表明了推荐系统中的一个基本逻辑:如果商品 x1和 x2 经常被一起购买,那么在用户与 x1 交互后,推荐系统则可以根据商品间的共现关系向其推荐 x2。
另一方面,商品的模态信息则体现了用户的细粒度偏好。商品的模态信息,如文本和图片,可以描述商品的具体特征,比如服装的风格和颜色。如上图中右侧所示,在分析用户购买商品的图片后,系统可以推断出这位用户是一个漫威迷。据此,推荐系统可以给这位用户推荐漫威联名款的杯子(即使 T 恤和杯子很少被一起购买)。
显然,这种推荐模式有助于提高推荐系统的表现。这也突显了推荐系统的另一个推荐逻辑:从商品模态信息中可以推断出用户的细粒度偏好,依据这种细粒度的偏好,推荐系统可以向用户推荐具有相似属性的商品。
由此可见,商品的 ID 和模态信息在推荐系统预测用户行为时代表着完全不同的逻辑。然而,现有的方法往往将 ID 和模态信息的嵌入表示不加区分地混合在一起,混淆了这两种截然不同的推荐逻辑。这种操作无法探究用户行为背后的基本原因,导致对应的推荐模型无法准确地对用户行为进行预测,也无法对其产生的推荐结果进行解释说明。因此,本文对 ID 和模态信息进行了解耦,以同时提高推荐系统的准确度和可解释性。
二、提出模型DIMO
![](http://dingyue.ws.126.net/2024/0520/953ac074j00sdrd7a006wd200u000bug00it007f.jpg)
本文提出了 ID 和模态信息解耦的会话推荐模型 DIMO。DIMO 的模型图如上图所示,其在商品和会话层面同时对 ID 和模态信息的不同效应进行了解耦。如图所示,DIMO 主要由以下模块组成:
ID 和模态表示学习模块,在商品层面对 ID 和模态信息进行解耦。首先,对于 ID 信息,DIMO 设计了一个共现表示机制,显式地将商品共现关系注入到 ID 表示中。同时,对于模态信息,DIMO 通过自然语言处理和计算机视觉技术将异质的模态信息转换到相同的语义空间,实现了统一的模态表示。
多视角自监督解耦模块,包括代理机制和反事实推断,在缺乏监督信号的情况下在会话层面区分 ID 和模态信息的不同效应。
预测模块,基于解耦的 ID 和模态效应,通过因果推断预测用户未来的行为。
解释生成模块,创建了两个模板,共现模板和特征模板,利用 ID 和模态信息所代表的不同用户行为逻辑,对推荐结果进行了解释说明。
更多模型细节请参考我们的代码及论文原文。
三、模型表现
![](http://dingyue.ws.126.net/2024/0520/ddde39b9j00sdrd7b006ld200u000grg00it00ah.jpg)
DIMO 和所有基线模型在四个真实数据集下的表现如上表所示。由表可知,DIMO 在所有数据集的所有评价指标上均大幅优于所有基线方法,这证明了 DIMO 在会话推荐任务上有效性。我们认为 DIMO 对当前方法的压倒性优势来自于其对 ID 代表的商品共现模式和模态信息体现的用户细粒度偏好进行的解耦操作。由于区分了 ID 和模态信息对建模用户行为的不同逻辑,DIMO 能够确定形成用户行为背后的原因,从而提供准确的个性化建议。
更多实验结果及分析,包括可解释性研究,请参考我们的论文原文。
来源:公众号【PaperWeekly】
llustration From IconScout By Delesign Graphics
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(
www.techbeat.net) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
热门跟贴