打开网易新闻 查看精彩图片

2023年,亚马逊电商团队发现一个尴尬的数据:用户搜索"防水蓝牙音箱",前10个结果里有4个是不防水的普通音箱,2个是耳机,还有1个是音箱保护套。推荐系统的精准度正在以每年12%的速度下滑,而修复成本已经烧掉2.7亿美元。

这不是算法不够聪明,是数学工具选错了。

推荐系统的"维度灾难"

推荐系统的"维度灾难"

传统推荐算法把用户和商品拍扁成两张表格。用户表:年龄、性别、城市、浏览历史。商品表:价格、品类、品牌、评分。然后做匹配——就像用Excel的VLOOKUP找对象。

问题在于,真实世界的购买决策是立体的。

一个用户早上搜"跑鞋"可能是为了减肥,晚上再搜可能是给 spouse 买礼物。同一件商品,在"周末户外"场景和"通勤穿搭"场景里,权重完全不同。传统矩阵把这一切压成二维,信息损失超过60%。

Netflix 在2022年公开的技术博客里算过一笔账:用矩阵分解做推荐,用户-电影交互数据的利用率只有34%。剩下的66%藏在场景、时间、设备、社交关系这些"第三维度"里,矩阵根本装不下。

亚马逊的困境更典型。它的商品类目超过3万个,用户行为序列平均包含47个触点,从搜索到下单平均跨越4.3个设备。二维表格像试图用平面图描述魔方——你能看到颜色,但永远猜不到下一秒会转到哪一面。

张量:把压扁的世界还原成立体

张量:把压扁的世界还原成立体

张量(tensor)不是什么新发明。物理学家用它描述应力分布,气象学家用它存全球气温场。但在推荐系统里,它直到最近才被认真对待。

简单说,张量是矩阵的N维推广。矩阵是二维表格,张量可以是三维立方体、四维超立方体,或者更高。在推荐场景里,它允许你同时建模:用户×商品×场景×时间×位置×设备。

一个具体例子:外卖平台的午餐推荐。

矩阵时代,系统知道"用户A喜欢川菜"。张量时代,系统知道"用户A在工作日午餐时段、用公司电脑、距离送达时间小于30分钟时,对川菜的偏好度是0.73;但在周末晚餐、用手机、不赶时间时,偏好度降到0.31"。

这个差异不是微调,是质变。DoorDash 在2023年部署张量分解模型后,午餐时段的点击率提升19%,而晚餐时段反而下降4%——系统终于学会了"分场景说话",而不是全天推送同一套结果。

打开网易新闻 查看精彩图片

技术实现上,核心是张量分解(tensor decomposition)。把庞大的多维数据压缩成几个"因子矩阵",既保留维度间的交互关系,又能快速计算。Google 在2015年提出的 Tensor-Train 格式,让万亿参数的张量也能在单机上训练。

从实验室到购物车:三家公司的实战

从实验室到购物车:三家公司的实战

阿里妈妈在2024年双11前全量上线了张量召回模型。他们的技术负责人王睿在闭门会上提到一个细节:女装类目里,"用户最近浏览"和"用户历史购买"在传统模型里是互相打架的两个特征——浏览多了,系统怕你不买;买多了,系统怕你不逛。张量模型把它们放进不同维度,发现"浏览但未购买"和"购买且复购"其实是两种完全不同的用户状态,应该走两条召回通道。

结果很直接。女装类目的曝光转化率从1.2%提升到1.7%,听起来 modest,但乘以双11期间87亿次曝光,是多出4.35亿次有效点击。

Spotify 的路径更曲折。他们的音乐推荐长期用矩阵分解,2022年尝试引入张量建模"听歌时段×心情标签×社交分享"三维交互,但训练成本暴涨8倍,上线两周后 rollback。真正的突破来自稀疏张量格式——只存非零元素,把存储量砍掉两个数量级。2024年重新上线后,"每日推荐"的完播率提升11%,用户主动收藏率提升23%。

亚马逊的修复方案最保守,也最说明问题。他们没有推翻整个系统,而是在搜索排序层插入一个张量重排模块,专门处理"多意图查询"——比如"苹果",可能是水果、手机、唱片公司或纽约地标。张量模型同时计算四个意图的置信度,再和商品的多标签嵌入做交互。2024年Q3的数据显示,这类查询的满意度评分从3.2提升到4.1(5分制)。

代价与边界

代价与边界

张量不是万能药。它的计算复杂度随维度指数增长,维度超过5时,工程优化比算法创新更重要。Pinterest 在2023年的技术分享里坦白:他们的视觉推荐尝试用四维张量(用户×图片×板块×时间),结果训练任务在集群上跑了72小时没收敛,最后砍回三维。

更隐蔽的问题是可解释性。矩阵分解还能说"推荐这首歌是因为你和某用户口味相似",张量模型的决策路径像黑箱里的多维迷宫。欧盟的AI法案要求"高风险AI系统具有可解释性",推荐系统是否算"高风险"还在扯皮,但合规团队已经开始紧张。

国内某头部电商的算法工程师告诉我,他们2024年花了4个月把张量模型包装成"可解释"版本——其实是用另一个简单模型去拟合张量模型的输出,再拿简单模型的理由去应付审核。"有点像让翻译给同声传译写逐字稿,信息损失30%,但好歹能交差。"

用户侧的感受更微妙。更好的推荐意味着更窄的信息茧房——系统太懂你了,反而让你看不到意外。YouTube 在2024年A/B测试中发现,张量优化后的推荐流,用户平均观看时长增加7%,但主动搜索行为下降15%。"猜你喜欢"越准,"我想看看别的"越少。

一个 Reddit 用户的评论被阿里妈妈团队截图贴在内部 wiki 上:"现在打开淘宝,首页全是我会买的东西,而不是我想逛的东西。效率高了,乐趣少了。"

技术团队把这当作优化目标来讨论:要不要在目标函数里加入"惊喜度"指标?但惊喜和转化天生矛盾,最终的妥协方案是——在双11大促期间关闭惊喜项,平时保持5%的权重。

张量运算解决了维度问题,但没法回答:推荐系统的终点,是让用户更快买到想要的,还是让他们偶尔发现不知道自己想要的?