2025年AICon大会上,华为主任工程师郭威站上讲台,台下的开发者们还不知道,接下来40分钟会听到一个可能改变推荐系统走向的发现。他没有讲芯片制程,没有展示手机新品,而是在大屏幕上放出两组数字:传统Scaling Law在推荐场景的预测误差高达37%,而他们自研的Performance Law把这个误差压到了9%以内。
这组数字背后的逻辑是什么?华为的技术团队在扩大FuXi-Alpha模型规模的过程中发现,直接把大语言模型Scaling Law套用到推荐系统上,效果远不如预期,资源浪费严重,预测也失准。郭威的团队花了一年多时间反复验证,最终找到了一种新的度量维度——真实熵,用它来校准模型参数量、数据量与实际效果之间的关系。
这件事的意义在于,过去两年业界一直纠结要不要跟进Meta HSTU掀起的生成式推荐热潮,但训练成本不确定性太高,决策时缺乏可靠依据。现在郭威给出的Performance Law相当于提供了一份低成本的参数寻优地图。按照他的说法,团队已经验证出了推荐系统规模化效应的核心驱动因素,不是算力堆叠,而是通过结构设计约束表征空间,让模型更好收敛。
回溯到2024年2月, Meta发布HSTU论文,推荐系统圈有点恍惚。大语言模型的Scaling Law已经很成熟,但推荐系统领域的规模化效应一直没被系统验证过。郭威的团队第一时间复现了GPT、Llama、SASRec和HSTU四种结构。实验跑出来一个意外结果:传统的SASRec和GPT在推荐场景下参数再多也没用,但Llama和HSTU却出现了清晰的规模化趋势。拆解后发现,关键在于残差连接方式和归一化策略的摆放顺序。Llama和HSTU把归一化放在注意力机制前面,特征分布更稳定均匀,大模型训练才能跑起来。
这个发现直接催生了华为自己的架构设计。HSTU虽然能规模化,但牺牲了特征交互深度,连FFN模块都为了加速砍掉了,容易丢失关键特征的隐式交互。Llama则完全不处理推荐系统里至关重要的时间维度。郭威提出的FuXi-Alpha架构,核心思路是做特征交互增强:引入三个独立通道分别处理语义、时间和位置信息,避免简单叠加导致的信息损失;再加两阶段FFN,第一阶段深度融合多通道信息,第二阶段做隐式特征交叉建模。因为FFN主要靠矩阵乘法,硬件计算效率极高,MFU显著提升。
实验数据证实了这个方向。在2层和8层配置下,FuXi-Alpha全面超越Llama和HSTU。继续往深层走,32层时效果还在持续攀升,直到64层因为当时NPU显存优化不完善出现OOM问题才暂时停下。值得关注的是,这家公司选择了昇腾NPU作为底层算力底座,做了一个从模型设计到硬件适配的完整技术栈。华为披露的数据显示,FuXi-Alpha在召回场景全量上线后,歌曲播放次数提升4.67%,播放时长增长5.1%。
注意力地图可视化进一步揭示了模型内部机制。分析FuXi-Alpha的Attention Map发现,语义通道的最大注意力权重明显区别于其他通道,说明多通道设计确实避免了特征干扰。语义、时间、位置三种表征各自独立运行交叉操作后拼接,比HSTU的粗暴叠加方式保留了更多有效信息。
时间推进到2025年下半年,整个生成式推荐领域的焦点转向了两条路径的博弈。一条是以端到端模型Scaling Law为核心,用单个大模型统一召回、粗排、精排、重排全流程,华为的UniGRF、快手OneRec-V1和OneRec-V2、腾讯GPR都在这个方向上投入。另一条路径是重构底层技术底座,搭建用户行为与大语言模型的对齐表征空间,借助LLM的推理能力升级推荐效果,代表工作是谷歌PLUM和快手OneRec-Think。
郭威在演讲中没有回避这个行业分岔路口。他复盘了华为从早期DeepFM、DCN特征交叉,到DIN短序列建模,再到2021至2022年长序列两阶段检索的完整演进过程,然后转向当前生成式推荐阶段的判断:模型结构持续创新正从HSTU序列规模化,走向RankMixer特征交互规模化,再演进到OneTrans和Meta GEM的融合规模化方案。华为在这一条线上贡献了FuXi-Alpha、Beta和DLF多项工作。
一个反复被追问的问题是,为什么推荐系统需要千亿级参数?郭威的回答围绕"真实熵"展开。传统Scaling Law用训练数据量来预测模型性能提升空间,但推荐系统的数据构成远复杂于语言模型——用户行为的稀疏性、兴趣漂移、冷启动场景的不确定性都远高于单维度文本序列。真实熵度量能够更准确量化这些复杂性,从而让参数寻优不再是拍脑袋或盲目堆资源,而是有一张相对精确的导航图。
华为这个技术团队给出的商业故事不难理解:当业界还在争论生成式推荐是否值得做大规模投入时,他们用Performance Law画了一条成本-效果曲线,把决策难度从"到底要不要赌"降到了"参数选多少最优"。推荐系统经过特征工程时代、深度学习时代,现在跨入大模型时刻,拼的不再是谁的工程团队直觉更好,而是谁能用科学方法把不确定性量化出来。
热门跟贴