郭威的推荐系统性能定律试验：让Scaling Law在推荐场景生效|law|scaling|定律试验|序列|度量|郭威

2025年AICon大会上，华为主任工程师郭威站上讲台，台下的开发者们还不知道，接下来40分钟会听到一个可能改变推荐系统走向的发现。他没有讲芯片制程，没有展示手机新品，而是在大屏幕上放出两组数字：传统Scaling Law在推荐场景的预测误差高达37%，而他们自研的Performance Law把这个误差压到了9%以内。

这组数字背后的逻辑是什么？华为的技术团队在扩大FuXi-Alpha模型规模的过程中发现，直接把大语言模型Scaling Law套用到推荐系统上，效果远不如预期，资源浪费严重，预测也失准。郭威的团队花了一年多时间反复验证，最终找到了一种新的度量维度——真实熵，用它来校准模型参数量、数据量与实际效果之间的关系。

这件事的意义在于，过去两年业界一直纠结要不要跟进Meta HSTU掀起的生成式推荐热潮，但训练成本不确定性太高，决策时缺乏可靠依据。现在郭威给出的Performance Law相当于提供了一份低成本的参数寻优地图。按照他的说法，团队已经验证出了推荐系统规模化效应的核心驱动因素，不是算力堆叠，而是通过结构设计约束表征空间，让模型更好收敛。

回溯到2024年2月, Meta发布HSTU论文，推荐系统圈有点恍惚。大语言模型的Scaling Law已经很成熟，但推荐系统领域的规模化效应一直没被系统验证过。郭威的团队第一时间复现了GPT、Llama、SASRec和HSTU四种结构。实验跑出来一个意外结果：传统的SASRec和GPT在推荐场景下参数再多也没用，但Llama和HSTU却出现了清晰的规模化趋势。拆解后发现，关键在于残差连接方式和归一化策略的摆放顺序。Llama和HSTU把归一化放在注意力机制前面，特征分布更稳定均匀，大模型训练才能跑起来。

这个发现直接催生了华为自己的架构设计。HSTU虽然能规模化，但牺牲了特征交互深度，连FFN模块都为了加速砍掉了，容易丢失关键特征的隐式交互。Llama则完全不处理推荐系统里至关重要的时间维度。郭威提出的FuXi-Alpha架构，核心思路是做特征交互增强：引入三个独立通道分别处理语义、时间和位置信息，避免简单叠加导致的信息损失；再加两阶段FFN，第一阶段深度融合多通道信息，第二阶段做隐式特征交叉建模。因为FFN主要靠矩阵乘法，硬件计算效率极高，MFU显著提升。

实验数据证实了这个方向。在2层和8层配置下，FuXi-Alpha全面超越Llama和HSTU。继续往深层走，32层时效果还在持续攀升，直到64层因为当时NPU显存优化不完善出现OOM问题才暂时停下。值得关注的是，这家公司选择了昇腾NPU作为底层算力底座，做了一个从模型设计到硬件适配的完整技术栈。华为披露的数据显示，FuXi-Alpha在召回场景全量上线后，歌曲播放次数提升4.67%，播放时长增长5.1%。

注意力地图可视化进一步揭示了模型内部机制。分析FuXi-Alpha的Attention Map发现，语义通道的最大注意力权重明显区别于其他通道，说明多通道设计确实避免了特征干扰。语义、时间、位置三种表征各自独立运行交叉操作后拼接，比HSTU的粗暴叠加方式保留了更多有效信息。

时间推进到2025年下半年，整个生成式推荐领域的焦点转向了两条路径的博弈。一条是以端到端模型Scaling Law为核心，用单个大模型统一召回、粗排、精排、重排全流程，华为的UniGRF、快手OneRec-V1和OneRec-V2、腾讯GPR都在这个方向上投入。另一条路径是重构底层技术底座，搭建用户行为与大语言模型的对齐表征空间，借助LLM的推理能力升级推荐效果，代表工作是谷歌PLUM和快手OneRec-Think。

郭威在演讲中没有回避这个行业分岔路口。他复盘了华为从早期DeepFM、DCN特征交叉，到DIN短序列建模，再到2021至2022年长序列两阶段检索的完整演进过程，然后转向当前生成式推荐阶段的判断：模型结构持续创新正从HSTU序列规模化，走向RankMixer特征交互规模化，再演进到OneTrans和Meta GEM的融合规模化方案。华为在这一条线上贡献了FuXi-Alpha、Beta和DLF多项工作。

一个反复被追问的问题是，为什么推荐系统需要千亿级参数？郭威的回答围绕"真实熵"展开。传统Scaling Law用训练数据量来预测模型性能提升空间，但推荐系统的数据构成远复杂于语言模型——用户行为的稀疏性、兴趣漂移、冷启动场景的不确定性都远高于单维度文本序列。真实熵度量能够更准确量化这些复杂性，从而让参数寻优不再是拍脑袋或盲目堆资源，而是有一张相对精确的导航图。

华为这个技术团队给出的商业故事不难理解：当业界还在争论生成式推荐是否值得做大规模投入时，他们用Performance Law画了一条成本-效果曲线，把决策难度从"到底要不要赌"降到了"参数选多少最优"。推荐系统经过特征工程时代、深度学习时代，现在跨入大模型时刻，拼的不再是谁的工程团队直觉更好，而是谁能用科学方法把不确定性量化出来。