「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代|信号|大模型|快手(软体)|模态|翻译

过去十年，推荐系统最核心的动作可以概括成一个字：找。

用户来了，系统理解用户兴趣，再从已有内容池里检索、排序、分发最合适的视频。这个「retrieve-and-rank」范式支撑了短视频、信息流和广告推荐的高速增长，也让深度学习推荐模型成为工业界的基础设施。

但它有一个天然上限：如果用户真正想看的那条视频，内容池里根本不存在呢？

快手最新论文提出的Recommendation-as-Generation（RaG），正是在回答这个问题。

论文标题：Recommendation as Generation: Unifying Personalized Video Generation and Recommendation at Industrial Scale
项目页： https://recommendation-as-generation.github.io/
论文地址：https://arxiv.org/abs/2606.25496
关键词：Recommendation-as-Generation, D-SIDs, Video Generation Agents, SCRL, Personalized Video Generation

它把推荐系统从「在已有视频里找答案」，推进到「根据用户兴趣生成答案」：先预测用户潜在兴趣，再直接生成与兴趣对齐的个性化视频

这不是一个概念 demo。论文中的 RaG 已在快手大规模广告系统中部署，服务超过4 亿日活用户。在线 A/B 实验显示，完整 RaG 系统相较强 GRM 基线带来+1.870% 广告收入提升

更关键的是，这一增益来自一个新的闭环：推荐模型不只是选择已有内容，而是把用户兴趣转化为视频生成目标，再用真实反馈持续校准生成过程。

下面是一个真实示例：

该用户为热爱健身的年轻男性，对美女、健身及低脂饮食内容表现出明显偏好。

基于此人群画像，系统为其量身定制了「美女代言蛋白粉」的场景化广告。广告以吸睛的美女形象切入，紧扣其「运动后控糖低脂」、「高效增肌」与「即时便捷」的真实痛点，实现精准种草，完美满足其个性化消费需求。

历史交互的兴趣视频

RaG 个性化视频广告

从「找视频」到「产视频」

传统推荐系统的链路是：用户画像与行为 → 兴趣建模 → 检索已有视频 → 排序分发。

RaG 将其改写为：用户画像与行为 → 兴趣语义 ID → 视频生产指令 → 个性化视频生成 → 用户反馈闭环。

论文将这一过程抽象为：

这一步的本质变化是：推荐模型不再只预测「某个 item 是否适合用户」，而是预测「用户真正想看的内容应该具备什么语义和创意形态」。

也就是说，推荐系统开始从内容分发器，变成内容生产链路的上游大脑。

两个核心挑战：

语义怎么打通，生成怎么落地

把推荐和视频生成接起来，并不是简单地把一个推荐模型和一个视频生成模型串联起来。

论文指出，RaG 要解决两个关键问题。

第一，兴趣推荐和视频生成如何统一到一个框架中建模

推荐模型处理的是用户画像、历史行为、item 特征等离散、异构信号；视频生成模型处理的是文本、图像、音频、运动等连续多模态信号。两者目标也不同：推荐要预测兴趣，生成要保证画面、叙事和音画质量。

如果没有一个统一语义接口，推荐模型预测出的兴趣很难稳定地驱动视频生成。

第二，个性化视频如何实现大规模工业化生产

当前高质量视频生成通常依赖复杂 prompt、多轮人工调试和后处理工具。面向数亿用户的广告推荐场景，系统不可能为每次请求现场生成一条视频。

所以 RaG 的目标不是做一个单点生成模型，而是构建一套端到端、可缓存、可反馈优化的工业级闭环系统。

RaG 的整体架构：

一个语义接口，三段生成链路，一个反馈闭环

RaG 由五个核心模块构成：

下面逐一拆解。

D-SIDs：

给视频一张「内容 + 创意」双维身份证

视频不是单一语义。

同一个商品，可以拍成温柔的生活方式短片，也可以拍成强促销风格广告；同一个「母婴护理」主题，可以是家庭温情叙事，也可以是功效对比测评。

如果把这些信息压进一个混合 ID，推荐模型会同时被内容语义和创意风格干扰，后续生成也难以控制。

因此 RaG 提出 Disentangled Semantic IDs（D-SIDs），将视频表示拆成两部分：

Content SIDs：视频讲什么，例如商品、人物、动作、物体、主题；
Creative SIDs：视频怎么讲，例如风格、节奏、氛围、镜头表达。

具体实现上，RaG 基于Qwen2.5-VL-7B-Instruct构建多模态表征，并使用快手内部 dense captioning model 生成 content /creative 两类描述，再分别进行 RQ-KMeans 离散量化。每类语义采用 2 层 codebook，每层 8192 个 code，总共4层。

量化过程可以写成：

最终将内容 code 和创意 code 拼接，得到完整 D-SIDs：

实验结果显示，D-SIDs 显著提升了语义检索和离散化质量：

尤其是碰撞率从 QARM 的18.24%降到2.62%。这意味着语义空间更干净，推荐模型更容易学，生成系统也更容易控制。

GRM：

推荐模型预测的不再是视频 ID，而是兴趣语义

有了 D-SIDs，推荐模型的目标也随之变化。

传统推荐模型预测的是某个已有视频是否适合用户；RaG 中的Generative Recommendation Model（GRM）则根据用户画像和历史行为，自回归预测用户未来兴趣对应的 D-SIDs：

这一步非常关键：GRM 输出的不是某条视频，而是一组可被生成系统消费的「兴趣语义 token」。这些 token 既可以用于检索已有内容，也可以进一步驱动个性化视频生成。

换句话说，推荐结果从「内容池里的候选 item」升级成了「可生成的内容意图」。

Instruction Model：

把兴趣翻译成视频生产说明书

D-SIDs 是离散语义，不是视频生成系统可以直接执行的脚本。

真正的视频生产需要更细的指令：每个镜头拍什么、如何转场、口播说什么、音乐如何匹配、字幕和 CTA 什么时候出现。

因此 RaG 设计了Instruction Model（IM），将 D-SIDs 和广告 metadata 转换为 shot-level 视频生产指令：

训练上，论文使用 Gemini2.5 Pro 为视频生成 shot-level 指令监督，再用 Qwen3-8B 进行训练。训练分为三阶段：

冻结 LLM，只训练 projector，让 D-SIDs 嵌入对齐语言空间；
联合微调 projector 和 LLM，提高语义保真和指令可控性；
进一步接入奖励优化，与后续 SCRL 形成闭环。

在指令质量评估中，模型规模和训练数据都会带来提升，考虑线上成本，论文最终采用8B + 1M samples作为默认配置，在效果和效率之间取得平衡。

VGAs：

把视频生成变成一条多 Agent 生产线

工业级广告视频不是一段画面生成就结束了。它至少包括视觉画面、口播、BGM、字幕、转场、贴纸、卖点强调和 CTA。不同模块之间还有明显依赖关系：画面规划决定叙事节奏，音频要跟画面节奏对齐，特效和字幕又依赖前面的视觉与音频结果。

所以 RaG 没有采用单体视频生成器，而是提出Video Generation Agents（VGAs），将生产过程拆成三个子 Agent：

VGAs 可以表示为一个序列决策过程：

每一步，Agent 根据当前生成状态和指令，选择下一步动作。动作可以是调用 text-to-video、image-to-video、TTS、BGM、字幕或特效工具。最终视频由统一生成算子组合而成：

论文中特别强调了 VGAs 的两个能力：

reasoning：通过分层规划实现跨模态一致性；
reflection：观察中间结果后进行有限轮次的自我修正和重规划。

为了控制延迟，线上将反思轮次限制在两轮以内。

实验显示，VGAs 明显优于传统固定流程 baseline：

这说明，相比「按固定模板粗剪 + 精剪」的流水线，多 Agent 结构更适合处理高度个性化、跨模态强耦合的视频生成任务。

SCRL：

把用户反馈、兴趣对齐和视频质量放进一个闭环

推荐系统最终看用户反馈，视频生成系统又必须保证质量。如果只优化点击和转化，可能导致低质但刺激的内容；如果只优化画质，又可能偏离真实用户兴趣。

RaG 提出Synergistic Cross-Domain Reward Learning（SCRL），将三类信号统一进一个约束优化框架：

User Feedback Reward：点击、点赞、收藏、购买等真实反馈，以及排序模型给出的 dense engagement estimates；
Interest Alignment Reward：生成指令、生成视频与 GRM 预测 D-SIDs 的一致性；
Video Quality Reward：视觉质量、音画一致性、字幕特效和 CTA 对齐。

论文没有简单地把三类 reward 加权求和，而是把用户反馈作为主目标，将兴趣对齐和视频质量作为约束：

直观理解就是：用户反馈负责指方向；兴趣对齐和视频质量负责守底线

当生成结果在兴趣对齐或质量上低于阈值时，系统会受到惩罚。

为了处理不同 reward 的尺度差异，SCRL 使用 GDPO 做 group-decoupled normalization：

同时，论文引入 PID-controlled Lagrangian multipliers 动态更新约束权重，避免多目标 RL 中常见的震荡和手工调参问题。

消融实验显示，每类 reward 都有明确贡献：

这说明 SCRL 不是简单地「让视频更好看」，而是让视频质量、用户兴趣和商业反馈在同一个优化闭环中协同演化。

工业部署：

实时推荐，近线生成，缓存扩展供给

RaG 的工程难点在于：推荐系统要求毫秒级响应，而视频生成通常是秒级甚至分钟级。

论文采用了「在线兴趣建模 + 近线视频生成 + 延迟感知服务」的解耦架构。

GRM 在线预测用户兴趣 D-SIDs；IM 和 VGAs 在近线生成个性化视频，并持续扩展个性化视频缓存池。服务时，系统根据 SID 的缓存命中情况进行分层处理：

content-SIDs 和 creative-SIDs 都命中：直接返回已生成视频；
content-SIDs 命中但 creative-SIDs 缺失：先返回内容一致的视频，同时异步生成创意变体；
content-SIDs 未命中：先用最近邻 SID 对应视频兜底，并将未覆盖 SID 加入优先生成队列。

这套设计避免了「每次请求现场生成视频」的不现实成本，也让生成系统能随着用户需求不断补齐内容供给。

线上结果：

强 GRM 基线之上继续提升 1.870%

RaG 在快手广告系统中完成了大规模在线验证。

这个结果有两层含义。

第一，生成式推荐本身已经比传统 DLRM 强，GRM baseline 相比 DLRM 带来+3.526%收入提升。

第二，在强 GRM 基线之上，D-SIDs 进一步带来更结构化的兴趣空间，而完整 RaG 通过 IM、VGAs 和 SCRL 将推荐语义真正转化为个性化视频供给，最终将相对 GRM 的提升推到+1.870%

这意味着，个性化视频生成不只是提升内容表达的 AIGC 能力，而是已经可以在工业广告系统中转化为真实商业增益。

论文通过一个广告场景案例，展示了用户兴趣如何转化为视频生产蓝图。

用户画像是 25-34 岁女性，兴趣集中在年轻妈妈生活方式、母婴护理、家庭用品和高性价比购物。RaG 的处理过程如下：

GRM 根据用户画像和历史行为预测 D-SIDs；
D-SIDs 同时表达内容兴趣和创意偏好；
IM 将这些语义翻译成 shot-level 生产指令；
VGAs 生成视觉轨、音频轨和效果轨；
最终组合成一条与用户兴趣对齐的广告视频。

这个例子最能说明 RaG 的价值：用户兴趣不再只是排序模型里的一个分数，而是可以变成视频创作的蓝图。

更多的示例可以访问项目主页获取：

https://recommendation-as-generation.github.io/

结语：

推荐系统的边界正在外扩

RaG 的意义，不只是广告收入提升了。

更重要的是，它把推荐系统的边界从「分发已有内容」推进到「创造潜在供给」。

过去推荐系统回答的是：用户想看的内容在哪里？

RaG 开始回答的是：用户想看的内容应该长什么样？

这不会让检索消失。更现实的路线，是检索和生成共存：

已有素材足够好，就复用；
内容命中但创意不够，就生成创意变体；
内容没有覆盖，就用近邻兜底，同时补齐未来供给；
推荐负责理解需求，生成负责扩展供给，反馈负责校准方向。

从这个角度看，RaG 不是一个单纯的视频 AIGC 系统。它更像是推荐系统的一次范式外扩：从找视频，到产视频

更多信息可查看论文：

https://arxiv.org/abs/2606.25496

「找视频」到「产视频」：快手RaG推动推荐系统迈向完全生成时代

热搜

热门跟贴

热搜

热门跟贴

相关推荐

80%代码由Claude合并，Anthropic内部人员点破Agent真相

OneReason：当推荐系统学会思考

女子用智能手表当翻译，跟外国人无障碍交流，网友：翻译专业的学生天塌了

NEWTON:等物理涌现到请牛顿进工具箱，Agent 驱动视频生成新范式

用户反应张雪500f捏离合熄火，多次维修未果，看张雪怎么解决

宇宙深处向地球发送了一段神秘而又持久的信号！

韩国人破防了!去汉字化几十年，如今韩语被确诊为“中国拼音”？

华裔十号秀入主雄鹿 目前阵中他顺位最高 两位模板均实力不俗

FlashAR：仅用0.05%数据，让预训练好的自回归图像模型飞起来

投资600万元的加油站，建成即被“责令限期拆除”？河南淮滨县发布情况通报

双胞胎姐妹高考都考了692分 或1分之差与清北失之交臂

RoboScience机器科学发布Visics通用具身大模型，实现跨本体、跨物体、跨任务｜最前线

具身智能的数据困境，不只在数量

田亮女儿森碟太优秀了！同声翻译随口即来，教子有方！

疑似看到了正版翻译

ICML 2026 | 北大提出的APEIRIA，打破了3D MLLM黑盒推理困境

上线自营家装App，京东阿里字节快手激战万亿市场

佛得角足协给中国男足支招

刘亦菲自带仙气清冷脱俗，堪称颜值模板无可挑剔

前作狂赚4个亿，他们用新套路又做了一款

华裔十号秀入主雄鹿目前阵中他顺位最高两位模板均实力不俗

双胞胎姐妹高考都考了692分或1分之差与清北失之交臂