你以为流媒体巨头还在靠人工审文案?Netflix早就让大模型(大型语言模型)当起了"终审评委"——专门给自家剧集简介打分。
这套系统到底在评什么
打开网易新闻 查看精彩图片
Netflix管剧集简介叫"Synopsis",就是你在首页看到的那两行短描述。团队发现:简介写得好不好,直接影响用户点不点播放。
问题是——好简介的标准太主观。有人爱悬念感,有人要信息全,人工评审慢且不一致。
于是他们搞了个"LLM-as-a-Judge"系统:用大模型当标准化裁判,批量给简介质量打分。
三个设计细节值得抄作业
第一,不是让模型自由发挥,而是给了明确的评分维度——吸引力、准确性、风格一致性,每项有具体细则。
第二,用"参考示例"做校准。把历史高分简介喂给模型,让它先"看"过什么是好的,再评新的。
第三,人机混审。模型初筛打标,人工只复核边界案例,省下的工时去干更有创意的事。
这事的本质是什么
Netflix不是在用AI替代人,是在用AI压缩"标准对齐"的成本。
内容平台都有这个痛点:规模大了以后,质量把控靠人堆不现实,但完全自动化又怕失控。LLM-as-a-Judge这个思路,给了一个中间态——让机器负责"一致性",人负责"突破性"。
热门跟贴