你以为流媒体巨头还在靠人工审文案?Netflix早就让大模型(大型语言模型)当起了"终审评委"——专门给自家剧集简介打分。

这套系统到底在评什么

打开网易新闻 查看精彩图片

Netflix管剧集简介叫"Synopsis",就是你在首页看到的那两行短描述。团队发现:简介写得好不好,直接影响用户点不点播放。

问题是——好简介的标准太主观。有人爱悬念感,有人要信息全,人工评审慢且不一致。

于是他们搞了个"LLM-as-a-Judge"系统:用大模型当标准化裁判,批量给简介质量打分。

三个设计细节值得抄作业

第一,不是让模型自由发挥,而是给了明确的评分维度——吸引力、准确性、风格一致性,每项有具体细则。

第二,用"参考示例"做校准。把历史高分简介喂给模型,让它先"看"过什么是好的,再评新的。

第三,人机混审。模型初筛打标,人工只复核边界案例,省下的工时去干更有创意的事。

这事的本质是什么

Netflix不是在用AI替代人,是在用AI压缩"标准对齐"的成本。

内容平台都有这个痛点:规模大了以后,质量把控靠人堆不现实,但完全自动化又怕失控。LLM-as-a-Judge这个思路,给了一个中间态——让机器负责"一致性",人负责"突破性"。

国内长视频短视频、甚至电商详情页,这套评分框架都能改改用。关键不是模型多强,是评分维度定得准不准。