春节期间,中国 AI 行业仍在加速狂飙。这一轮生成式人工智能的爆发,源于 AI 行业在深度学习、大模型与数据工程上的长期技术沉淀与规模化落地。
以终为始,在这个节点我们想回过头聊聊推荐算法。这项早已融入各类 App 和我们生活日常的技术,易被忽视它同样来自 AI 深度学习技术的突破,且至今仍是规模最大、最成熟的 AI 推理应用场景。也因此,推荐系统会是检验大模型推理能力的终极赛场之一,也是目前少有的能将大模型技术转化为规模化商业价值的产业场景。
播客“蜉蝣天地”于年前对谈算法工程师风霁,带来了近年来对推荐算法最深入的一次分享。风霁任职过国内多家互联网大厂,在推荐算法场景有 8 年经验,他参与了推荐算法的基础模型复杂化的整个进程:从最早的简单机器学习、深度学习,到目前大模型相关的技术在推荐场景下的各种结合应用。
这场对谈最有意思的地方,是把算法工程师从神秘“黑箱”里拽回到一个很具体的岗位:一份脏活累活。面对亿级上传、千亿级观看的内容洪流,系统先机审和人审,再做召回、排序、重排,把“你可能会喜欢”从一句口号拆成可计算的目标:点击、停留、互动、长期留存、创作者公平、社区健康。算法从来不能一次算准,大部分情况下是在A/B测试中的小步试错,边跑边修、边增长边治理:今天追求效率,明天就可能补上被灰黑产利用的漏洞;今天满足兴趣,明天还得防止兴趣越来越窄。
更有意思的是,所谓用户画像并不是一句“你是个爱钓鱼的人”这么简单,而是一堆工程上可用、但人类很难直观看懂的向量;工程师要在这些冷数字和热情绪之间反复翻译,既听行为,也尊重表达。而当 AI 介入创作和分发后,这份工作还会更难:你不仅要判断用户现在想看什么,还要猜他未来想成为什么样的人。
真正决定平台生命力的,不是让用户多刷十分钟,而是让用户一年后还愿意回来,让好内容和好创作者都不被埋没。说到底,算法工程师做的,是一种现代信息社会的基础设施维护,而他们维护的是社会可能还没有产生共识的思想前沿。
以下为算法工程师风霁和“蜉蝣天地”主播重轻、汉洋的对谈,由凤凰网财经整理:
01
推荐算法本质是信息检索,围绕用户满意度建模
重轻:算法是我们从第一期就想聊的话题,邀请到你满足了我俩很长时间的愿望。推荐算法其实不是一个古典的工程师岗,它在某一个时间点才慢慢出现。
风霁:从我的视角,我觉得推荐算法本质是在做信息检索,推荐相关的论文,最早发的那个会是“信息检索会议”。这个事并不特殊,互联网本身就是为了信息检索而诞生的。
第一代推荐,可能是 2005 年以前,当时的推荐,大部分都是编辑做的,门户网站都是人工定义的规则,我没有参与过这个阶段。从 2005 年大概到 2012 年左右,深度学习、机器学习开始火了。在 2012 到 2016 年这段时间,是传统机器学习在推荐上的应用。2016 年谷歌发了一篇论文就是把神经网络应用在 YouTube 的推荐里。之前是非常简单的机器算法,就是挖特征,通过挖复杂信号让推荐变得更精准,是个堆人力的事,明显不是个长久的事情。谷歌是在简单模型的基础上,再叠加上一个深度神经网络。
我大概在 2017 年入行,我在那家公司应该是在 2018 年,我自己去主导把神经网络应用到推荐。那个年代的视频迭代,基本上只优化一个目标,就是 CTR(Click-Through-Rate,点击率),上了神经网络之后,你会发现点击率暴涨,涨 10%-20%,但同时带来一些标题党、封面党的问题。我们会把时长、点赞这些多目标也融入到推荐迭代,做了很多生态治理的工作,打压这些封面党、标题党,包括一些擦边、软色情的治理。
重轻:所以你是一个开荒的工作,你经历了各种指标飞涨,工作价值特别大,甚至整个公司都为之震动的这个过程?
风霁:推荐对于业务来说是推进器,当时整个公司的增长非常快,业务是每年翻倍的,推荐带动涨 10%,其实也就是一部分。这个技术对于我自己和团队来说,是非常震动和开心的,很振奋。
互联网给不同的人分发不同内容,千人千面、亿人亿面,大家可能没有意识到个性化能力到底能有多强。按照大模型 scaling-up 的逻辑来说,假设当年编辑推荐的点击率是1%,努力后做到 2%,但如果你知道未来可以做到 20%,其实总编就不重要了。
本质来说推荐本质是信息检索,信息检索的产品形态和技术都发生了翻天覆地的变化。我们今天一天能看的视频,如果没有现在这个技术,你可能花 100 倍的时间也找不到这个视频。
重轻:推荐算法成为了一个现实之后,各家都开始做这个事,接下来你做了什么?
风霁:大概在 2018 年做的事情是比如说一个用户有 1000 个历史行为,从中间找到比如说 30 个,看里面有哪些跟我是相关的,跟候选的视频相关的。然后根据历史视频,判断你可能对哪些视频感兴趣,叫做序列建模。大概从 2019 年到 2023 年,我们在做序列建模,以及多目标建模。多目标做得更复杂,比如说从时长、点赞、关注,包括全屏分享,把用户使用过程中的各种行为做拆解。
我们首先考虑,哪些行为反映用户对这个视频是满意的?哪些动作反映这个视频是在骗用户、骗平台?只有用户对内容满意,才会留在这个平台。
说回来推荐是分几部分的,第一部分叫做用户体验,第二部分叫做作者的体验,我们叫B端和C端。第三部分是生态工作。C端我们去会考虑推得准不准,用户看这个视频会不会秒退?秒退可能说明封面标题好,体验不好。在B端,作者如果创作了好作品,有没有拿到足够多的流量?如果拿不到,是什么原因?我们要把这个问题解决好。第三部分生态,就是有一些作品不优质,但是拿到了比较多的流量,我们也要对它治理。
02
时长不是唯一目标,更希望用户一年后还用
重轻:听你说这么多,算法的目标比我们以为的要复杂。我们以为互联网公司要不择手段地把我留在这,增加用户时长和粘性,但其实这里面内含了不一样的目标?
风霁:坦白来说,各大互联网公司肯定希望时长更多——但是具体到每一天,并没有那么极致地去优化时长。至少我个人带团队时,我是不太 care 涨时长这个事。我们对这个事情的理解是:用户一年之后还用,这个 APP 能不能陪伴用户非常久?不能只看今天。
今天让用户多看 10 分钟,有意义吗?我觉得意义不一定大。大家都能看到一些用户觉得太沉迷了,我把它卸载了吧!可能多了一天的活跃度,但你损失了未来 365 天乘以 50 分钟的价值。所以我们会更关注用户有没有发生有效互动:只是浏览,还是也有点赞、关注、评论?
最近两三年,我们做长期价值建模会比较多,会考虑在未来180天,这个作者你会去看几天?如果180天你还看同一位作者,当然也会在这个平台上活跃180天。
从生态视角,永远在考虑一个问题,你看舞蹈,那跳同样一个舞,有没有人比这个视频跳得更好的?那个更好的视频为什么没有推荐给你?这是从我们的用户视角看这个问题的。从作者视角来看,那个跳的更好的作者,有没有拿到更多的播放量?
作者侧要分档,好的作者越来越满意。但是有一些灰黑产,包括现在有很多低成本的创作,这些人是不满意的。对创作者来说,如果说你的作品用户喜欢,那不应该担心“一代版本一代神”,你应该是永远的神。相反如果下个版本你不行了,那是不是说明就是你过去是靠上个版本的 bug 拉到的流量?
重轻:如果因为版本迭代,让创作者屡屡要遭受断崖式下降,是产品出问题了?
风霁:对,这个产品自然就会被淘汰了。因为明面上好像是用户选择了平台,但我觉得底层是创作者选择了平台,他们互为因果的。如果今天你这个平台的创作者都走了,用户是不可能独存的,用户一定会跟着创作者走。
我们在创作者端会做一个事叫做“冷启动”:如果你是一个平台的新作者,上传的前几个稿件会给一个比较高的流量,保底流量会给比如说 1000 播放;如果你创作能力比较好,你不会被埋没,不会因为是个素人创作者,没有用户看你。
有人会问:某一天推荐算法做了一个上线之后,原来可以达到 10 万播放的,现在只能拿到一万播放。这怎么回事儿?但现实中不会这样。我们迭代可能一次只能有千分之一的变化,对于某个品类来说,可能只有千分之五的变化。一年当中能够产生大流量变化的迭代非常少,对全局来说可能也就百分之一的幅度变化。
另外一个逻辑来说,想做这么大影响的迭代也很难。因为技术是缓慢推进的,一年中这样大的技术突破一双手可以数得出来的,所有公司应该都是小步快跑的逻辑在做迭代,就算是有大的迭代,同时我们有非常多指标去追踪系统的稳定性,比如说万粉作者的平均播放量是多少?每一个品类稿件的流量占比是多少?包括用户的平均使用时长、平均播放、平均兴趣数,有非常多指标在跟进,希望这些指标都是往好的方向变。
重轻:你说了这么多,我意识到一个以推荐算法为核心的内容分发平台,比我以为的要稳重得多,不会允许任何一个维度上出现很武断、天翻地覆的变化,即使推动一个大的变化,也要一步一步来。
风霁:是的,算法怎么确保我们每一次迭代是对的?我们会上实验,用一个均等的流量,比如分 10% 的流量, 5% 用户生效的是过去的策略, 5% 的用户生效的是改动策略,改动是简单、清晰、可解释的。然后我们去看非常多的指标,用户侧、作者侧、生态侧指标,我们会去看头部数据的稿件是什么样的,中腰部出的稿件是什么?有一些专项迭代里面,我们会看涨粉多的作者是谁?如果说这些指标都是好的,会放更大的流量去验这个事。如果也OK,就推全了。参数都是可记录的。
03
比起推荐算法,用户审美更影响平台内容
汉洋:我可不可以认为,在你的价值观里面,用户审美变化的影响力要远远大于推荐算法的影响力?
风霁:是这样的。比如说从最开始的短视频,可能就是跟拍,模仿明星这样的内容。后来有一些剧情向、三农的内容,这些都是新的需求和新的创作者来了。假设用户量级不变,原来内容一定是会有挤占的,但这个事情对用户是不是好的呢?对用户是好的,因为他有更多可丰富的内容可以看了。
我们做的一些事会不会对趋势有影响?会有。比如说假设系统过去没有收藏目标,现在加了个收藏目标,明显知识课程类的就会变多。观众对于知识类视频喜欢收藏。
重轻:用户闲暇和用户心智的变化是根本的。不是说你互联网公司想调一下算法,就能改变的。
风霁:对,我现在听碎片知识的获得感已经比 10 年前弱了,那今天就是需要更多深度知识,这也是优质视频播客,包括优质中长视频的机会。大家对短视频的要求也更高了,需要看更专业的舞蹈,需要剧情没有那么尬,更加自然,这都是一个自然演进的趋势。
04
推荐系统无需理解内容,最新应用大模型去理解内容
汉洋:那你们每天处理的是多大量级的一个工作?
风霁:中国互联网每天新上传的视频肯定是亿量级的。观看数量,如果多个平台加一起,人均至少是看100个视频,也就是观看可能是千亿量级。
重轻:这么大的视频参数量,每一段上传、观看的视频里面所隐含的需求和人性,那些我们无法言说的知识,全都在算法模型里。
风霁:没有那么恐怖,这个模型可能是万亿级别的参数,里面都是数字,我也不知道它代表什么。我们在模型对每个用户做一个表征,你在那个模型里面是什么呢?其实是一串数字,这个数字在不同平台不一样,但是一般来说可能是几百个数字或者几千个数字。
重轻:我感觉还挺少、挺节约的?
风霁:对,就是挺节约的。同时会把用户在平台上发生的几万或者上百万个行为记录下来,每一个行为是一个几十维到几百维的数字。具体记录多少行为,看各家的算法。
如果只从用户表征来说,是几百位到几千位的数字,一个视频在系统里是一个几百维的浮点数字,一个作者也可能是一个几百位的表征,这些表征占了模型存储的大头。
我们会把你过去的历史行为放到模型里,刚开始,可能有最近 100 个行为,后来到 1000 个、1万个,以及现在可能过去你 100 万个历史行为,都以某种工程方式参与到模型的计算过程中。
重轻:这个用户表征是什么?就比如汉洋是个男的,多大岁数,喜欢什么不喜欢什么,会有一张这样的表吗?
风霁:它是一个蕴含信息,是一个自动学习出来的数字,我们不知道它代表什么。原理跟今天的大模型一样,大模型可能是一个 64 层的神经网络,你随便抽测一层,是一个几万维的数字,那这数字代表什么呢?我也不知道。假设性别男女,在大模型里分别代表了一个 4000 维的向量,你其实不知道哪个代表男、哪个代表女。我只能知道这个数字,但我不知道数字是什么含义。
汉洋:所以人们脑中对于推荐系统的想象,系统会给我打成一堆标签,说我喜欢钓鱼,是不存在的?
风霁:标签有可能打错。这个还有一部分,但是比重没那么重,而且在越来越低。
重轻:假设我是你领导,现在提了一个要求,要把露营有关的内容使劲往上提,那你的抓手是什么呢?
风霁:视频是不是露营的内容,还是知道的。我回过头来说一下,整个投稿过程都发生了什么。用户在投稿之后,系统首先给你推荐一个封面,现在比较新的技术是直接用大模型去提取你的视频抽帧,把你的音频文字提取出来,去识别内容是否合规,符合法律法规,每个平台都会有一些规定,相当于先过机审。
如果发现有一定风险的内容,到人工审核那儿背对背盲审,如果都觉得这个视频有问题,就会被打回,作者要重新修改;如果都觉得没问题,就进入推荐系统进行分发。这个视频未来如果有了一定热度,可能还会让人工再审一遍。这之后,视频还会经过内容理解模型,对视频打上一些标签,这是一个露营的还是猫狗的,这样的视频描述,在向量维度变成一个几百维的数字,送到我们的模型里面。
传统的推荐链路,第一环是召回,从几千万或几百万的池子里,通过刚刚说的向量输入,找出跟你最可能匹配的几万个或几百个视频,然后再通过之前说过的多目标排序模型,输出各个目标的预估分数,比如说点击的概率、点赞的概率、长期价值的概率,多个概率经过一个融合函数,加权在一起,对这几百个视频做个排序,最后把得分最高的展现给你。
中间还有一层叫做重排层。这个重排层,第一保证这些视频是有多样性的,不能都一个主题,这样你的体验不好。最好保证每个主题都出一两个。同时我们也会衍生一些兴趣探索的目标,保证你的兴趣不收窄,最后退化成一两个兴趣——算法希望你的兴趣越来越多。再上面可能还会有一层,就是其他业务,比如说还要跟广告、直播、短剧等多个题材,让它们中间穿插一个合适的比例,让公司在用户体验和营收上面达到平衡。
最后这个用户会看到视频,发生互动,用户的行为再回传到系统,作为模型的输入来训练这个模型,让这个模型逐渐学习这个用户的偏好,积累对视频的看法。
重轻:你刚才说的所有这一切,发生在多长时间里?
风霁:每个公司不一样,但我觉得可能对业界的这个水平来说,快的话可能就几分钟,慢的话可能也就是一两个小时。
重轻:过去这 24 小时有1亿个视频传上来,我要看其中的 100 个,你们不可能把那1亿个视频排个序吧,是不是随便抽了一点点?
风霁:不是随便抽的,有个模糊计算的过程,会从中间抽出几万个,挨个计算一次。模糊计算的过程,可以想象成一个树,这个树有十层,每一层有几十个分叉,中间可能会有些策略,在分叉最里面拿到一些视频,所以相当于是全局计算。
05
为了用户长期留存,算法一直在努力打破“茧房”
重轻:你刚才说模糊计算是从一亿个候选视频里,给我拿了一点做排序,是不是有点像是一个购物清单去到超市里面,我的偏好已经在这些候选视频里面了?
风霁:很多人在抱怨“信息茧房”,其实推荐系统一直想去打破它,我们拿出可能千亿的流量去做随机分发。这个随机分发,当然也不是说从几亿个里面随机,而是我们可能挑一些主题完全不一样的视频,不走后面的模糊匹配,也不走精密计算,从几万个里面随机挑一个给你展现,那这个点击率可能是大盘点击率的1%。
差这么多意味着什么呢?今天如果没有推荐系统,就随机给你分发视频,那你想要找到一个视频的难度至少是现在的 100 倍,而且应该不止 100 倍,因为点击率是1%,播放时长、完播率、点赞率也是变低的。如果你从满意度层面来看,可能是千分之一。
所以说如果没有推荐系统,你基本可以理解你在这个内容极度爆发的时代,面对每天亿级别的内容供给,你是没办法去看内容的。
汉洋:换句话说,如果没有推荐系统,面对亿级的视频,你看的是个平均数,就是中国用户制作视频的平均水平。
风霁:你随便抽一个视频,可能抽到了你们小区一个大爷的怼脸自拍。我不是说这个视频不好,但大概你不太感兴趣。随机推送和有效推送中间的状态,是让人们看一个他大概感兴趣的内容,但是不完全迎合。
分发过程中,有一部分是多目标,鼓励探索你过去没看过的内容,有挺多权重的。它是一个拔河比赛,从长期价值来看,你到底是希望这个系统短期更懂你,还是说长期能够帮你发现新事情?人的需求会变化的,如果我今天只盯着你已有的需求去服务,你未来可能就流失了,所以我们很关注,你在这个平台能不能发现过去未曾看过的观点,没看过的内容、方向甚至题材,我们去不停地探索。
执行层面,也有很多目标为这个服务。我们有一个目标会看跟你差不多画像的用户在搜索什么稿件,他搜索代表推荐系统还没有识别到的,我们会猜他想搜什么,然后把这个视频推荐给你,这个观点和内容可能都是你过去没有接触到的。
我觉得这个事情就是求同存异。人类天然会检索自己偏好的内容,大模型学习的也是这个偏好。但跟人类不一样的是,推荐系统会加很多模块去纠偏这个偏好。长期来说,纠偏对于用户的平台留存是不是一件好事?我理解是个好事,业界应该有共识,做一些兴趣探索的实验,长期留存是正向的,平台没有必要把你锁在“茧房”,平台希望用户能够更 open 看世界。
重轻:我的问题是,技术肯定是滞后的,就是要先出了问题,你才知道。
风霁:我们会尽量前置去考虑问题,很多问题不可能等事情发生。比如说要加一个目标,其实能知道可能带来哪些风险,风险弄好之后才会上线。但是我也不可能 100% 什么问题都看到,有些问题是后置治理,甚至有的不是上线时发生的,而是要很久以后。
比如 2019 年前后上点赞目标,一年之后出了一些视频,你点一个赞,就做个俯卧撑,或者你点个赞,今天就有一天好运,你们应该刷到过这种视频吧,现在看不到这类视频了。当时有一些作者,有些黑灰产、营销号,知道了点赞率高能有流量,他反过来去拉流量,我们只能后置去识别这类视频,把这些无效的用户行为给过滤掉。
还有一个逻辑,是你的竞品优化得更好,更准了,那你要不要做?今天如果不迭代,这个系统就在变差,因为用户有额外的需求。今天是全网亿级视频上传,早十年只有百万量级、千万量级,这么多量级的变化,整个系统要不要演进?10 年前的推荐系统,一定处理不好今天的情况。
重轻:似乎没有一个无为而治、往后退一步的办法,必须得往前走,遇到问题要充分理解问题,然后把它反映在我们的目标设定和函数里面。
风霁:我必须要提出一个观点,就是在我们日常的工作中,会有一个问题叫做,“这个事情为什么是这样,为什么不是更完美的一个状态”。万事万物理论上都是从 0 到1,从 1 到 100 的过程。很多问题不是突然出现的,而是慢慢爬升上来的,一些争议问题,不是新增的,而是过去就有,只是大家的要求比过去更高了,你才觉得它是个问题。
比如我们要求东西更便宜,内容比以前更新颖,“茧房”比以前更窄。推荐系统实际上是更好了,大家可能想象不出 10 年前的推荐系统是什么体验了。从技术层面来说,各家推荐系统一定是在往体验更好的方向走。
重轻:有时候用户想玩“怀旧服”,停留在“大灾变”那个时代的游戏,就是想活在过去。在魔兽世界,我们还真获得过一次怀旧服的感受,那是一个历史性的时刻,一瞬间全世界小时候玩过魔兽世界的人全回去了,90% 以上的人第二次被淘汰,我就是那 90% 的人,然后我才想起来这个游戏所蕴含的东西是什么。
在我玩不到旧版本的时候,我脑海中都是贼美好的事情,我进去以后发现,我要在这么低劣的画面里面杀 500 只野猪,要一只一只的杀,然后回去买面包,只留下最枯燥、最硬核的人才去玩这个东西。
风霁:他是希望他的快乐回到过去,但是他没有考虑到他自己的审美,或者说对快乐阈值的阈值在提高。所以我们说“越长大越孤单”,越难感受到快乐,因为我们小时候感受到的快乐更多。
06
对平台生态和社区价值的伤害,多年后才能观测到
重轻:有非常多叙事,像人心里的伤痕一样,最经典的研究应该是几年前,有科学家搞了 100 多个青少年的社交网络账号,发现很容易收敛到极端减肥跟节食。包括有吹哨人出来,说 Facebook 的算法会鼓动少女进一步增强她们的身材焦虑。如果它足够有利于用户粘性,这些公司还是不吝于去作恶的,这是很多人内心深处对技术最底层的不信任。你怎么看这些事?
风霁:我理解大家的不信任。像这种有一定风险性的内容,一部分是用户上传的,更大比例是灰黑产,有意图去引流的,可能是减肥药,或者非法减肥机构。至少根据我的工作经历上,针对这些灰黑产,我们有一定的治理经验,这对平台也是不利的。
推荐算法最终要围绕用户满意度来建模,需要有一个底线。算法不应该决策,到底 A 观点还是 B 观点对,我觉得推荐不应该负责这个事,平台也不应该负责这个事。但是推荐算法应该管理好底线,符合法律法规和道德约束。
重轻:最后一个问题关于情绪,我感觉情绪是一个最近两年人们开始谈论的议题,之前讲更多的是“misinformation”,虚假的事实,阴谋论、造谣这些,现在是算法在挑动情绪,它不是个实在东西,它只是一个冷和热,或者一个人积极和消极,很难去描述它,它可能是一个很丧的、埋怨社会的,或者是一种特别“社会达尔文主义”,觉得弱者应该去死。这些情绪不是关于事实的判断,在这个情况下就是,推荐算法有意识地去管理、抑制,或者是酝酿、提倡一些特定的社会情绪吗?你有主张吗?
风霁:我觉得这个事,可以认为是一个社区工作,有的社区是鼓励讨论的,有的是鼓励双方来对垒的。在我过去的工作中,我可能更加主张观点接受差异化,但是要就事论事,友善的态度来讨论。
如果一个视频,是以引发争议来获得流量的话,我们会建模这一块的价值,比如评论区都是喷他的,可以通过大模型变成是和否的标签。那这个视频在综合目标里是不占优势的,不会被更多推荐。如果你的评论区是关于视频的延展讨论,甚至有人说你说的好,我有感触,这个事我童年时候也经历过,我也有这样一个故事。算法通过大模型能把这些优质评论识别出来,变成一个友善标签,然后整体加权重去鼓励友善氛围。
从效率逻辑上来说是一样的,社区希望大家认为它是一个有口碑的社区,对平台发展是更好的。我们很难想象一个平台会认为因为有争议,明天大家还来吵架,结果这个平台能涨得很好。
重轻:你之前提过一个词叫“画风”,说平台很在意用户对于产品整体的看法,而不只是对内容的看法。这也反映在推荐算法工作里吗?
风霁:画风这块的工作,很多时候反映我们认为什么是下限,以及评估用户满意的指标是什么。画风是我自己的一个产品观念,跟推荐没有关系。打开这个 APP 都有一个原因,就是意图,满足这个意图的内容,我觉得就是画风。所以它其实是一个产品的增长逻辑,我做一个什么样的APP,满足什么样的用户意图,定义我的产品功能。
重轻:还有一种挥之不去的担忧,像是赛博朋克的小说里面的东西。很多年前,Facebook 在赞和踩的基础上,加了愤怒和大笑的按钮。事后回顾出来,愤怒和大笑确实起到了一个提高用户参与的效果,但是接下来用了两年时间才观察到其中的恶果,它是逐渐累积发生的。仇恨言论和刺激人上火、互相攻击的东西,都冒出来了,最后他们才踩了刹车,大概是一个两年时间的过程。
风霁:我觉得你说的这个点特别好。我自己把推荐系统的价值分为三块,用户、生态和社区的价值。用户价值最容易去定义,就是活跃度。生态价值是结构化的,比如现在这个平台有多少品类,每个品类有多少作者在贡献,每个品类作者的质量又是怎么样的,这是生态价值。它很难衡量,也很难去定义,但是你的每一次迭代也在影响。
第三个就是社区价值:评论区、弹幕、社交口碑,大家怎么看待你?我做推荐,这三部分工作我都会做,最容易衡量的是我们刚刚说的用户价值,用户的 DAU 涨了,你是知道的,但是伤害另外两个价值,是很难观测的,所以我的判断是另外两个是底线,凡是伤到了社区价值和生态价值,就不能做。因为这两个价值都需要非常长期才能观测到,但是用户价值你有很多手段可以涨,用户满意度永远没有达到上限。用户活跃度不是未来,生态和社区价值是不是在一直涨,才是未来。
07
算法没法控制用户喜好,信息战是真实世界的延伸
重轻:对互联网公司来说,不可能干净地切一刀,切完了有一个安全区,只负责这些。作为你的朋友,我希望你的工作是一个单纯的事实,是一个无涉价值判断的工程问题。但如果此刻算法面对的是一个有灰度的事情,它要做价值观判断,怎么办?
风霁:我觉得推荐算法本质还是一个信息检索技术。我研究生同学有人是图书管理专业,这个学科就是教1万册图书怎么做排序,让大家在图书馆里尽快拿到我想要的书,这是最早的信息检索系统。
如果作为一个纯粹的搜索系统,或者作为一个图书管理的系统,也有以上说的所有问题,只是说为什么现在这个问题放大了?因为信息在人类生活中重要的比例越来越重要了。我们既然站在这个位置上,享受了发展的红利,那我们当然要接受这样的挑战。你一定会接受更多的审视和要求。我们应该去满足社会对我们更公平的要求。
哪些是推荐系统可以主张的,哪些不应该有主张?涉及到社会法律规范、公序良俗相关的,我们不去碰。但是一个平台到底是短视频、长视频还是图文,评论区希望说梗轻松一点,还是做深度讨论,这个是我们可以去主张的,前提是 peace and love,以及不违反事实,画风是可以主张的。
我们在一个逐渐建立认知的过程,过去可能对社区和生态价值的认知没那么清晰,还有兴趣探索和“茧房”这个矛盾的体系,目标如何定义,不是技术上没有认知清楚,而可能是社会道德没有对它形成一个统一的认知。如果形成统一认知,那一天我们自然可以解决这个问题。
08
大模型深刻影响推荐,带来技术上的提升
重轻:咱们可以聊一聊未来,接下来两到三年,你眼前那个在较真、研究的东西是什么,会花很大的精力在什么事上?
风霁:AI让我对未来没有判断。大家能想象出来五年后人类跟AI是怎么相处的吗?不知道,如果今天知道了,我今天不应该在公司工作,我应该去创业。
AI会影响用户需求和供给。今天的搜索需求,其实已经极度减少了。现在的视频很多是知识类的,未来很多知识类也会可能被吃掉。供给上面,我们有很多基于AI的内容提效工作,比如有AI生成内容。如果未来的创作视频质量都比今天更好,那用户对于视频的判断和需求,跟今天又会有什么样的区别呢?我们也不知道,这些都是难题。
AI也会影响推荐系统,有很多助力,过去我们对视频的理解是单薄的,表征一个视频的维度可能就几百位,未来可能更充沛。第二个基于现在大模型的技术,我们也在尝试直接用大模型服务推荐,比10年前的推荐技术可能有10倍以上提升。第三块是推荐的交互形式,这也是我积极在探索的,我们现在通过用户行为去决定推荐结果,有没有可能通过wording逼近理想态。
重轻:能不能重新找一种新的方式,让用户直接表达出来他想要的东西,回应了我心里对行为偏好这个事的思考。在我看来,它背后隐藏的判断是,一个人说的话,可能根本不了解自己,但他的行为是100%诚实的。
纯打比方,我有一个群友说,我最近在看机器学习的教程,我搜了好多,但是每一个机器学习算法的视频下面还是小姐姐舞蹈的相关推荐。我想说的是一个人的主观愿望,一个人想要成为的样子,是完全不重要的,他的行为暴露了一切,这不是一个工程师有义务要回答的东西,但我就想把它给说出来,就是我不想臣服于这种逻辑。
风霁:工程逻辑可以解释这个事情。一个用户说我要看这个,但是给他推了之后没看,你要不要做这次推荐?这个是挺经典的搜推联动,如果你搜索了一个东西之后,未来推荐会多出一些这东西,然后你一个都不看,三天之后可能就不给你推了。
那一开始你不看的那几个机器学习视频,是不是仍要推?我们现在的选择是给你推,系统层面有这个机制设计,试探一下你是不是真的喜欢。
你说你想学习,我们配合你学习,但是过了一段时间发现你的真实需求不是学习,还是要满足你的真实需求。你下次再表现想学习的时候,我们再来满足好了。如果你表现了想学习,系统没响应,是系统做得不好。反过来说,如果你表达了学习,过了一段时间还是持续不学习,推荐还要给你让学习,这也是做得不好的表现。
重轻:我心里那个不服的东西,并不是在产品或者算法上有任何实质的意见,我只是觉得人希望自己成为的样子应该是有一份权重的,应该能反映在我所接受的信息、我的经验里面。
风霁:我觉得你不用纠结,我们希望成为的那个人是动力和目标,我们的日常生活,是滋养我们的,是给我们补能的。补能完成了之后,你才能去做你自己的梦想,所以说不相斥。而且兜底来说,你的意图可以通过搜索来满足。如果希望推荐满足我们的一切,10 年前这个事情是不太可能的,按照时间线演进,它变得越来越可能。
热门跟贴