网易号作者创作的文章,传输到推荐系统后,就进入到随时待命的状态,被机器推荐分发给用户。推荐系统如何将文章,智能地推荐到各个感兴趣的用户面前呢?打个比方,我们把一篇文章比喻为一个包裹,推荐系统就是一个高效的快递员,快递员之所以能将包裹准确地送到用户手中,就是因为他知道用户的住址,并通过精确识别包裹上的地址,送到用户的手中。
一、推荐系统如何识别“地址”?
一篇文章,包含了标题、正文、来源等多种信息,这些信息都是文章的重要组成部分。推荐系统通过对文章的特征识别,判断其分类、领域,以及最有价值的信息,即作品的类别、关键词或者标签,这些信息就构成了文章最基本的“地址”。
1、充分利用标题中的有效信息
机器会充分提取标题中的实体词,用于文章的分类、关键词等特征提取。所以在创作时,既要注意保证标题的吸引力,又要注意不能有太多的不符合常规用法的词。例如YYDS、厉害了我的哥等词,对于机器来说,可能存在一定的识别困难,导致它不能从标题中提取有用信息.
2、标题尽量使用有意义的实体词
标题中减少语气助词、虚词、数词等,能够让机器更好地理解文章。例如同样一篇讲述明星时尚的文章,“范冰冰杨幂蒋欣也有画错妆的时候,有点惊悚!”这个标题就比“你见过他们画错妆的样子吗?有点惊悚!”体现出了更多文章中的代表性信息,能够让机器更精确得识别文章特征,获得更多的推荐机会。
3、正文中词的频率和性质
一篇文章在机器识别过程中,会被解析成字、词等粒度的语料,系统根据这些字、词的频率和性质,判断文章的特征。与我们人的经验认知一样,一般而言,我们判断一篇娱乐类文章是关于电影新片的报道,往往从字里行间中出现频率较高的明星名字、电影片名、电影专业术语得出结论的,例如周星驰、朱茵、大话西游、翻拍等词。机器也会从文章出现的高频词中,识别这些词并进行判断。
二、推荐系统如何更好的匹配用户和内容?
文章有自己的特征,用户也有自己的特征。推荐系统要做到把文章推荐给对它感兴趣的用户,不仅要识别文章的特征,也要对用户有全方位、动态化的认知,只有这样,才能充分了解用户的阅读兴趣。而用户的特征和阅读兴趣,就是机器从大量的数据中分析出来的。
这些数据包括什么呢?
1、用户的基本信息
· 性别、年龄、职业、地理位置等;
· 机型、品牌、账号(包括第三方登录账号)等;
2、用户直接表明兴趣的行为
· 关注的栏目
· 关注的网易号
· 搜索的话题
· 用户主动反馈的不感兴趣类别、关键词等
3、智能分析计算得到的用户兴趣偏好
· 阅读/分享/收藏过的文章分类、关键词等
· 相似用户的喜好
三、其他影响推荐的因素
在文章生产后,机器会有一个初始投放的过程。在初始投放时,系统将文章推荐给与该片内容特征最匹配的用户,这些用户的行为数据反馈,包括点击率、分享数、收藏数、阅读进度、读完率等,对后续的推荐起了非常重要的作用,数据表现越好,被认为文章越受用户欢迎,越有机会获得更多的曝光。
此外,文章还会具有一定的时效性。一篇文章的时效性有24小时、48小时、72小时、一周等,文章的时效性也会影响到推荐的周期和顺序。
所以,想要获得高的推荐量,就必须创作一篇受用户欢迎的文章,来拉动各项数据指标。
1、好的标题和配图,提升点击率
直接的方法就是创作出吸引人的好标题,设置与文章主旨相符的、引人入胜的好配图。当然,吸引人的标题不能过度创作,变成夸张的标题党,系统对于识别出是标题党的文章,是会打压推荐量的。
2、文章引人入胜,提高用户阅读时长和读完率
这就要求作者的正文,图文并茂,具有较高的可读性,吸引读者读完文章、较长时间停留在正文阅读页。如果标题很吸引人,用户点击进来发现正文写的不好,会马上跳出页面,这样,用户阅读时间过短,系统会识别为虚假点击,影响文章的数据表现。
3、观点实用、独到,提高用户的收藏数、分享数、跟贴数
很多用户有分享、收藏的行为,如果文章质量佳、实用性强,用户会自发地收藏或者转发;而文章观点独特、吸引用户跟贴,更能提升文章的数据表现。
4、内容合规,避免被用户举报投诉、负面评论
我们设置了虚假新闻、低质量、低俗等投诉选项,如果用户投诉达到一定数量,文章将会被系统识别打压;用户评论中如果出现一定数量的负面评论,也会影响文章的推荐量扩大。
5、保持账号的优质性
我们会对账号发文情况进行判断,如果该账号一贯以来,发表的文章产量稳定、质量好、受用户欢迎,那么我们将会在推荐量上给予其下一篇文章的鼓励。
四、文章的数据表现为什么不好?
1、推荐量低
(1)相似文章过多,被去重;同话题文章过多,内容供过于求
很多作者擅长抓住热点加以发挥创作,这样能够吸引主流用户,但由于很多作者都有这个倾向,导致一部分文章集中在某一个话题或者领域,甚至相似度过高,被系统去重。这个很好理解,100篇同话题文章,对应10000个用户,和10篇同话题文章,对应10000个用户,每篇文章的用户获得的推荐量肯定是不一样的。
(2)感兴趣或者潜在用户人数少
推荐系统的机制就是将文章推荐给感兴趣的用户。如果文章涉及的话题、事件过于冷门、晦涩难懂,鲜有用户问津,那么系统能为文章找到的感兴趣用户或者潜在感兴趣用户较少,导致推荐量低。
(3)时效性短
一些文章发布后,受内容或者话题时效性影响,时效性非常短,会影响到推荐量。
(4)内容存在审核和投诉等合规性风险。
如果文章不符合审核管控规定,会被审核员认为不可推荐;如果文章过了审核,但推荐过程中被用户投诉或者负面反馈过多,也会被系统下撤停止推荐,影响推荐量。
2、点击率低
(1)标题吸引力不足
标题对用户无吸引力,文章的点击率自然就不高。
(2)配图不够吸引人
资讯阅读往往是碎片化时间进行,视图表现对吸引用户点击至关重要,如果图片平淡无奇或者图文不符,用户自然失去点击的动力。
(3)文章特征不明显,识别成本高
· 如果作者发表的文章跟该账号之前的文章类别差别很大,比如一个财经类的账号,发表了一篇体育类文章,对于系统来说,增加了分类的识别成本;
· 如果作者本身发表的文章涉猎广泛,文章的标题和正文能命中类别词库的词也很少,系统提取关键词、识别分类的成本也会很高。
更多内容请点击 《网易号内容推荐机制大揭秘》
热门跟贴