一文解析图文信息流封面选取|163

前言

当用户打开网易新闻app的时候，每一条图文新闻均以标题结合封面的形式展示在用户面前，标题和封面提供给用户最直观、最概括的信息内容，而这很大程度上决定了用户是否点击该条新闻，话说一图胜千言，因此为每条新闻选合适的封面展示图显得格外重要。

什么样的图像最吸引用户且观感最佳呢？这便是封面选取应该考虑的问题，本项目从图像多个特征维度考虑，提出图像质量评价模型，且采用图像关键区域自动捕捉技术实现封面按既定比例裁剪，最终实现了封面优选，达到了提升用户体验的目的。此外，网易新闻每天有20多万图文新闻入库，图文新闻一般需经过人工审核，其中封面是重要的审核点之一，如果封面图选取不合适，则需要人工重新编辑封面图，这一过程耗时耗力，而采用本项目提出的封面选取技术后，人工编辑量显著下降，有效加快了审核流程。

图文封面选取框架

图文新闻封面在客户端的展示形式有三种，即大图、三图、小图展示，如图1所示，三图需要选取三张封面展示图，小图和大图需要选取一张封面展示图，此外每种展示形式都有对应的图像宽高比例要求，因此最终选取的封面图需按既定比例裁剪，封面选取整体框架如图2所示。

图1 图文新闻客户端展示形式

图文封面选取主要包含两个环节，一是封面候选图生成，二是封面候选图按既定宽高比例裁剪。图文封面一般从文章配图中选取，但并不是所有配图均适合作封面，如二维码图、无实质内容图、模糊图等均不适合作封面图，因此这类图像需要预先过滤，其次是对候选图排序，质量越高的候选图其被选为封面的优先级应该越高，本项目中结合了图像清晰度、色彩饱和度、目标强调度等多个特征维度对图像进行质量评分，最后对候选图按其质量评分排序。对于封面候选图还有关键的一步即封面图按既定比例裁剪，最终客户端呈现的封面结果为固定比例的封面图。

图2 图文封面选取框架

封面候选图生成

对于封面候选图生成环节，首先介绍其中的过滤步骤，过滤步骤即是将不适合作为封面的配图过滤掉，本项目所涉及的过滤图片类型有二维码图、留白过多图、含文字量过多图、带竞品logo图、相似图等，过滤步骤融合了多种模型以过滤不同类型的图片，其中二维码图采用深度卷积神经网络分类模型进行识别，留白过多图采用像素统计值进行识别，文字含量过多图、带竞品logo图则采用文字检测算法及文字识别算法进行识别，相似图像采用图像灰度直方图进行识别。当前过滤步骤中所采用的算法均是目前发展比较成熟且被广泛应用的图像处理算法，在封面选取中综合考虑了算法性能及算法复杂度，然后选用合适的方法实现了图像过滤。

图3 封面候选图过滤

完成图像过滤后需要对候选图进行排序，虽然候选图均可作为封面展示图，但候选图之间质量有差异，封面选取的原则是尽可能将高质量图像优先选为封面，因此本项目对候选图按其质量进行排序，图像质量排序涉及图像质量评价，其难点在于图像质量评价带有较强主观性，一般情况下机器学习结果较难拟合人工评价结果，对于该问题，本项目采用一种图像对两两比较的训练模式，使模型学习结果与人工评价结果相拟合。图像质量评价首先需要明确参考图像哪些维度的特征，其次应制定统一的评价标准，本项目对于图像质量的定义不再局限于图像清晰度等较为单一的维度，而是考虑图像整体的美学意义，清晰度只是其中一个维度，此外还考虑图像色彩饱和度、对比度、亮度、主体强调程度、画面杂乱度等，综合多种维度图像特征给出图像整体评分，人工标注训练数据则按既定标准对图像评分。

图像质量评分模型采用卷积神经网络，模型输入为原生图像数据，输出为0到1之间的分值。模型训练模式如图4所示，不同于一般的单点定向训练，本项目采用了图像两两比较的训练模式，训练过程中样本之间是相互关联的，这一训练模式比较符合人的直觉判断，原因是图像质量评价带有较强的主观性，不同的人对于同一张图像较难给出统一的质量评分，但是同时比较两张图的质量高低却比较容易统一。评分模型训练仍是有监督训练，训练思想是同时输入图像对，如果模型对这两张图像评分的排序与人工标注分数排序相反则进行排序惩罚，同时模型评分与人工评分的绝对值差异也作为损失项，如果输入图像为和，实际标注的质量分值分别为和，而网络训练中模型输出的对应分值分别为和，则网络训练的损失函数为

图4 图像质量评价模型训练示意图

图像质量评价模型评分示例如图5所示，模型输出为0到1之间的分值。

图5 图像质量评价模型输出示例

封面图裁剪

封面图裁剪是封面选取的一个重要环节，对于封面质量有较大影响，审核流程中因图像裁剪不当而进入人工编辑环节的数据量是相当庞大的。图像裁剪可以理解为一个有损的信息压缩过程，裁剪本身就意味着信息丢失，裁剪的目标即是保留画面关键信息，使得裁剪后画面尽可能完整。传统的图像裁剪算法有seam carving[6]、显著性检测[7]等，但均存在一定局限性，如seam carving，其计算量较大，较难实现实时计算，显著性检测虽可以捕捉图像关键区域，但在同一张图像上显著性区域有可能较为分散或者基于已检测到的显著性区域仍无法合理规划裁剪区域，鉴于此，本项目采用一种基于目标检测算法改进的图像关键区域检测模型[1]。该模型训练数据为人工标注了可裁区域的图像数据，如图6所示，同一张图可有多个不同比例的可裁区域，训练目标即是模型对输入图像可预测多种比例的可裁区域。

图6 图像可裁区域标注示例

可裁区域预测与目标检测有一种天然的联系，即二者均是区域检测，区域检测输出两种信息，其一是预测区域是否为目标区域的分类信息，其二是预测区域在图像中的坐标信息，但二者也有显著区别，目标检测算法只可识别有限的目标种类，如一张图像画面中有一只猫咪，则目标检测算法可识别出画面中的目标类别为猫咪且同时输出其位置信息，而如果是一张无明确目标的风景图像，目标检测算法不会有任何输出，而对于图像裁剪来讲，并不会关注图像中具体目标是什么，即便画面中有一只猫咪，如果其不是画面的关键内容，则裁剪过程中也不应该以猫咪为核心进行裁剪，风景图像虽无明确目标，但图像裁剪仍应输出不失美感的可裁区域。由以上比较可以发现，图像可裁区域预测对于关键区域的位置信息更为敏感，对于不同裁剪比例要求，可裁区域预测模型应有不同输出，本项目采用的图像裁剪技术受目标检测算法启发，在其基础上进一步改进是其使用于图像裁剪。

经典目标检测算法有Faster RCNN、FRCNN、SSD、YOLO等[5]，这类算法均以卷积神经网络为骨干网络，模型以若干卷积层提取图像特征，后接分类分支和坐标信息预测分支，分类分支输出目标区域的类别信息，坐标信息预测分支则输出目标区域在图像中的位置信息，对于可裁区域预测来讲，其分类信息只有两类，即模型输出区域是否为关键区域，而坐标信息预测分支应根据裁剪比例的不同而有所不同，即模型应对可裁区域比例设置敏感，因此本项目在经典目标检测模型基础上设置多个输出通道，每个通道预测指定比例范围的可裁区域，模型结构如图7所示。对于图像裁剪比例划分不同区间，以划分5个区间为例，每个通道对应的比例范围分别为，，，，，其中，预期目标为通道1预测的目标区域其比例范围为，通道2预测的目标区域其比例范围为，以此类推，因此训练中通道1只以比例在中的标注区域为真正的训练样本，其余通道类似，以此达到不同通道对不同裁剪比例敏感的目的，训练损失函数为

表示分类损失，表示区域位置预测损失，表示网络预测区域的分类分值，表示网络预测区域的坐标信息，表示真实的区域分类分值，表示真实的区域坐标信息，表示位置预测损失的权重，当实际标注的区域宽高比在第一区间，则损失函数仅对通道1所连接的网络进行训练，由此达到了网络不同通道对不同比例区域学习的目标。需要强调的是模型并不能严格输出指定比例的可裁区域，例如预期的裁剪比例为2.0，则通道5输出的预测区域更接近该比例，因此选择通道5的输出结果，然后以预测区域的中心为中心进行区域调整，直至区域比例符合要求。

图7 图像可裁区域预测模型

图像可裁区域预测模型裁剪效果如图8所示。

图8 图像可裁区域预测模型裁剪效果（左为原图，右为裁剪后图像）

小结

以上为整个图文封面选取的逻辑，包括候选图选取、封面图裁剪，整个封面选取框架融合了多项视觉技术，以选取吸引用户点击、提升用户观感的图像作为封面展示图。封面选取技术同时覆盖了封面审核流程中的多项问题，为了进一步加快审核速度，对封面选取设置置信度，置信度高的封面选取结果进入免审核流程，置信度由封面选取的各个环节投票决定。经在线测评，本项目提出的封面选取算法有效提升了用户体验，同时减少了人工编辑次数，加快了审核流程，目前已投入线上使用。最后以本项目提出的封面选取算法封面选取效果作结。

由文章配图选取封面的效果如图9所示。

图文文章配图

大图封面

三图封面

小图封面

图9 由文章配图选取封面效果

不同形式封面在客户端展示如图10所示。

客户端大图展示形式

客户端三图展示形式

客户端小图展示形式

图10 不同形式封面在客户端展示效果

参考文献

[1] Esmaeili S A , Singh B , Davis L S .Fast-AT: Fast Automatic Thumbnail Generation using Deep Neural Networks[J].2016.

[2] Talebi H, Milanfar P. NIMA: Neural ImageAssessment[J]. IEEE Transactions on Image Processing, 2017, PP(99):1-1.

[3] Shu K, Shen X, Zhe L, et al. Photo AestheticsRanking Network with Attributes and Content Adaptation[J]. 2016.

[4] Ma L , Xu L ,Zhang Y , et al. No-Reference Retargeted Image Quality Assessment Based onPairwise Rank Learning[J]. IEEE Transactions on Multimedia, 2016:1-1.

[5] Dai J , Li Y , He K , et al. R-FCN: ObjectDetection via Region-based Fully Convolutional Networks[J]. 2016.

[6] Zhang J. Seam carving for content-awareimage resizing[J]. Acm Transactions on Graphics, 2007, 26(3):10.

[7] Zhao R ,Ouyang W , Li H , et al. [IEEE 2015 IEEE Conference on Computer Vision andPattern Recognition (CVPR) - Boston, MA, USA (2015.6.7-2015.6.12)] 2015 IEEEConference on Computer Vision and Pattern Recognition (CVPR) - Saliencydetection by multi-context deep learning[C].2015.

作者简介

侯晓霞 2017年加入网易传媒计算机视觉组，高级算法工程师，目前主要负责视频内容理解、视频推荐、多模态学习等相关研发工作。