用户画像信息有哪些?
目前手机Apps的数量大、种类多,并且使用情况多样。用户在安装和使用Apps的过程中,隐含了用户在兴趣、偏好、职业、作息等方面的个性化信息,一般可将其大致归纳为5类:基本属性、性格、心理状态、个人兴趣和生活方式。
基本属性是指一个人的自然属性。常见的基本属性包括年龄、性别、婚姻状态、种族、教育水平、收入、职业等。基本属性不同的用户,其需求和兴趣在一定程度上也是不同的。例如,年轻的家长很可能对抚养婴儿的Apps感兴趣,金融行业的从业者可能对股票类的Apps感兴趣。
性格是长期伴随一个人的一种属性,会影响思维模式、感情、社交活跃度、自我价值观、态度等。研究发现,互联网和社交媒体的使用与性格有一定的相关性。性格不同的用户在互联网、社交、通讯等类别Apps的使用方面也存在一定的差异性。例如,相对于其他性格的用户,外向型的用户使用社交网络和通讯类的Apps较为频繁。因此,通过分析互联网、社交、通讯类Apps的使用记录可推测用户的性格。
心理状态是指日常生活中心理的健康情况,会影响人们的行为和决策。相关研究发现,一个人的心理状态与他的社交活动密切相关。手机Apps已经成为人们社交的重要媒介之一。在不同的心理状态下,同一个用户在使用社交类Apps的时长、频率或者时间等方面也会有所不同。例如,通过分析Apps的使用记录,可以发现用户在不同心情下会使用不同的Apps,并会与不同的人联系。因此,社交类Apps的使用记录在一定程度上可帮助推测用户的心理状态。
个人兴趣是指用户愿意花费时间和精力去关注的事物、事件或者某些过程。兴趣不同的用户会安装或使用不同的Apps,尤其是一些小众Apps。小众Apps是面向拥有某个兴趣的小部分用户群体专门设计开发的。所以,小众Apps的安装或者使用能较好地反映用户的个人兴趣。
生活方式是指一个用户或者用户群体的生活方式和生活阶段,包括日常起居,生物钟,移动模式,重要事件,影响用户的生理、心理或者社交特性的某些阶段。不同的生活方式会使得生活需求存在差异性,从而使得用户选择安装或者使用的Apps也是不同的。
采用手机的Apps进行用户画像
目前已有很多工作利用手机Apps进行用户画像,例如刻画手机Apps数据与某类用户画像信息的相关性,从手机Apps数据中推测用户的个体属性或挖掘用户群体的共有特性等。不同的研究问题决定了用户画像所使用的方法。利用Apps的用户画像方法大致可以归纳为4种:统计、回归、聚类以及分类。
统计:通过一些基本的统计结果,例如平均值、标准差和相关性,描述用户的基本特性或者分布规律,发现用户属性与手机Apps之间的潜在规律或者相关性。例如,佩尔托宁(Peltonen)等针对44个国家的3293个用户的Apps使用记录,分析了地域、文化等因素对Apps使用的影响,发现用户所在国家对Apps使用的影响较大。莉姆等人分析了GDP最高的15个国家的4824个用户的Apps安装行为,发现美国的用户更倾向于安装医疗方面的Apps,而英国和加拿大的用户更有可能受到Apps价格的影响。韦尔克(Welke)等用Apps使用列表来表征用户,用海明距离计算了用户间的差异性,发现99.67%的用户在Apps使用列表方面是独一无二的。通过分析同样的数据集,安多尼(Andone)等调查了年龄、性别等因素对Apps使用的影响,研究发现女性用户使用交流和社交Apps的时间比男性要长;青少年用户大量使用通讯和社交应用程序,随着年龄的增长,游戏、媒体和视频Apps的使用率下降。我们也容易发现生活事件(例如第一辆车、第一份工作、第一个孩子等)会影响用户安装Apps的行为。
回归:对Apps和用户之间的关系进行建模,观察Apps和用户某个属性的相关程度。最常使用的一种方法是线性回归,一般应用在两方面:衡量用户和Apps之间的相关性;给定Apps相关数据,用回归的方法预测或者推测某个用户属性。有人利用多元回归分析的方法探索了每种性格与Apps使用之间的关系,发现外向型性格与社交、通讯类的Apps使用有较强的相关性。Xu等使用线性回归方法通过Apps历史安装行为推测用户的性格,平均准确率为60%。LiKamWa等分析了用户的Apps使用规律,并训练线性回归分类器推测用户的心情,准确率达到93%。
聚类:通过计算基于Apps的用户表征向量的相似性,将用户划分成不同的簇,同一个簇内的用户具备相似的兴趣或者需求。聚类方法常被用于解决用户群体特性挖掘问题。常见的聚类方法有k-means、MeanShift、高斯混合模型等。杰斯达博迪(Jesdabodi)等将24个用户在3个月内的Apps使用记录用k-means方法聚类,识别出13种不同类型的活动(例如游戏、网页浏览等)。工程师分析了近10万个安卓手机用户一个月内的Apps使用记录,用两步聚类方法对用户进行聚类:首先将用户向量输入到k-means中,再将获得的质心输入到MeanShift中,最终获得了382个用户聚类。
分类:根据一个用户在Apps安装、使用等方面的特征,判断此用户是否具备某个属性。分类方法主要从用户个体的粒度挖掘用户属性。相关的研究工作中使用了多种分类方法,包括:支持向量机(SVM)、贝叶斯模型、决策树、k-近邻(kNN)、逻辑回归、神经网络方法、集成学习方法(例如GBDT、AdaBoost、RandomForest等)。也有工程师使用SVM推测用户的人口属性和兴趣偏好,训练SVM分类器通过Apps使用记录预测用户的压力。Qin等使用贝叶斯模型从Apps使用记录中推断用户的性别和年龄组别,准确率分别为81.12%和73.84%。奇塔兰詹(Chittaranjan)等训练C4.5分类器从Apps数据中推测出用户的性格。布达尔(Brdar)等人训练kNN分类器从Apps使用记录中推断用户的基本属性。马尔米(Malmi)等分析了3760个安卓手机用户的Apps使用列表,用逻辑回归方法推测用户的基本属性。Zhao等融合了不同Apps数据类型,训练了深度神经网络模型推测用户的性别和收入水平,分别获得81.6%和63.6%的准确率。RandomForest、GBDT等集成学习方法也用来从Apps数据中推测生活状态、用户属性等。
目前研究Apps数据与用户画像信息之间的相关性、推测用户个体属性的研究工作比较多。部分工作的数据集规模仍然比较小,说明数据集的采集仍然是个难点,尤其是采集带有用户真实信息的大规模数据集。大部分工作使用的Apps数据类型比较单一,只用了四种Apps数据类型中的一种。
热门跟贴