利用手机Apps进行用户画像方法的研究要点|apps|分类器|应用程序|聚类

用户画像信息有哪些？
目前手机Apps的数量大、种类多，并且使用情况多样。用户在安装和使用Apps的过程中，隐含了用户在兴趣、偏好、职业、作息等方面的个性化信息，一般可将其大致归纳为5类：基本属性、性格、心理状态、个人兴趣和生活方式。
基本属性是指一个人的自然属性。常见的基本属性包括年龄、性别、婚姻状态、种族、教育水平、收入、职业等。基本属性不同的用户，其需求和兴趣在一定程度上也是不同的。例如，年轻的家长很可能对抚养婴儿的Apps感兴趣，金融行业的从业者可能对股票类的Apps感兴趣。
性格是长期伴随一个人的一种属性，会影响思维模式、感情、社交活跃度、自我价值观、态度等。研究发现，互联网和社交媒体的使用与性格有一定的相关性。性格不同的用户在互联网、社交、通讯等类别Apps的使用方面也存在一定的差异性。例如，相对于其他性格的用户，外向型的用户使用社交网络和通讯类的Apps较为频繁。因此，通过分析互联网、社交、通讯类Apps的使用记录可推测用户的性格。
心理状态是指日常生活中心理的健康情况，会影响人们的行为和决策。相关研究发现，一个人的心理状态与他的社交活动密切相关。手机Apps已经成为人们社交的重要媒介之一。在不同的心理状态下，同一个用户在使用社交类Apps的时长、频率或者时间等方面也会有所不同。例如，通过分析Apps的使用记录，可以发现用户在不同心情下会使用不同的Apps，并会与不同的人联系。因此，社交类Apps的使用记录在一定程度上可帮助推测用户的心理状态。
个人兴趣是指用户愿意花费时间和精力去关注的事物、事件或者某些过程。兴趣不同的用户会安装或使用不同的Apps，尤其是一些小众Apps。小众Apps是面向拥有某个兴趣的小部分用户群体专门设计开发的。所以，小众Apps的安装或者使用能较好地反映用户的个人兴趣。
生活方式是指一个用户或者用户群体的生活方式和生活阶段，包括日常起居，生物钟，移动模式，重要事件，影响用户的生理、心理或者社交特性的某些阶段。不同的生活方式会使得生活需求存在差异性，从而使得用户选择安装或者使用的Apps也是不同的。

采用手机的Apps进行用户画像
目前已有很多工作利用手机Apps进行用户画像，例如刻画手机Apps数据与某类用户画像信息的相关性，从手机Apps数据中推测用户的个体属性或挖掘用户群体的共有特性等。不同的研究问题决定了用户画像所使用的方法。利用Apps的用户画像方法大致可以归纳为4种：统计、回归、聚类以及分类。
统计：通过一些基本的统计结果，例如平均值、标准差和相关性，描述用户的基本特性或者分布规律，发现用户属性与手机Apps之间的潜在规律或者相关性。例如，佩尔托宁（Peltonen）等针对44个国家的3293个用户的Apps使用记录，分析了地域、文化等因素对Apps使用的影响，发现用户所在国家对Apps使用的影响较大。莉姆等人分析了GDP最高的15个国家的4824个用户的Apps安装行为，发现美国的用户更倾向于安装医疗方面的Apps，而英国和加拿大的用户更有可能受到Apps价格的影响。韦尔克（Welke）等用Apps使用列表来表征用户，用海明距离计算了用户间的差异性，发现99.67%的用户在Apps使用列表方面是独一无二的。通过分析同样的数据集，安多尼（Andone）等调查了年龄、性别等因素对Apps使用的影响，研究发现女性用户使用交流和社交Apps的时间比男性要长；青少年用户大量使用通讯和社交应用程序，随着年龄的增长，游戏、媒体和视频Apps的使用率下降。我们也容易发现生活事件（例如第一辆车、第一份工作、第一个孩子等）会影响用户安装Apps的行为。
回归：对Apps和用户之间的关系进行建模，观察Apps和用户某个属性的相关程度。最常使用的一种方法是线性回归，一般应用在两方面：衡量用户和Apps之间的相关性；给定Apps相关数据，用回归的方法预测或者推测某个用户属性。有人利用多元回归分析的方法探索了每种性格与Apps使用之间的关系，发现外向型性格与社交、通讯类的Apps使用有较强的相关性。Xu等使用线性回归方法通过Apps历史安装行为推测用户的性格，平均准确率为60%。LiKamWa等分析了用户的Apps使用规律，并训练线性回归分类器推测用户的心情，准确率达到93%。
聚类：通过计算基于Apps的用户表征向量的相似性，将用户划分成不同的簇，同一个簇内的用户具备相似的兴趣或者需求。聚类方法常被用于解决用户群体特性挖掘问题。常见的聚类方法有k-means、MeanShift、高斯混合模型等。杰斯达博迪（Jesdabodi）等将24个用户在3个月内的Apps使用记录用k-means方法聚类，识别出13种不同类型的活动（例如游戏、网页浏览等）。工程师分析了近10万个安卓手机用户一个月内的Apps使用记录，用两步聚类方法对用户进行聚类：首先将用户向量输入到k-means中，再将获得的质心输入到MeanShift中，最终获得了382个用户聚类。
分类：根据一个用户在Apps安装、使用等方面的特征，判断此用户是否具备某个属性。分类方法主要从用户个体的粒度挖掘用户属性。相关的研究工作中使用了多种分类方法，包括：支持向量机（SVM）、贝叶斯模型、决策树、k-近邻（kNN）、逻辑回归、神经网络方法、集成学习方法（例如GBDT、AdaBoost、RandomForest等）。也有工程师使用SVM推测用户的人口属性和兴趣偏好，训练SVM分类器通过Apps使用记录预测用户的压力。Qin等使用贝叶斯模型从Apps使用记录中推断用户的性别和年龄组别，准确率分别为81.12%和73.84%。奇塔兰詹（Chittaranjan）等训练C4.5分类器从Apps数据中推测出用户的性格。布达尔（Brdar）等人训练kNN分类器从Apps使用记录中推断用户的基本属性。马尔米（Malmi）等分析了3760个安卓手机用户的Apps使用列表，用逻辑回归方法推测用户的基本属性。Zhao等融合了不同Apps数据类型，训练了深度神经网络模型推测用户的性别和收入水平，分别获得81.6%和63.6%的准确率。RandomForest、GBDT等集成学习方法也用来从Apps数据中推测生活状态、用户属性等。
目前研究Apps数据与用户画像信息之间的相关性、推测用户个体属性的研究工作比较多。部分工作的数据集规模仍然比较小，说明数据集的采集仍然是个难点，尤其是采集带有用户真实信息的大规模数据集。大部分工作使用的Apps数据类型比较单一，只用了四种Apps数据类型中的一种。