本文章为SPSSAU数据分析思维培养的第3期文章。

上文讲解如何选择正确的分析方法,除了有正确的分析方法外,还需要把分析方法进行灵活运用。拿到一份数据,应该如何进行分析,总共有几个步骤,第一步第二步应该做什么,需要有个宏观把控,只有这样才能有规范的研究科学的思维和逻辑。

本文章首先阐述数据的整体思维,即整体把控住应该如何剖析一份数据做到心理有数,接着针对常见的问卷进行思维剖析,并且提供思路框架,期许为大家带来一丝丝帮助。

第一部分 把控数据思维

如果想要把控好数据思维,简单来讲在拿到一份数据后如何进行分析,心里应该有个底。做到以下几点,相信可以更好地理解数据思维。首先是针对数据特征描述,其次是对数据质量说明,研究目的是什么如何使用研究方法或措施去匹配论证研究目的,最后把数据结果呈现出来并且进行讨论说明。

1、数据特征描述

拿到一份数据时,首先看下数据的特征,比如性别的分布情况如何,平均年龄情况如何。当然这里是需要区分定类和定量数据分别进行描述,比如性别是定类数据使用百分比频数说明,年龄是定量数据使用平均值或中位数进行描述说明,在‘数据分析思维培训之2’里面有详细说明。

为什么首先需要对数据特征进行描述呢?简单来讲,每份数据都有自己的background,研究是基本数据进行,首先需要告诉下别人我研究的数据是一群什么样的人或者物体。在此基础上才能进行后续的进一步分析。

如果研究群体出问题自然后续结论也会有问题,比如研究00后群体,但数据是基本80后,不同群体对于同一事情很可能有着不同的观点和态度。而且在最后进行说明讨论的时候也是基本样本群体的特征而进行,因此在数据分析时,通常首先需要描述清楚研究群体到底是什么样的。

2、数据质量说明

接着,一般需要对数据的质量进行说明,此步骤可以使用研究方法,比如信度分析、组内相关系数ICC等等进行说明,但有时候数据不适合分析方法要求因而不能使用分析方法进行研究。此时正确的做法是详细描述清楚数据的来源,比如实验数据的背景情况下是什么,基于什么样的实验条件因素进行等,充分证明数据的质量可靠即可。形式不限,文字描述或者使用研究方法等均可。

3、研究目的剖析

对于数据基本特征和数据质量剖析后,接下来最关键的步骤是结合自己的研究目的进行。一般来说研究目的可分为两大类,一是差异关系研究;二是影响关系研究,以及其它。

比如不同性别群体是否吸烟的差异性,不同性别群体对于奢侈品的购买意愿或购买行为差异性。差异关系是一种常见且通用的研究方法,一般涉及到比如卡方分析、方差分析、T检验等,结合自己的数据类型进行选择使用即可。

而对于影响关系而言,更多出现于学术研究中,通过影响关系研究去论证观点的正确性,影响关系通常可使用比如线性回归、logistic回归、岭回归、Robust回归等。具体不同的研究方法可能对应着不同的数据类型,但都不复杂,关键的地方在于符合研究的目的。

有时候为了研究目的服务,可能还会对数据进行‘中间过程处理’,比如对于数据的信息浓缩,可使用因子分析等;或者对于样本群体的聚类,可首先进行聚类分析,然后聚类出不同类别群体再做后续的分析使用。研究目的通常是在准备数据之前就已经确定,因为先有思路再有数据的准备,最后才是进行分析。

4、数据结果呈现

在进行数据研究时,很可能需要对于数据结果进行呈现,通常是两种方式分别是表格和图。表格是通用的方式,但其比较‘枯燥’。因而很多时候需要结合数据情况进行可视化即图形展示。

一般针对定类数据的图形较多,比如饼图、条形图、柱形图,帕累托图,词云图等;而涉及到定量数据,由于其通过平均值进行表达描述,因而更多可能会使用比如折线图,簇状图等,当然如果是纯统计角度上,还可能的比如箱线图,散点图,直方图,PPQQ图等,均可在SPSSAU中快速的找到;分析与数据呈现是连在一起的,有了数据研究结论一定需要用某种形式呈现出来,无非是选择图或表,也或者二者均用;核心在于可以直观快速的呈现出结果。

可视化图形-spssau

数据分析思路事实上还有很多,比如模型的灵活运用,模型的选择使用等,同样的数据和研究目的,很可能使用到不同的研究模型,比如研究影响关系,都是定量数据。很可能会使用到线性回归、路径分析等,此时可结合实际情况,以及自身的理解综合评估即可,并无绝对对应关系。

第二部分 问卷量表思维参考

问卷数据是常见的一种数据来源,而且问卷中很多时候会使用到量表数据,针对此种量表数据,SPSSAU提供一种分析思路参考如下图:

量表类问卷研究思路-spssau

其实从上表可知,第1和第2点均是对于数据特征进行描述。接着第4和第5点属于数据质量研究。第3点是为第6,7,8,9这4点服务。第6点是核心研究数据的特征描述。第7和第8点相关和假设分析属于影响关系的分析范畴。最后第9点是差异关系的范畴。

没有绝对的研究步骤,但从上图可以看到,基本上是先数据特征描述,接着数据质量分析,再接着核心研究数据的特征描述,进一步影响关系研究,最后差异关系研究。至于细节性问题,比如信度和效度分析谁先谁后,一般而言是信度在前效度在后。影响关系和差异关系谁先谁后呢?看研究目的,越重要的越放前,相对不重要的靠后即可。

第三部分 问卷非量表思维参考

针对非量表类问卷,非量表类问卷最大的特点是:非常多的单选题,多选题等,通常此类问卷用于政策现状研究、基本态度情况研究等。如果此类问卷,多数是使用频数分析,以及涉及多选题的几类方法;同时还有交叉卡方分析。

非量表类问卷研究思路-spssau

思路上第1和第2点属于数据特征描述,先搞清楚研究数据的基本背景特征情况。接着对于核心研究项进行特征描述,即第3和第4点。除此之外还可以进行差异关系研究,即第5点,一般使用卡方分析。第6点影响关系研究一般会使用到logistic回归分析等。分析思路上紧密相联,先数据特征描述,核心变量特征描述,差异关系,影响关系研究,并且在最后进行汇总。

第四部分 其它

在数据分析思路上,还会有很多种类型,本文并没有提供到权重研究,事实上很多研究目的在于计算权重体系,当然此种情况目的非常清晰,主要奔着研究目的去就好,正常情况下都会使用到SPSSAU综合评价里面的研究方法。

SPSSAU综合评价

除了权重体系的构建,还有聚类数据,把数据样本群体分成几个类别等分析思路,先把思路确认好,接着大致就可以对应上正确的数据分析方法,准备好数据直接分析就可以。

更多涉及到数据思路上的资料可在SPSSAU手册里面找到参考,包括影响关系类研究,现状政策类研究,调节/中介类研究,实验类差异研究和聚类样本类研究共五类思路等。