MedSPSS机器学习入门案例-波士顿房价预测

引言

波士顿房价预测是经典的数据分析/机器学习入门项目。一般来说,房价会与房屋面积的大小、所在区位、房子的空间布局、市场因素、银行利率、国家政策等因素息息相关。而房价预测的任务就是给定与房价相关因素的数据,通过这些数据预测出房子的价格。

我们从python相关数据包搜集到波士顿房价数据(该数据集为标准数据集,关注公众号MedSPSS,发送“房价”可免费下载),数据集包含了506个样本,每个样本包含了13个特征变量和该地区的同类房屋价格中位数,海内外已有众多的学者通过建模分析对房价进行了预测,而如何选择最优的特征变量组合是我们要做的事情。本文使用MedSPSS的回归分析模块,对波士顿房价进行线性模型的拟合。

我们先给出如下波士顿房价的13个特征变量(xx)和房屋价格(y)。

在研究波士顿房价问题中,由于我们得到的观测数据是多组的,所以我们的线性回归模型可以表示为:

写成矩阵形式为:

本案例中公式可以写为:

接下来,我们导入数据到MedSPSS进行如下分析:

Step1:上传数据

基于MedSPSS,通过【数据管理】-【文件】-【上传文件】,上传整理好的“波士顿房价数据”,用作接下来的最小二乘回归。

Step2:选择变量

基于MedSPSS,选择【回归分析】-【线性回归】-【最小二乘回归】,将全部13个变量拖到自变量x框,将MEDV同类房屋价格中位数选为因变量y。选择向前逐步回归的模式,选择广义逆的方法来计算矩阵,将“是否临近查尔斯河”的“临近”作为哑变量的对比参考项。

Step3:模型摘要表

模型R为0.741表示线性预测模型的构建准确率较高,用于解释数据的能力较强。

Step4:回归分析系数表

从回归分析系数表中可以发现MedSPSS构建的线性模型中选择的变量VIF<10,说明模型没有多重共线性,模型构建良好。构建的回归方程如下:

选择的变量p值都小于0.05,说明选择的变量可以很好地解释MEDV(同类房屋价格中位数)。同时模型JB检验的p值Prob(JB)显著小于0.05,说明模型残差服从正态分布,模型拟合效果优秀。线性回归图如下:

Step5残差序列正态性检验

接着我们使用Kolmogorov-Smirnov算法对残差序列做正态性检验,检验结果如下表所示:

由上表可得:由于p值≤0.05,因此拒绝H0(残差序列是正态的),接受H1(残差序列是非正态的)。

最后标准化残差直方图和PP图如下所示:

类似真实世界的预测都可通过MedSPSS平台做出相应分析,选择分析方法后,平台会通过智能的流程给出分析结果。以上述案例为例,MedSPSS清晰地给出了残差序列散点图和标准化残差PP图在内的四张残差处理图,操作便捷,结果专业清晰,极大地提高了数据分析的效率,节省了数据工作者大量的分析时间。

关注公众号,发送“房价”,免费下载本数据集,跟着MedSPSS一起学习数据分析吧。