MedSPSS机器学习入门案例-波士顿房价预测
引言
波士顿房价预测是经典的数据分析/机器学习入门项目。一般来说,房价会与房屋面积的大小、所在区位、房子的空间布局、市场因素、银行利率、国家政策等因素息息相关。而房价预测的任务就是给定与房价相关因素的数据,通过这些数据预测出房子的价格。
我们从python相关数据包搜集到波士顿房价数据(该数据集为标准数据集,关注公众号MedSPSS,发送“房价”可免费下载),数据集包含了506个样本,每个样本包含了13个特征变量和该地区的同类房屋价格中位数,海内外已有众多的学者通过建模分析对房价进行了预测,而如何选择最优的特征变量组合是我们要做的事情。本文使用MedSPSS的回归分析模块,对波士顿房价进行线性模型的拟合。
我们先给出如下波士顿房价的13个特征变量(xx)和房屋价格(y)。
在研究波士顿房价问题中,由于我们得到的观测数据是多组的,所以我们的线性回归模型可以表示为:
写成矩阵形式为:
本案例中公式可以写为:
接下来,我们导入数据到MedSPSS进行如下分析:
Step1:上传数据
基于MedSPSS,通过【数据管理】-【文件】-【上传文件】,上传整理好的“波士顿房价数据”,用作接下来的最小二乘回归。
Step2:选择变量
基于MedSPSS,选择【回归分析】-【线性回归】-【最小二乘回归】,将全部13个变量拖到自变量x框,将MEDV同类房屋价格中位数选为因变量y。选择向前逐步回归的模式,选择广义逆的方法来计算矩阵,将“是否临近查尔斯河”的“临近”作为哑变量的对比参考项。
Step3:模型摘要表
模型R为0.741表示线性预测模型的构建准确率较高,用于解释数据的能力较强。
Step4:回归分析系数表
从回归分析系数表中可以发现MedSPSS构建的线性模型中选择的变量VIF<10,说明模型没有多重共线性,模型构建良好。构建的回归方程如下:
选择的变量p值都小于0.05,说明选择的变量可以很好地解释MEDV(同类房屋价格中位数)。同时模型JB检验的p值Prob(JB)显著小于0.05,说明模型残差服从正态分布,模型拟合效果优秀。线性回归图如下:
Step5:残差序列正态性检验
接着我们使用Kolmogorov-Smirnov算法对残差序列做正态性检验,检验结果如下表所示:
由上表可得:由于p值≤0.05,因此拒绝H0(残差序列是正态的),接受H1(残差序列是非正态的)。
最后标准化残差直方图和PP图如下所示:
类似真实世界的预测都可通过MedSPSS平台做出相应分析,选择分析方法后,平台会通过智能的流程给出分析结果。以上述案例为例,MedSPSS清晰地给出了残差序列散点图和标准化残差PP图在内的四张残差处理图,操作便捷,结果专业清晰,极大地提高了数据分析的效率,节省了数据工作者大量的分析时间。
关注公众号,发送“房价”,免费下载本数据集,跟着MedSPSS一起学习数据分析吧。
热门跟贴