MedSPSS机器学习入门案例-波士顿房价预测|残差|波士顿

MedSPSS机器学习入门案例-波士顿房价预测

引言

波士顿房价预测是经典的数据分析/机器学习入门项目。一般来说，房价会与房屋面积的大小、所在区位、房子的空间布局、市场因素、银行利率、国家政策等因素息息相关。而房价预测的任务就是给定与房价相关因素的数据，通过这些数据预测出房子的价格。

我们从python相关数据包搜集到波士顿房价数据（该数据集为标准数据集，关注公众号MedSPSS，发送“房价”可免费下载），数据集包含了506个样本，每个样本包含了13个特征变量和该地区的同类房屋价格中位数，海内外已有众多的学者通过建模分析对房价进行了预测，而如何选择最优的特征变量组合是我们要做的事情。本文使用MedSPSS的回归分析模块，对波士顿房价进行线性模型的拟合。

我们先给出如下波士顿房价的13个特征变量（xx）和房屋价格（y）。

在研究波士顿房价问题中，由于我们得到的观测数据是多组的，所以我们的线性回归模型可以表示为：

写成矩阵形式为：

本案例中公式可以写为：

接下来，我们导入数据到MedSPSS进行如下分析：

Step1：上传数据

基于MedSPSS，通过【数据管理】-【文件】-【上传文件】，上传整理好的“波士顿房价数据”，用作接下来的最小二乘回归。

Step2：选择变量

基于MedSPSS，选择【回归分析】-【线性回归】-【最小二乘回归】，将全部13个变量拖到自变量x框，将MEDV同类房屋价格中位数选为因变量y。选择向前逐步回归的模式，选择广义逆的方法来计算矩阵，将“是否临近查尔斯河”的“临近”作为哑变量的对比参考项。

Step3：模型摘要表

模型R为0.741表示线性预测模型的构建准确率较高，用于解释数据的能力较强。

Step4：回归分析系数表