打开网易新闻 查看精彩图片

使用新的bayesselect命令,您可以执行线性回归的贝叶斯变量选择。考虑模型不确定性并执行贝叶斯推理。现在该命令已更新到StataNow™中。

回归分析的一个常见问题是,当您有许多潜在的预测变量时,如何确定与结果最相关的预测变量子集。变量选择,也称为稀疏回归,可以帮助研究人员提高模型的可解释性并提供更稳定的推理。

Stata的贝叶斯套件现在包含一个新命令bayesselect,它为线性模型实现贝叶斯变量选择。bayesselect补充了与变量选择相关的Stata命令,例如lasso和bmaregress。

贝叶斯选择提供了一种灵活的贝叶斯变量选择方法,通过使用各种专门设计的系数先验,如global–local shrinkage先验和spike-and-slab先验。bayesselect完全集成在Stata的贝叶斯套件中,并与所有贝叶斯后估计例程无缝协作。

示例

diabetes数据集为例,其中包含442名患者的疾病进展记录以及年龄、性别、体重指数、血压和血清测量值等控制因素(Efron et al. 2004)。

按照变量选择方法中的常见程序,所有变量都经过标准化,以便它们的平均值为0,标准差为1。我们要的结果变量是diabetes,我们对其他10个变量进行回归分析。我们假设并非所有协变量都具有同等重要性,并且通过执行变量选择,我们可以实现更有效的推理和更好的预测。

使用bayesselect执行贝叶斯变量选择与Stata中的任何其他回归一样简单。我们使用bayesselect的默认规范,并且我们添加的唯一选项是rseed()以实现可重复性。拟合模型时,我们排除最后一个观测值(第442个观测值)作为测试示例。

打开网易新闻 查看精彩图片

bayesselect使用的默认变量选择先验是horseshoe先验(Carvalho et al. 2009)。这是所谓的global–local shrinkage先验的一种特殊情况,其中包括local shrinkage因子lambdas,每个系数对应一个。这种先验的形式是在命令的模型汇总中描述的。

收缩因子转换为包含系数并汇总在bayesselect输出的最后一列中。输出中的预测变量按估计的包含系数排序。包含系数大于0.5的前三个预测变量是serum5, bmi(体重指数)和bp(血压)。这三个预测变量都对结果产生积极影响——其系数的后验均值估计值分别为0.34、0.33和0.19。

在第二个输出表中,位于系数表下方,bayesselect报告常数项、方差项sigma2和全局收缩参数tau后验汇总。

因为我们想要预测,所以我们首先需要保存bayesselect的模拟结果。

打开网易新闻 查看精彩图片

我们现在可以使用bayespredict命令来预测研究中最后一位患者(观察值442)的疾病进展。

计算出的后验预测平均值保存在新变量pmean1中。我们稍后会看看这个预测。

另一种流行的变量选择模型是spike-and-slab lasso模型(Ročkováand George 2018)。我们通过在bayesselect中指定sslaplace选项来请求此模型。

打开网易新闻 查看精彩图片

spike-and-slab lasso的输出报告的是包含概率,而不是horseshoe先验模型的包含系数,这更容易解释。预测变量seric5、bmibp都包含1。换句话说,这三个预测变量的重要性没有不确定性。然而,它们的系数估计与horseshoe模型的系数估计相似。总体而言,包含概率比horseshoe模型的包含系数( 0.2 ~ 0.7 )更分散,age从0.1到1不等。

让我们保存最后的模拟结果并对研究中的最后一位患者进行预测。

打开网易新闻 查看精彩图片

为了比较两个变量选择模型的预测结果,我们列出了442的观测记录。

打开网易新闻 查看精彩图片

spike-and-slab模型的预测(-1.18)比horseshoe模型的预测(-1.31)更接近真实值(-1.23)。总之,两种模型都正确预测了该患者疾病进展的减缓。

参考文献

Efron, B., T. J. Hastie, I. Johnstone, and R. J. Tibshirani. 2004. Least angle regression. Annals of Statistics 32: 407–499.

Carvalho, C. M., N. G. Polson, and J. G. Scott. 2009. "Handling sparsity via the horseshoe". In Proceedings of the Twelfth International Conference on Artificial Intelligence and Statistics. Proceedings of Machine Learning Research, ed. D. van Dyk and M. Welling, vol 5: 73–80. Clearwater Beach, FL.

Ročková, V., and E. I. George. 2018. The spike-and-slab lasso. Journal of the Royal Statistical Society, Series B 113: 431–444.

北京天演融智软件有限公司(科学软件网)是Stata软件在中国的授权经销商,为中国的软件用户提供优质的软件销售和培训服务。