Meta-analysis with Jeffreys priors: Empirical frequentist properties

使用Jeffreys先验的元分析:经验频率学派性质

https://www.cambridge.org/core/services/aop-cambridge-core/content/view/B6F787E5BBF8049D473AB896C65ADB39/S1759287924000024a.pdf/meta-analysis-with-jeffreys-priors-empirical-frequentist-properties.pdf

打开网易新闻 查看精彩图片

关键词:元分析;贝叶斯;模拟研究;Firth校正;贝叶斯方法;小样本估计;模拟

摘 要

在小型元分析(例如,最多包含20项研究)中,表现最佳的频率学派方法可能对元分析均值产生非常宽的置信区间,同时对异质性参数的估计也存在偏差且不够精确。我们考察了采用不变杰弗里斯先验(Jeffreys prior)的替代性贝叶斯方法的频率学派性质。该先验具有通常的贝叶斯动机,但也具有纯粹的频率学派动机:由此得到的后验众数对应于最大似然估计量中已确立的Firth偏差校正。我们考虑了用于随机效应元分析的两种形式的杰弗里斯先验:“Jeffreys1”先验将异质性视为干扰参数,而“Jeffreys2”先验则将均值和异质性都视为感兴趣的待估参数。在一项大规模模拟研究中,我们评估了这两种杰弗里斯先验的表现,考察了不同类型的贝叶斯点估计和区间估计。我们对均值和异质性参数的点估计与区间估计进行了评估,并与表现最佳的频率学派方法进行了比较。对于二分类结局的小型元分析,Jeffreys2先验在均值参数的点估计和区间估计方面可能优于标准频率学派方法。在此类情形下,Jeffreys2先验能显著提高估计效率,同时更常实现名义上的频率学派覆盖概率。然而,对于连续结局的小型元分析,标准频率学派方法似乎仍是最佳选择。异质性参数估计的最佳方法则随异质性本身的大小而变化。Röver与Friede开发的R软件包bayesmeta实现了上述两种杰弗里斯先验。我们还将Jeffreys2先验推广至元回归的情形。

亮点
• 已有认知:在小型元分析中,表现最佳的随机效应元分析频率学派方法可能高度不精确,并对异质性提供有偏估计。
• 本文新贡献:我们开展了一项大规模模拟研究,评估了两种形式的杰弗里斯先验在元分析中的表现,这两种先验对应于最大似然估计量的Firth偏差校正。
• 对RSM读者的潜在影响:对于二分类结局的小型元分析,Jeffreys2先验在均值参数的点估计和区间估计方面可能优于标准频率学派方法。

  1. 标准的随机效应元分析包括估计各项研究总体效应(例如,其标准差)的异质性,并获得一个基于倒方差加权的元分析均值估计,其中各项研究的权重取决于所估计的异质性。¹ 常用的异质性估计方法包括半参数的矩法估计量¹⁻⁵和参数化的基于似然的估计量。¹,⁶ 这些方法的理论依据依赖于大样本渐近性质,然而在某些科学领域中,大多数元分析仅包含相对较少数量的研究。例如,《Cochrane系统评价数据库》中关于医疗干预措施的元分析,其研究数量的中位数仅为3项(第75百分位数:6;第90百分位数:10)。⁷ 在心理学领域,《Psychological Bulletin》上发表的元分析包含的研究数量中位数为12项,尽管有些元分析规模要大得多(第75百分位数:33;第90百分位数:76)。⁸,⁹

一方面,先前的模拟研究表明,即使在非常小的元分析中(此处定义为包含 ≤ 5 项研究),许多现有方法仍能为元分析均值(记为 μ)提供几乎无偏的点估计。¹⁰ 另一方面,基于渐近正态性(例如,Wald 区间)构建的置信区间在小型元分析(≤ 20 项研究)中可能达不到名义覆盖水平,且在极小型元分析中覆盖水平会进一步下降。⁷,¹¹,¹² 使用 Hartung–Knapp–Sidik–Jonkman (HKSJ) 方法调整标准误¹³,¹⁴ 可在许多情境下提供校准更好的区间,但现有的模拟研究对这些区间是否始终能达到名义覆盖水平得出了不一致的结果。⁷,¹¹,¹²,¹⁵⁻¹⁷ 此外,对于典型样本量的元分析,此类区间可能极其宽泛。¹⁵⁻¹⁸ 例如,即使真实异质性为零,在包含 5 项研究的模拟元分析中,采用 HKSJ 标准误的矩法估计量产生的 95% 置信区间平均宽度约为 4–5。¹⁸ 这表明,若标准化均值差异尺度上的点估计为 0.5,则典型的置信区间大约为 [−1.5, 2.5],其宽度如此之大,以至于可能被认为缺乏信息量。此外,异质性的标准点估计在小型元分析中可能具有显著偏差且不够精确。⁷,¹¹ 许多关于异质性估计的现有模拟研究似乎并未评估异质性参数置信区间的覆盖概率或宽度¹¹(但参见 Viechtbauer (2007)¹⁹)。

本文中,我们考察了使用不变杰弗里斯先验的替代性贝叶斯方法的频率学派表现。²⁰ 通常,贝叶斯估计通过指定未知参数的先验分布,并根据观测数据获得这些参数的后验分布来进行。²¹ 这本质上涉及根据观测数据的似然函数更新先验分布。²¹ 对于具有未知参数 Ψ 和期望费舍尔信息量 I(Ψ) 的任意分布,杰弗里斯先验与 √det I(Ψ) 成正比。²⁰ 该先验最初的动机在于其对参数变换的不变性,²⁰ 这一性质并非所有先验都具备。²²,²³,i 例如,令 τ 表示各项研究总体效应的标准差,则 (μ, τ) 上的杰弗里斯先验与 (μ, τ²) 上的杰弗里斯先验相同,因此所得的后验估计和区间将不依赖于分析者对参数化的任意选择。这一理想的性质促使一些人将杰弗里斯先验描述为“无信息先验”,尽管我们同意其他人对此术语的批评。²⁴,²⁵

杰弗里斯先验一个有趣且被低估的特性是:其后验分布也可从纯粹的频率学派视角进行解释。²⁶ 特别地,众所周知,最大似然(ML)估计存在 O(n⁻¹) 阶偏差,这主要源于得分函数的曲率。²⁶ Firth (1993)²⁶ 证明,对于指数族分布,施加适当惩罚以校正此偏差的似然函数,恰好等同于在杰弗里斯先验下的估计。这本质上是因为杰弗里斯先验在得分函数中引入了一个偏差,从而补偿了由其曲率导致的偏差。²⁶ 具体而言,在该先验下的后验众数可从频率学派角度视为经过偏差校正的 ML 估计;因此,杰弗里斯先验下的后验众数有时被称为“Firth 校正”。Firth 校正在多个频率学派估计问题中已显示出成功应用,并常用于逻辑回归。²⁶⁻²⁹

鉴于杰弗里斯先验作为小样本中偏差校正方法的有效性,将其应用于小型元分析以改进点估计和区间估计似乎是合理的。Bodnar 等人(2016, 2017)¹⁵,³⁰ 推导了仅针对异质性 τ 的杰弗里斯先验(即保持均值 μ 不变),如果 τ 严格被视为干扰参数,这种方法可能是最优的。²⁵ 他们的模拟研究表明,结合对 μ 的独立平坦先验,所得的可信区间可能比现有的频率学派方法具有更好的频率学派覆盖性能。¹⁵ 我们将这种先验称为“Jeffreys1”,因为它是针对单个参数的先验。Kosmidis 等人(2017)³¹ 独立推导出一种惩罚似然校正方法,其等价于仅针对 μ 的单参数杰弗里斯先验;也就是说,将 μ 而非 τ 视为干扰参数。这种惩罚与 τ 的受限最大似然(REML)估计密切相关。³¹

在本文中,我们同时考虑 Jeffreys1 先验以及针对 μ 和 τ 的双参数杰弗里斯先验。据我们所知,后者尚未出现在已发表的元分析文献中。我们将后者称为“Jeffreys2”,原因有三。首先,虽然在元分析中均值参数通常是主要关注对象,但异质性也应通常被估计并报告,因此将 τ 视为干扰参数可能并非最优。³² 第二,在其他小样本估计问题中,包含尺度参数(例如指数族模型中的离散参数)的多参数杰弗里斯先验已被提出,并表现出良好的经验性质。²⁶,²⁸,³³ (我们将在第 3.3 节中重新讨论此问题。)在通过元分析截断部分随机效应分布来调整 p 值挖掘的背景下,我们最近发现,对 μ 和 τ 使用杰弗里斯先验的表现明显优于 ML,而 ML 在截断分布情形下通常表现极差。²⁸,³⁵ 第三,正如我们将要讨论的,Jeffreys2 先验的形状表明它可能比 Jeffreys1 先验提供更精确的区间。Jeffreys2 可信区间是否能实现名义频率学派覆盖,以及对 μ 和 τ 的点估计表现如何,仍是开放性问题。

以往关于元分析中杰弗里斯先验的模拟研究提供了有希望的初步结果,但也存在局限性。这些模拟仅研究了 Jeffreys1 先验,而非 Jeffreys2,并且仅考虑了 μ 的点估计和区间估计,而未考虑 τ。¹⁵ 在本文中,我们开展了一项模拟研究,比较在 Jeffreys1 和 Jeffreys2 先验下,μ 和 τ 的点估计与区间估计的频率学派性质,同时也比较了几种表现最佳的频率学派方法。我们采用的模拟设计紧密参照 Langan 等人(2019)⁷ 最近的一项广泛模拟研究,并大幅扩展了此前 Jeffreys1 先验模拟研究所使用的比较方法和模拟场景范围。此前关于 Jeffreys1 先验的模拟仅考虑了后验均值作为点估计,¹⁵ 而上述偏差校正性质则专门适用于后验众数。这对 τ 的点估计尤其重要,因为其后验分布高度不对称。因此,我们考虑三种类型的贝叶斯点估计(后验众数、均值和中位数)以及两种类型的可信区间(中心区间和最短区间)。我们的模拟包括 Langan 等人(2019)⁷ 模拟研究中表现最佳的方法,以及若干其他理论性质表明其可能同样表现良好的方法,例如精确区间¹⁸ 和基于轮廓似然的区间。⁶

本文结构如下:我们简要回顾了现有的用于随机效应元分析的矩法估计量和基于似然的估计量(第2节),这些方法在其他文献中已有更详细的论述。⁶,¹⁸,³⁶ 我们还简要回顾了关于这些方法的现有模拟研究结果(第2.4节)。我们回顾了已确立的Jeffreys1先验形式¹⁵,并推导出Jeffreys2先验的形式;随后讨论了在这两种先验下的后验估计(第3节)。我们展示了模拟研究的结果(第4节)和一个简短的应用实例(第5节),最后以总体讨论作结。

  1. 现有的频率学派方法

2.1. 矩法估计量

元分析中的矩法估计量属于半参数方法;它们仅需指定总体效应分布的前两个矩,即 μ 和 τ²。由于这些方法无需指定更高阶矩,因此不需要假设总体效应服从正态分布。具体而言,考虑 k 项研究,其总体效应 μᵢ 的期望为 μ,方差为 τ²。这两个矩正是通常在元分析中感兴趣的待估参数。令 θ̂ᵢ 和 σᵢ 分别表示第 i 项研究的点估计值和标准误,且近似满足 θ̂ᵢ ~ N(μᵢ, σᵢ²)。

对于给定的异质性方差估计值 τ̂²,θ̂ᵢ 的估计边际方差为 τ̂² + σᵢ²。μ 的一致最小方差无偏估计量(UMVUE)通过对各研究按其估计边际方差的倒数加权得到,记作 wᵢ = 1 / (τ̂² + σᵢ²):

打开网易新闻 查看精彩图片

各种矩法估计量的区别在于它们对 τ² 的估计方式,从而导致权重 wᵢ 的形式不同。关于这些方法的详细综述和原始文献均有发表,因此此处我们仅作简要总结。τ² 的矩法估计量基于广义 Q 统计量:

Q = Σᵢ₌₁ᵏ aᵢ(θ̂ᵢ − μ̂)², (1)

其中,系数 aᵢ 的形式在不同的矩法估计量之间有所不同。例如,传统的 DerSimonian–Laird 估计量(DL)¹ 设定 aᵢ = 1/σᵢ²。两步法 DL 估计量(DL2)² 则设定 aᵢ = 1/(τ̂²_DL + σᵢ²),其中 τ̂²_DL 是通过 DL 估计量获得的初始估计值。Paule–Mandel(PM)³,⁴ 估计量可视为 DL2 的一个极限情形,涉及对 μ̂ 和 τ̂² 的估计值进行迭代直至收敛。该估计量也等价于经验贝叶斯估计量。⁵ 一般而言,经验贝叶斯估计利用观测数据来估计贝叶斯先验参数,而非独立于数据预先指定先验。²¹ 在元分析的背景下,经验贝叶斯估计本质上是通过后验均值来估计总体效应的分布,其先验由数据经验确定。⁵

2.2. 基于似然的估计量

打开网易新闻 查看精彩图片

τ 的标准最大似然(ML)估计量通常通过求解 ∂/∂τ log p(θ̂ | μ, τ) = 0 得到,其解依赖于 μ。⁶ 由于该估计量未考虑因额外估计 μ 本身而导致的自由度损失,所得估计值通常存在负偏差。⁶ 这一问题促使了限制性最大似然(REML)估计法的产生,该方法通过变换对数似然函数以消除参数 μ,从而改进 ML 估计。⁶

2.3. 区间估计

一个简单的 Wald 置信区间可以通过假设 μ̂ 服从正态分布获得,根据标准 ML 性质,当研究数量 k 趋于无穷大时,该假设渐近成立。如果权重 wᵢ 被视为已知而非被估计,则有 Var(μ̂) = 1 / Σᵢ₌₁ᵏ wᵢ。一个 Wald 95% 置信区间为:

打开网易新闻 查看精彩图片

其中,c = Φ⁻¹(0.975) ≈ 1.96 是标准正态分布的临界值。然而,Wald 区间在小型元分析中表现出显著的覆盖不足,这既是因为正态近似仅在渐近意义上成立,也是因为近似式 Var(μ̂) = 1 / Σᵢ₌₁ᵏ wᵢ 未考虑对 τ² 的估计。⁷,¹¹,¹² Wald 区间也可用于 τ̂,但同样表现不佳。¹⁹ 因此,我们不再进一步讨论 Wald 区间,而是转而关注下文所述表现更优的替代方法。

关于 μ 的区间估计,替代性的 HKSJ 方法(有时也称为“Knapp–Hartung”方法)解决了 Wald 区间的局限性。¹³,¹⁴ 该方法更灵活地假设 μ̂ 服从 t 分布,并额外对 Var(μ̂) 进行重新缩放,以考虑权重 wᵢ 中 τ² 的估计影响:

打开网易新闻 查看精彩图片

对于 τ,可利用 Q 统计量的卡方分布(见公式 (1))¹⁹ 构建改进的置信区间。这些“Q-剖面”区间的表现显著优于 Wald 区间。¹⁹ 对于 μ 和 τ,ML 剖面区间也可按常规方式构建。⁶

一种有趣且相对较新的方法提供的是精确区间而非渐近区间,并在假设总体效应服从正态分布的前提下,理论上保证提供超过名义覆盖水平的性能。¹⁸ 该方法本质上涉及对精确检验进行反演。其他参数化方法则对似然比检验统计量提供小样本校正;这些方法包括 Skovgaard 的二阶校正和 Bartlett 校正。³⁸⁻⁴⁰ 这些方法可改进基础似然方法在假设检验中的表现,⁴⁰ 但 Skovgaard 的二阶校正并非为区间估计而设计,在此情境下数值上可能不稳定。³¹ 使用 Bartlett 校正进行区间估计是可行的,⁴¹ 但在现有软件中并未实现(I. Visser, 个人通讯,2024 年 7 月 8 日)。⁴²,⁴³ 由于我们的关注点在于区间估计而非假设检验,因此我们的模拟未包含 Skovgaard 或 Bartlett 校正。最后,各种参数化或非参数重抽样方法可用于获得自助法置信区间。¹⁹,⁴³,⁴⁴ 非参数重抽样可通过有放回地重抽样行数据实现,之后可获得简单的百分位自助法区间,或偏差校正并加速(BCa)区间等多种类型的自助法区间。⁴⁵,⁴⁶ BCa 置信区间可校正自助抽样分布中的偏差与偏度,我们推测这在估计 τ 的抽样分布时可能有所帮助。BCa 自助法在某些依赖于 τ̂ 的元分析估计量中表现相对良好。⁴⁷ 然而,自助法是一种渐近方法,其小样本表现通常需通过模拟评估。

2.4. 现有对这些方法的模拟比较

Langan 等人(2017)¹¹ 对不同异质性估计量的模拟研究进行了出色的系统综述。⁷ 简言之,当异质性为中等至较高水平时,DerSimonian–Laird(DL)估计量对 τ 的估计存在负偏倚,而 Paule–Mandel(PM)估计量通常偏倚较小。¹¹ 所综述的研究似乎并未评估 τ 的区间估计。基于他们自己更广泛的模拟研究,Langan 等人(2019)⁷ 通常推荐使用 REML、PM 或 DL2 进行异质性估计,并结合 HKSJ 置信区间用于 μ;然而,他们建议在小型元分析中谨慎解释异质性估计结果。

Langan 等人(2019)⁷ 的模拟研究未评估基于轮廓似然、自助法(bootstrapping)或精确方法(exact method)的区间;其中后者是近期才被提出。关于轮廓似然区间,文献中的建议并不一致。一篇有影响力的文章指出:“轮廓似然是计算置信区间的一种良好方法。”⁴⁸ 一项模拟研究似乎支持这一建议,发现当异质性大于零时,轮廓似然区间最接近名义覆盖水平。¹⁰ 然而,另一项模拟研究则表明,在仅包含5项研究的元分析中,轮廓似然区间常常出现覆盖不足的问题。³⁹ 精确方法的提出者提供了模拟结果,表明尽管该方法在理论上保证至少达到名义覆盖水平,但其所得区间并不比现有方法显著更宽。¹⁸ 尽管我们的模拟研究主要动机在于考察杰弗里斯方法,但其次要贡献在于更全面地评估轮廓似然、自助法和精确区间。

我们现在转向建立 Jeffreys1 和 Jeffreys2 先验的理论基础。

  1. 使用杰弗里斯先验的贝叶斯方法

3.1. 杰弗里斯先验

在总体效应服从正态分布的假设下,Bodnar 等人(2017)¹⁵ 证明了非正常化的 Jeffreys1 先验为:

打开网易新闻 查看精彩图片

如果将 μ 视为唯一感兴趣的参数,而 τ 被视为干扰参数,则 Jeffreys1 先验也与 Berger–Bernardo 参考先验一致。³⁰ 一般来说,对于给定分布,Berger–Bernardo 先验的设计目标是在最小化先验所提供信息量的同时,最大化数据所提供的信息量。³⁰,⁴⁹ 具体而言,该先验使先验与后验之间的 Kullback–Leibler 散度达到最大。⁴⁹

关于 Jeffreys2 先验,式 (2) 中的联合似然函数意味着期望费舍尔信息矩阵的元素为:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

为便于说明,图1展示了四种标准化均值差异元分析中两种先验在 τ 上的分布。这些元分析是通过从四种不同分布中抽取研究样本量 N 模拟生成的。尽管先验的幅度当然会受研究数量 k 的影响,但其形状受 k 的影响极小,因此图1描绘的是 k = 10 项研究的元分析所对应的先验。请注意,对于每项元分析,Jeffreys2 先验比 Jeffreys1 先验略窄,这表明前者可能提供更窄的区间;这一假设将在模拟研究(第4节)中进一步深入探讨。当 k > 1 时,这两种先验均可导出适当的后验分布(参见 Bodnar (2017)¹⁵ 关于 Jeffreys1 的论述,以及补充材料第1节关于 Jeffreys2 的内容)。此外,两种先验均可轻松推广至元回归情形:Jeffreys1 先验将与 Bodnar 等人(2024)⁵⁰ 提出的广义边际随机效应模型中的先验一致;而 Jeffreys2 先验在元回归中的形式则推导于补充材料第1节。本文正文不再进一步讨论元回归。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3.2. 各先验下的后验分布

对于任一先验,由于 p(μ, τ) ∝ p(τ),τ 的边缘后验分布为:¹⁵

打开网易新闻 查看精彩图片

离散近似方法无需通过混合链蒙特卡洛(MCMC)进行抽样,并已在 R 软件包 bayesmeta 中实现。⁹,⁵¹ 我们在模拟研究和应用实例中均使用了该软件包。

在已获得联合后验分布和边缘后验分布的近似形式的前提下,点估计可根据各种集中趋势度量来定义,例如后验众数、中位数或均值。对于任一先验,在许多情况下(例如,图4),p(μ | θ̂) 似乎近似对称,因此这三种集中趋势度量通常会高度一致。然而,对于 p(τ | θ̂),情况并非如此,因为在任一先验下该分布均为不对称。现有针对 Jeffreys1 先验的研究主要关注后验均值和中位数¹⁵,但我们重点关注后验众数,因为其具有前述理论优势²⁶。事实上,正如第4.4节所讨论的,我们的模拟结果表明,τ 的后验众数相比后验均值和中位数,具有显著更低的偏倚、均方根误差(RMSE)和平均绝对误差(MAE)。与最大似然(ML)估计类似,点估计既可基于边缘分布,也可基于联合分布的众数来定义。在贝叶斯框架下,边缘众数表示仅针对某一参数(例如 μ)最大化后验概率时该参数的取值,同时将另一参数(例如 τ)积分掉。相比之下,联合众数表示使联合后验概率同时达到最大的两个参数的取值。

打开网易新闻 查看精彩图片

同样类比于 ML 估计,有时可通过将后验分布近似为以“后验众数”为中心的渐近正态分布,并以负对数后验在后验众数处的 Hessian 矩阵的逆作为方差-协方差矩阵,从而构建对称的 Wald 可信区间。²¹ 然而,正如当似然函数不对称时,围绕 ML 估计值的 Wald 区间可能表现不佳一样,当后验分布不对称时,围绕后验众数的 Wald 区间也可能表现不佳。⁵² 为了获得合适的非对称后验区间,我们考虑两种方法。第一种,可通过取估计后验分布的第2.5百分位数和第97.5百分位数,获得中心(也称为“等尾”)95% 后验分位数区间。第二种,可通过数值方法获得最短的95%后验分位数区间;对于单峰分布,该区间等价于最高后验密度区间。²¹ 在我们的模拟研究和应用实例中,这两种类型的区间均通过 R 软件包 bayesmeta 获得。⁹

3.3. 两种先验之间的理论与实质区别

Jeffreys1 先验与 Jeffreys2 先验之间的区别涉及多参数杰弗里斯先验所普遍面临的理论与实质考量。Jeffreys 及其他学者曾指出,若希望估计所有参数(在元分析中即 μ 和 τ),则应使用多参数杰弗里斯先验;但若仅希望估计部分参数(例如仅 μ),而将其他参数视为干扰参数,则不应使用该先验。²⁴,²⁵,⁵³ 如引言所述,随机效应元分析通常不仅应估计和报告 μ,还应估计并报告 τ(或相关指标³²,⁵⁴,⁵⁵),这提示我们应考虑使用 Jeffreys2 先验。另一方面,在一般的位置-尺度问题中,Jeffreys 建议仅针对尺度参数(而将位置参数视为固定)构造先验。²⁴,⁵³ 这对应于 Jeffreys1 先验。Jeffreys 的这一建议源于当位置参数数量随样本量增加而增长时可能出现的问题,类似于著名的 Neyman–Scott 问题——在该问题中,最大似然估计量不具备一致性。²⁴,⁵³ 有趣的是,Firth 后来证明,在 Neyman–Scott 问题的一个特定且严重的情形下,多参数杰弗里斯先验(即 Firth 校正)实际上能导出一个一致且严格无偏的估计量。²⁶ 考虑到 Firth 校正的渐近论证在此类参数数量递增的情形下并不成立,这一结果出人意料。²⁶ 当然,在本文所讨论的随机效应元分析情境中,参数数量是固定的,因此上述潜在问题根本不会出现。我们认为,现有的理论与实质考量并未明确排除其中任一先验在随机效应元分析中的适用性,因此我们的模拟研究对两者均进行了评估。

  1. 模拟研究

我们设计本模拟研究时,力求紧密参照 Langan 等人(2019)⁷ 的研究,而后者本身正是为了克服以往模拟研究中的诸多局限性而设计的。¹¹ 如下文详述,我们考虑了二分类结局的元分析(效应量采用对数优势比尺度)和连续结局的元分析(效应量采用 Hedges’ g 尺度⁵⁶),纳入的研究数量最少为 2 项,异质性程度各异,均值和结局发生率(针对二分类结局)也各不相同,同时研究内样本量的分布也有所变化。由于我们评估了多种参数化、半参数化和非参数化方法,我们还初步考察了模型误设下的稳健性,即除了通常假设的正态分布总体效应外,还考虑了指数分布的总体效应。

4.1. 点估计与区间估计方法

表 1 列出了本模拟研究中评估的方法。我们评估了两种杰弗里斯先验。在每种先验下进行点估计时,我们主要考虑边缘后验众数,其次也考察了后验均值和中位数(见补充材料第 2.2 节)。关于 μ 的区间估计,中心区间与最短区间通常非常接近,因此我们仅展示最短区间的结果。关于 τ 的区间估计,我们对每种先验均考虑了两种类型的区间,分别称为 “Jeffreys1-shortest”(Jeffreys1 最短区间)、“Jeffreys1-central”(Jeffreys1 中心区间)、“Jeffreys2-shortest”(Jeffreys2 最短区间)和 “Jeffreys2-central”(Jeffreys2 中心区间)。

打开网易新闻 查看精彩图片

我们将两种杰弗里斯先验的表现与第 2 节所述的若干现有频率学派方法进行了比较。所选方法包括:在已有大规模模拟研究中表现良好的方法,或具有理想理论性质的方法(例如,能为 τ 提供适当非对称区间的估计方法)⁶,⁷,¹⁸,³⁹,⁴⁸,⁵⁷。在点估计方面,比较方法包括:最大似然估计(ML)、限制性最大似然估计(REML)、DerSimonian–Laird(DL)、两步法 DL(DL2)和 Paule–Mandel(PM)。在 μ 的区间估计方面,我们考虑了每种频率学派估计方法对应的 HKSJ 区间、ML 轮廓似然区间(ML-profile)、精确区间¹⁸、非参数 BCa 自助法区间以及非参数百分位自助法区间⁴⁵,⁴⁶。在 τ 的区间估计方面,我们考虑了每种频率学派估计方法对应的 Q-轮廓区间(Q-profile)、ML 轮廓区间以及两种自助法区间。

打开网易新闻 查看精彩图片

所有频率学派方法和区间均通过 R 软件包 metafor⁵⁸ 实现,以下情况除外:ML 轮廓区间使用自编 R 代码实现,精确方法通过 R 软件包 rma.exact¹⁸ 实现,自助法通过 R 软件包 boot⁵⁹ 实现。

4.2. 数据生成

表 2 总结了我们操纵的模拟参数,这些参数与 Langan 等人(2019)⁷ 的模拟研究相似。我们考虑了连续结局(效应量采用 Hedges’ g 尺度⁵⁶)和二分类结局(效应量采用对数优势比尺度)。我们同时考虑了总体效应服从正态分布和指数分布的情形;在后一种情况下,除矩法估计量外,所有点估计方法的基本假设均被违反。统计理论表明,在具有正态效应的大样本元分析中,所有方法的表现将大致相当,因此我们的重点在于较小规模元分析(k ≤ 20)中的点估计和区间估计。正文报告的主要模拟结果对应 k ∈ {2, 3, 5, 10, 20} 的情形。此外,我们还额外运行了 k = 100 的模拟,以确认渐近行为(见补充材料第 3 节)。由于自助法区间所需的计算时间远多于其他方法,我们首先在所有情境下使用单一的样本量(k = 10)对这些方法进行了试点测试,以评估它们是否能与其他方法竞争。

数据生成过程如下:在每次模拟迭代中,我们生成一个元分析,其潜在的总体效应(μᵢ)要么服从正态分布,要么服从指数分布。正态分布的总体效应按 μᵢ ~ N(μ, τ²) 生成,其中 μ 和 τ 按表 2 中所示进行变化。指数分布的总体效应则通过适当缩放和位移的分布生成,以达到期望的总体矩(μ 和 τ²)。对于元分析中的每项研究,我们从表 2 所列的四种分布中随机抽取一个总样本量 N。然后我们模拟个体参与者数据,使得 N/2 名参与者被分配到治疗组,另外 N/2 名参与者被分配到对照组。在连续结局的情境下,我们模拟对照组的结局均值为 0,治疗组的结局均值为 μᵢ,且各组内标准差均为 1。随后,我们使用 Hedges’ g 校正法估计标准化均值差异⁵⁶,⁵⁸。我们使用 Hedges (1982)⁶⁰ 中的标准大样本近似公式(式 (8))来计算各项研究的标准误:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

其中,P(Y = 1 | X = 0) 是我们在表 2 所列数值中操纵的一个情景参数。随后我们估计了优势比;为处理可能出现的零单元格计数,当任何单元格计数为零时,我们在每个单元格中添加 0.5。⁵⁸

我们预期,对于二分类结局且研究内样本量较小时,某些极端的情景参数组合(例如,N = 40 且 μ = 2.3,对应一个极端的优势比为 10)将导致研究内优势比出现偏差。²⁶,⁶¹ 在试点模拟中,我们识别出了导致研究内绝对偏倚大于 0.05 的情景参数组合。由于我们的关注点在于元分析估计方法所引起的偏倚,而非研究内偏倚,因此我们排除了这些参数组合。在排除这些组合后,我们最终对连续结局模拟了 240 种独特情景,对二分类结局模拟了 2267 种独特情景。

4.3. 性能指标

对于每种情景,我们以频率学派通常意义下的偏倚、平均绝对误差(MAE)和均方根误差(RMSE)来评估点估计量的表现与变异性。即,对于一个在 500 次模拟迭代 r 中变化的通用参数 ωᵣ:

打开网易新闻 查看精彩图片

对于每种情景,我们从频率学派覆盖概率和 95% 置信区间或可信区间的宽度两个方面评估区间估计的表现。某些方法的区间在部分情景下表现出过度覆盖,而在其他情景下则出现覆盖不足。因此,在跨情景汇总结果时,我们还考虑了每种方法在多少比例的情景中实现了近似名义覆盖水平——严格定义为覆盖概率 >94%。在讨论部分,我们将进一步阐述我们评估贝叶斯方法频率学派性质的理由,以及该方法的含义。我们未评估统计功效。尽管 p 值在被解释为连续性证据度量时确实可能有用,但我们同意其他人长期以来对“阈值式显著性检验”的担忧⁶²,⁶³——这种做法已导致对已发表元分析的严重误解⁵⁵,⁶⁴,且很可能也导致了发表偏倚。

4.4. 结果

鉴于情景数量众多,有必要进行一定程度的汇总,以便紧凑地呈现结果。在正文部分,我们提供按 k、τ、总体效应分布和结局类型分层的线图,并对 N 的分布(对于二分类结局,还包括 μ 和 P(Y=1 | X=0))进行汇总。由于某一估计量的偏倚方向可能在不同情景间有所不同,我们使用箱形图而非线图来展示各估计量在不同情景下的偏倚,以避免跨情景的汇总。对于其他性能指标,我们额外提供了一系列表格,这些表格根据结局类型和 k 对情景子集内的平均表现进行了汇总(表 3–10)。每个单独情景的完整模拟结果作为数据集公开提供(https://osf.io/9qfah)。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

如上所述,我们的重点是小型元分析。因此,除非另有说明,所有后续结果均针对 k ≤ 20 的情景,我们将其称为“所有情景”。尽管表格和图表同时展示了正态效应和指数效应的结果,但我们的文字描述主要聚焦于正态效应情景;在这些情景中,所有方法的设定均正确。我们次要讨论了指数分布效应下结果的变化情况。请注意,图表按效应分布分层,而表格因空间限制对正态和指数效应进行了汇总。

4.4.1. 收敛性指标

除精确方法和 BCa 自助法外,所有方法的算法在 >99% 的模拟数据集中均收敛(即能给出 μ̂ 和 τ̂ 的点估计和/或区间)。精确方法仅设计用于提供 μ̂ 的区间,其算法在 >98% 的模拟数据集中成功运行。在我们运行自助法方法的情景子集(即 k = 10 的情景)中,BCa 自助法仅在 67% 的数据集中提供了 μ̂ 和 τ̂ 的区间。当未提供区间时,这是因为估计的偏倚校正值为无穷大,这种情况可能发生在经验影响值因离群值或小样本量而接近零时。

4.4.2. μ 的点估计与区间估计

与先前已发表的模拟研究一致¹⁰,所有方法在 μ 的点估计方面表现非常相似,且近似无偏(图 6 及补充材料第 2.1 节)。在所有情景中,任意两种方法在偏倚、RMSE 和 MAE 上的最大场景内绝对差异分别为 0.056、0.064 和 0.036。鉴于 μ 的点估计在不同方法间相对差异较小,我们主要讨论该参数的区间估计。在 k = 10 情景的试点测试中,自助法方法与其他方法相比缺乏竞争力(补充材料第 3.7 和 3.8 节)。因此,我们未在其他样本量下运行这些计算密集型方法,且自助法方法在正文结果中被省略。

打开网易新闻 查看精彩图片

图7展示了95%区间的覆盖概率。所有采用HKSJ区间的频率学派方法表现相似。在总体效应为正态分布的情景中,这些方法的表现受k和τ的影响极小,且在80%的情景中覆盖概率超过94%。这种描述略显悲观,因为这些方法的覆盖概率很少低于约93%。ML-轮廓区间在71%的正态效应情景中覆盖概率超过94%,但与HKSJ方法不同,其覆盖概率在不同情景间波动较大。特别是,该方法在中等异质性水平及k=20时接近名义覆盖水平,但在较高异质性值(例如,τ ≥ 0.20)时表现出覆盖不足。精确区间在较小k值时表现出过度覆盖,在k=20时则接近名义覆盖水平。所有这些发现均与先前的模拟研究一致。¹⁰,¹⁸

打开网易新闻 查看精彩图片

Jeffreys1-最短区间和Jeffreys2-最短区间在正态总体效应情景下,分别在98%和88%的情景中实现了超过94%的覆盖概率。这超过了HKSJ区间(80%)和ML-轮廓区间(71%)所观察到的比例。在单个情景中,Jeffreys1-最短区间和Jeffreys2-最短区间通常表现为过度覆盖或达到名义覆盖,仅有一个例外:当k ≤ 5、结局为连续变量且异质性高(τ = 0.50)时,Jeffreys2-最短区间表现出轻微的覆盖不足(约89–93%)。

图8展示了95%区间的宽度。当k < 10时,不同区间的宽度差异显著,有时甚至非常大。在这些情景中,ML-轮廓区间始终是最窄的,对于极小型元分析尤为如此。相比之下,Jeffreys1-最短区间通常是所有区间中最宽的,尤其在极小型元分析中。另一方面,Jeffreys2-最短区间通常是仅次于ML-轮廓区间的第二窄区间,并且在极小型元分析中明显比所有HKSJ区间更窄。虽然看起来反直觉——Jeffreys2-最短区间比HKSJ区间更窄,同时却能更稳定地达到至少名义覆盖水平——我们在下文第4.4.3节中对此现象进行了解释。当k ≥ 10且结局为连续变量时,所有类型的区间宽度几乎完全相同。当k ≥ 10且结局为二分类变量时,两种Jeffreys区间和精确区间均略宽于HKSJ方法,但应结合图7所示这些情景下频率学派方法的轻微覆盖不足来理解这一结果。

打开网易新闻 查看精彩图片

在总体效应为指数分布的情景中,所有方法的相对表现相似,尽管当异质性较高(τ = 0.50)时,覆盖概率略有下降。这也与先前的模拟研究一致。¹⁰ 补充材料第3节提供了按结局类型分层的额外结果。首先,我们展示了k=100情景的结果,因为这些情景未包含在正文的所有结果中。在这些情景中,正如理论预期,无论结局类型如何,所有点估计量的表现都非常相似。对于二分类结局,大多数方法的覆盖概率在k=100时略有下降。这一发现与先前涉及稀有二分类结局的模拟研究结果一致(Langan 等人 (2019)⁷;附录图4),并且可能反映了元分析对数优势比时已知的两种误设来源。具体而言:(1) 估计的对数优势比与其估计的标准误相关;(2) 常规的方差估计是一种不完美的近似,尤其当存在零单元格计数时,即使在每个单元格中添加了正数常数也是如此。⁶⁵,⁶⁶ 我们将在讨论部分重新探讨这些问题。

在这些情景中,杰弗里斯方法比频率学派方法更接近名义覆盖水平。附加的补充表格将正文中的结果(即k ≤ 20的情景)按各研究中N固定与否进行了分层。在所有这些分层中,方法性能的相对排序与汇总分析中的结果非常相似。

4.4.3. 关于μ的结果讨论

对于具有二分类结局的小型元分析(k ≤ 20),Jeffreys2-最短区间可能是一种有用的方法,因为其区间至少能达到名义覆盖水平(在正态效应下),且通常比除ML-轮廓区间外的所有其他区间都要窄得多,而ML-轮廓区间的覆盖水平在不同情景中不稳定。为说明这一点,我们提供了一些针对二分类结局元分析的数值比较,以Jeffreys2-最短区间与REML-HKSJ区间为例。为简化起见,我们仅与一种频率学派区间进行比较。在具有二分类结局和正态总体效应的情景中,Jeffreys2-最短区间在90%的情景中覆盖概率超过94%,而REML-HKSJ区间仅在80%的情景中达到此标准。相应地,Jeffreys2-最短区间的覆盖概率在85%的情景中至少等于REML-HKSJ区间。同时,Jeffreys2-最短区间平均比REML-HKSJ区间窄27%;而在k ≤ 5的元分析中,这种效率提升增加至51%。对于二分类结局,Jeffreys1-最短区间似乎并未表现出优于Jeffreys2-最短区间或其他方法的明显优势,因为Jeffreys1-最短区间的宽度甚至比精确方法还要宽。

对于具有连续结局的小型元分析,使用Jeffreys2-最短区间时需要更加谨慎,因为在极小型元分析(k ≤ 5)且异质性高的情况下,它们会表现出轻微的覆盖不足(约89–93%)。由于Jeffreys2-最短区间在k > 5的连续结局元分析中仅带来适度的效率提升,因此保守起见,无论k取值如何,均可优先选择带有HKSJ区间的频率学派方法。尽管Jeffreys1-最短区间在连续结局下通常仍能保持至少名义覆盖水平,但该区间比精确区间更宽,且比HKSJ区间要宽得多。

如上所述,Jeffreys2-最短区间通常比HKSJ区间更窄,同时却能更稳定地达到至少名义覆盖水平,这看似违反直觉。造成这一发现的原因有两个。第一,HKSJ区间对于μ总是基于所分析的效应尺度(即,连续结局下的Hedges’ g和二分类结局下的对数优势比)对称的,而Jeffreys1-最短和Jeffreys2-最短区间则可根据后验分布的形状呈现对称或不对称(见补充材料第2.3节)。第二,在给定情景下,Jeffreys2-最短区间的宽度在重复抽样中通常比HKSJ区间的宽度变化小得多。因此,在许多Jeffreys2-最短区间表现出过度覆盖而对比方法仅达到名义或更低覆盖水平的情景中,这是因为HKSJ方法在重复抽样中常常产生极宽的区间,而Jeffreys2-最短区间则被限制在一个更窄的范围内(见补充材料第2.3节)。

4.4.4. τ 的点估计与区间估计

对于连续结局和二分类结局,τ 的点估计和区间估计结果取决于 τ 是否接近边界值零,特别是对于杰弗里斯方法。在点估计方面,频率学派方法(尤其是 ML)通常表现出轻微的负偏倚(图9)。来自 Jeffreys1 和 Jeffreys2 的点估计在偏倚的符号和幅度上比频率学派点估计更为多变(图9)。在 MAE 和 RMSE 方面,频率学派方法 DL、DL2、REML 和 PM 彼此表现相当。相比之下,ML 在这些指标上通常略优(图10 和 图11)。Jeffreys1 和 Jeffreys2 的 MAE 和 RMSE 彼此相当。相对于频率学派方法,Jeffreys1 和 Jeffreys2 通常在 τ 中等取值时(例如,τ = 0.10)表现出可比的 MAE 和 RMSE,在 τ > 0.10 时表现更好,而在 τ < 0.10 时表现更差。这些模式在二分类结局中更为显著。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

尽管两种结局类型的方法相对排序相似,但上述模式在正态效应和指数效应下也基本一致。

关于区间估计,自助法方法的试点测试再次表明,这些方法相比其他方法表现相对较差(补充材料第3.7节和第3.8节),因此我们再次将自助法方法从正文结果中省略。图12展示了95%区间的覆盖概率。在总体效应为正态分布的情景下,所有 Q-轮廓区间表现相似,并接近名义覆盖水平(在83%的情景中覆盖率 >94%)。ML-轮廓区间在大多数情景中通常表现为名义覆盖或过度覆盖;在正态效应情景下,这些区间的覆盖率在82%的情景中超过94%,与Q-轮廓方法类似。然而,当元分析规模较小且异质性较高时,ML-轮廓区间确实表现出覆盖不足。这种覆盖不足在二分类结局中最小(最低约90%),但在连续结局中可能较为严重(最低约75%)。

打开网易新闻 查看精彩图片

Jeffreys1-最短区间在 τ > 0.01 时至少达到名义覆盖水平,但在 τ = 0.01 时表现出显著的覆盖不足。Jeffreys2-最短区间表现类似,但额外在高异质性(τ = 0.50)的连续结局元分析中也表现出覆盖不足,尤其在 k ≤ 5 时。Jeffreys1-最短和 Jeffreys2-最短区间的覆盖率分别在83%和74%的情景中超过94%。Jeffreys1-中心区间和 Jeffreys2-中心区间的覆盖表现则明显更差(即,表现出更严重的覆盖不足),相较于 Jeffreys1-最短和 Jeffreys2-最短区间在较小 τ 值时的表现:在正态总体效应情景下,Jeffreys1-中心和 Jeffreys2-中心区间的覆盖率分别仅在54%和56%的情景中超过94%。这种覆盖不足反映了当 τ 接近参数空间边界时对 τ 的高估。

图13展示了95%区间的宽度。我们现在仅讨论具有最高至少名义覆盖率的方法,因此不讨论 Jeffreys2-最短、Jeffreys1-中心和 Jeffreys2-中心区间。各种 Q-轮廓区间的宽度彼此相当,但 ML-轮廓区间的宽度通常要窄得多,特别是在极小型元分析中。

打开网易新闻 查看精彩图片

在总体效应为指数分布的情景中,所有方法在 τ 的估计和区间估计方面的相对表现相似,尽管所有方法的覆盖概率均有所下降。附加的分层结果(补充材料第3节)表明,k=100以及各研究中N固定或变动的情形下,性能模式也大致可比。

4.4.5. 关于 τ 的结果讨论

在 τ 的点估计方面,没有任何一种方法表现出明显最优,因为各方法的性能强烈依赖于 τ 本身。杰弗里斯方法的低覆盖概率出现在 τ 接近零(即参数空间边界)时。这反映了对 τ 的高估,而在随机效应元分析的背景下,这种高估通常被视为保守的。关于 τ 的区间估计,带有 Q-轮廓或 ML-轮廓区间的频率学派估计量似乎比杰弗里斯方法更可取。

在两种杰弗里斯先验和两种区间类型中,只有 Jeffreys1-最短区间在覆盖水平上与频率学派方法具有竞争力。然而,由于 Jeffreys1-最短区间的宽度略大于频率学派方法的区间,因此该方法似乎并未在整体上优于频率学派区间。Q-轮廓区间在不同情景下的表现比 ML-轮廓区间稍显稳定,尽管其平均表现相似。但 ML-轮廓区间却显著窄于 Q-轮廓区间。

4.5. 总体结论

所有方法在 μ 的点估计方面表现相似。总体而言,对于 μ 采用 HKSJ 区间、对于 τ 采用 Q-轮廓区间的标准频率学派方法在不同结局类型下表现最为稳定一致。Jeffreys2-最短区间在二分类结局的元分析中也表现出一贯良好的性能,并且所得区间明显比频率学派方法更窄。然而,Jeffreys2-最短区间在连续结局下的表现不够稳定:在异质性较高且元分析规模极小(k ≤ 5)的情形下,该方法出现了轻微的覆盖不足。关于 τ 的点估计,所有方法在平均意义上再次表现相当,但最优方法取决于 τ 本身的取值。关于 τ 的区间估计,Q-轮廓方法的表现 arguably(可认为)最佳,并在各种情景下表现稳定一致。

总体而言,对于连续结局的小型元分析,我们推荐使用标准频率学派方法,即对 μ 采用 HKSJ 区间、对 τ 采用 Q-轮廓区间,这与以往的建议一致。然而,对于二分类结局的小型元分析,如果元分析者主要关注 μ 的点估计和区间估计(尽管再次强调,τ 的最优估计方法取决于 τ 本身的取值),则 Jeffreys2 方法可能优于标准频率学派方法。这是因为 Jeffreys2-最短区间更频繁地达到至少名义覆盖水平,同时精确度显著更高。如果元分析者还希望获得 τ 的区间,则使用带有 Q-轮廓区间的频率学派方法可能会比 Jeffreys2-最短区间提供更接近名义覆盖水平的 τ 区间;但这样做很可能会牺牲 μ 估计的大量精确度。

  1. 应用实例

Zito 等人⁶⁷ 对随机对照试验进行了元分析,比较了多种用于检测冠状动脉疾病(CAD)的诊断策略,研究对象为出现 CAD 相关症状的患者。作者针对多种诊断方法之间的每一对比较均进行了元分析;为简化起见,我们重点关注比较冠状动脉计算机断层扫描血管造影(CCTA)与负荷单光子发射计算机断层扫描心肌灌注成像(SPECT-MPI)的研究。我们复制了作者对六种结局的元分析:心血管死亡和心肌梗死(k=2)、全因死亡(k=3)、心肌梗死(k=2)、首次侵入性冠状动脉造影(ICA)(k=4)、后续再血管化治疗(k=4)以及下游检查(k=4)。作者的元分析⁶⁷ 使用了 DL 方法,并采用了 Wald 区间而非 HKSJ 置信区间。iii 我们从已发表的森林图中提取了各研究层面的汇总统计量,并使用 DL、REML、精确方法、Jeffreys1-最短和 Jeffreys2-最短方法重新分析了各项结局。⁷,¹²⁻¹⁴ 对于 DL 和 REML,我们根据既定建议采用了 HKSJ 区间。由于我们的模拟研究表明,带有 HKSJ 区间的各种频率学派方法之间差异相对较小,因此为简洁起见,我们仅聚焦于 DL 和 REML。所有用于复现该应用实例所需的代码和数据均已公开并有文档记录(https://osf.io/9qfah)。

图2展示了针对单一结局(全因死亡)的 Jeffreys1 和 Jeffreys2 先验,图3展示了在 Jeffreys2 先验下的联合后验分布。图5展示了所有方法对所有结局的 μ̂ 点估计和区间;关于异质性估计的类似森林图见补充材料第4节。与模拟研究一样,所有点估计几乎完全相同,但 Jeffreys2-最短区间的宽度通常比 Jeffreys1-最短、REML、DL 和精确方法所得区间窄得多。在全部六种结局中,Jeffreys2-最短区间在对数优势比尺度上的平均宽度比其他方法中最窄的区间还要窄 45%。对于仅包含两项研究的元分析,这种精确度提升增加至 112%。

据我们所知,本文提供了首个对元分析中 Jeffreys2 先验的经验评估。我们将来自 Jeffreys2 先验的点估计和区间与 Jeffreys1 先验以及若干表现最佳的参数化、半参数化和非参数化频率学派方法进行了比较。在扩展先前关于 Jeffreys1 先验的模拟研究的基础上,我们额外考虑了不同类型的贝叶斯点估计和区间,并考察了 μ 和 τ 的点估计和区间估计。正如第 4.5 节总结的那样,对于二分类结局的小型元分析,Jeffreys2 在 μ 的点估计和区间估计方面可能优于标准频率学派方法,其效率提升有时相当可观。然而,对于连续结局的小型元分析,带有 HKSJ 区间的标准频率学派方法和带有 Q-轮廓置信区间的 τ 似乎是最佳选择,可避免 Jeffreys2-最短区间在极小型且高异质性的元分析中可能出现的轻微覆盖不足。对于两种结局类型,τ 的最优点估计方法随 τ 本身而变化。当 τ 非常小时,杰弗里斯方法表现保守,因为它们通常会高估 τ。最后,我们证明了 Jeffreys2 先验可以被直接推广到元回归的情形(见补充材料第1节)。

鉴于我们关注的是作为最大似然估计 Firth 校正的杰弗里斯先验的频率学派性质,我们从频率学派角度处理了点估计和区间估计问题。例如,我们的模拟研究考虑了基于固定参数值生成的重复样本所估计的 95% 区间的覆盖概率。相比之下,在贝叶斯推断中,参数被视为从先验分布中随机抽取的,而非固定的量。贝叶斯框架允许对某些类似于“覆盖”的概念进行经验评估,但这需要从先验分布中抽样参数,而非保持参数恒定。⁹,⁶⁸,⁶⁹ 作为附加的复杂因素,执行这些贝叶斯校准检验需要一个合适的先验来进行抽样,而两个杰弗里斯先验均为非正常先验。⁶⁸ Cook 等人(2006)认为,使用非正常先验时评估校准的困难是这类先验的缺点之一。⁶⁸ 鉴于我们对方法的频率学派动机及其频率学派经验性质的兴趣,我们未考虑为元分析提出的众多其他贝叶斯先验(例如,如 Röver (2020)⁹ 所综述的)。将标准频率学派方法与缺乏频率学派解释的贝叶斯方法进行比较具有一定难度,这或许正是许多先前的模拟研究未包含任何贝叶斯方法的原因⁷,¹¹(但也有例外¹⁵⁻¹⁷)。

我们的模拟研究也存在其他局限性。首先,我们只考虑了一种模型误设形式,即总体效应服从指数分布,并发现方法的相对排序基本未受影响。然而,我们并未评估其他形式的误设,例如严重偏离正态性或聚集的总体效应。其次,对于二分类结局的元分析,我们仅考虑了标准的逆方差加权元分析,但基于臂的方法可能具有更好的统计特性。⁶⁶ 另一方面,基于臂的方法可能因试验间不可交换性而引入偏倚,⁷⁰,⁷¹ 而逆方差元分析更容易适应研究调整协变量的可能性,并且在原始论文仅报告有限汇总统计量时可能更可行。此外,评估逆方差元分析能与先前的模拟研究进行更直接的比较。¹¹ 第三,我们使用的两种研究内估计量——对数优势比和 Hedges’ g——都涉及近似,这可能引入轻微的小样本偏倚。此类决策可能非平凡地影响模拟研究的结果,⁷² 我们使用这些估计量是为了确保与先前模拟研究的直接可比性。⁷³ 此外,这两种度量是元分析中最常用的度量之一。⁷³ 未来的工作可以探索无需近似的效应度量(如原始均值差异)的相对表现,尽管这些度量在实践中并不常用。⁷³ 第四,我们仅考虑了两个待估参数 μ 和 τ,但这两者仅能提供随机效应分布的有限概括。其他可能具有信息量的指标包括超过某一有意义效应大小阈值的总体效应比例⁴⁷,⁵⁵,⁷⁴;新总体效应的预测区间⁵⁴,⁷⁵;以及每个研究总体效应的收缩估计。²⁵,⁷⁶ 贝叶斯估计的一个优势是,此类指标可以直接从后验分布中轻松获得;其中一些已在 R 软件包 bayesmeta 中实现。⁹ 未来的模拟研究也可以考虑这些待估参数和区间。第五,我们做出了通常的假设,即研究内标准误的估计误差可忽略不计。我们并未评估这种近似在多大程度上损害了区间估计。已有若干方法被提出以应对这种形式的估计误差;也许未来的工作可以将这些进展纳入杰弗里斯先验中。⁷⁷⁻⁸⁰

我们的工作仍是对 Jeffreys1 和 Jeffreys2 先验的初步探究。我们特别鼓励未来的研究考虑对这些先验的其他推广,除了我们将其推广至元回归的情形之外。例如,如引言所述,我们最近发现,对 μ 和 τ 的杰弗里斯先验在一个涉及严重 p 值挖掘的估计问题中表现良好,该问题需要估计截断分布的参数。³⁴ 某些出版偏倚的选择模型会导致相关分布,这些分布涉及出版概率中的阶跃函数。⁸¹ 这些模型在小型元分析中可能表现不佳,往往对与出版偏倚严重程度相关的参数产生极其宽泛的区间。⁸²,⁸³ 是否通过在 μ、τ 和偏倚参数上使用杰弗里斯先验也能改善这些模型在小型元分析中的表现?其他可能的扩展包括容纳聚集的总体效应。我们期待沿着这些方向开展未来的研究。

原文链接: https://www.cambridge.org/core/services/aop-cambridge-core/content/view/B6F787E5BBF8049D473AB896C65ADB39/S1759287924000024a.pdf/meta-analysis-with-jeffreys-priors-empirical-frequentist-properties.pdf