史美祺教授：统计方法暗藏玄机|中国抗癌协会|史美祺|统计学|肺癌|肿瘤

肿瘤治疗领域的发展日新月异，新的临床研究结果层出不穷。在我们专注于最新临床研究结果时，是否想到这些结果中可能暗藏玄机？对研究结果的解读是否正确？很多时候，奥妙就在于研究设计，今天江苏省肿瘤医院史美琪教授就带我们探索统计策略是如何影响研究结论可靠性的。

本期要点

1. 序贯检验策略与常见的多个指标分别进行独立检验不同，减少了「假阳性」发生的可能性。

2. 案例解析：FLAURA 研究和 Checkmate 025 研究采用序贯多重检验，保证多个研究终点统计学效能一致性，疗效获益切实可信。

专家简介

史美祺教授

主任医师，教授，硕士生导师
江苏省肿瘤医院/江苏省肿瘤防治研究所肿瘤内科肺癌亚专业
专业特长：晚期肿瘤治疗，擅长肺癌的内科治疗，参与过80余项国际国内多中心临床新药研究试验，发表论文100余篇，以第一作者发表的SCI论文影响因子最高分32.976分。获省卫生厅新技术引进二等奖二项。
中国医疗保健国际交流促进会肿瘤内科分会常务委员
中国临床肿瘤学会（CSCO)非小细胞肺癌和小细胞肺癌专家委员会委员
中国抗癌协会肿瘤药物临床研究专业委员会委员
中国抗癌协会肺癌专业委员会内科学组成员
中国医疗保健国际交流促进会胸部肿瘤分会委员
泛长三角胸部肿瘤联盟专业委员会副主席
中国抗癌协会肿瘤标志物专业委员会肺小结节分子标志物协作组常务委员
江苏省研究型医院学会肺结节与肺癌MDT委员会副主任委员
江苏省抗癌协会肺癌专业委员会常务委员
江苏省康复医学会呼吸康复专业委员会常务委员
江苏省医学会肿瘤学分会肺癌学组副组长
江苏省医学会肿瘤化疗与生物治疗分会肺癌学组成员
江苏省医学会呼吸病学分会肺癌学组成员
江苏省抗癌协会鼻咽癌专业委员会委员
南京医学会结核与呼吸系疾病专科分会委员
东西部肺癌协作组织（E-WESTLC）科学委员
国际肺癌协会会员，ASCO会员

临床试验中多个终点可能导致「假阳性」结果的概率增加，序贯检验能够降低「假阳性」可能性

临床试验的主要目的是针对药物研发提出相关的临床问题，通过恰当的试验设计和统计分析科学地回答这些问题 [1] 。临床试验中普遍存在多重性问题[2] ，例如多个终点（如主要终点和关键次要终点）、多组间比较、纵向数据的多个时间点分析、亚组分析等（表 1）。上述多重性问题可能导致I 类错误率（FWER）膨胀，即获得「假阳性」结果的概率增加，需要采用恰当的策略与方法将 FWER 控制在合理水平，需要经过不止一次统计推断（多重检验）对研究结论做出决策 [2] 。

表 1. 临床试验多重性问题概述 [2]

抗肿瘤药物临床试验往往包括多个研究终点，最常用的疗效终点有总生存期（OS）、客观缓解率（ORR）、无进展生存期（PFS）等，通常按照其重要性分为主要终点和次要终点 [1] 。临床研究中会遇到主要终点未达到统计学显著时考察次要终点的情况，这时对次要终点指标进行统计时会增加「假阳性」概率升高的风险[3] 。除此之外，研究中各终点的统计时间往往不同，例如 PFS 数据与 OS 数据在同一节点的数据成熟度不一样，这在中期数据统计时尤为明显，可能会存在 PFS 到达中期统计节点之后较长时间 OS 才能到达中期统计节点，可能出现「假阳性」结果概率升高的情况 [3] 。

解决这个问题需要在制订临床试验方案和统计分析计划时，就采用恰当的策略与方法控制 FWER。序贯检验（Hierarchical Test）是将一项研究的多个终点按照时间、重要性等方面进行分层，当高等级的研究结果获得统计学显著后，才会进行下一步的统计（图 1） [3，4] 。

图 1 序贯多重检验举例及检验过程 [4] ：（a）分层检验；（b）分层序贯检验（回退检验）；（c）Holm 检验；（d）串行把关检验；（e）并行把关检验

例如序贯检验先统计 PFS，后统计 OS，当 PFS 未达到统计学显著时，即宣布研究失败，只有 PFS 达到统计学显著后，再进行 OS 数据统计。这种统计方法能够确保研究中各指标的检验效能一致，降低「假阳性」出现的可能性，并且可以节约研究时间，同时避免患者在无获益的情况下继续用药，因此越来越多的临床研究采用序贯检验的策略 [3] 。下面我们从两个抗肿瘤药物临床试验的案例为大家解读序贯检验是如何影响研究结果可靠性的。

案例1：

FLAURA 研究采用序贯检验，保证主要终点（OS）、次要终点（PFS）、关键次要终点（CNS PFS）统计学效能一致性，关键次要终点获益仍然切实可信。

FLAURA 研究 [5] 是一项随机、双盲、国际多中心的 III 期临床研究，共纳入 556 名既往未接受任何治疗的局部晚期或转移性 EGFRm NSCLC 患者，旨在评价奥希替尼与一代/二代 EGFR-TKI 方案的有效性与安全性。主要研究终点为 PFS，次要研究终点为 OS ，关键次要终点为中枢神经系统 PFS（CNS PFS）。不同于常见的多个终点指标单独进行统计分析的研究，FLAURA 研究采用序贯多重检验策略，首先考察 PFS 获益，然后是 OS 获益，最后再考察 CNS PFS 获益（图 2）。因此，FLAURA 研究首先明确在患者整体 PFS 和 OS 方面优于对照组（一代/二代 EGFR-TKIs），在此基础上，CNS PFS 方面优于对照组。换句话说，奥希替尼的 CNS PFS 疗效是在实现了患者 PFS、OS 均获益的情况下获得，从而 CNS 获益更加切实可信。

图2 FLAURA 研究的统计计划分析方法 [5]

下面我们来一步步看 FLAURA 研究如何实现 PFS、OS、CNS PFS 三重获益：

●PFS 方面[5] ，奥希替尼组中位 PFS 显著优于对照组（一/二代 EGFR-TKIs）：18.9 个月 vs. 10.2 个月（HR = 0.46，95% CI 0.37～0.57；P < 0.0001），即将患者无进展或死亡风险降低 54%（图 3）。

图3 中位 PFS：奥希替尼组 vs. 对照组 [5]

●OS 方面[6] ，奥希替尼组中位 OS 显著优于对照组：38.6 个月 vs. 31.8 个月（HR = 0.80，95.05% CI 0.64～1.00；P = 0.046），即将患者死亡风险降低 20%（图 4）。

图4 中位 OS：奥希替尼组 vs. 对照组 [6]

●CNS PFS 方面[7] ，在 cFAS（基线有可测量/不可测量的 CNS 病灶）患者中，奥希替尼组 CNS PFS 为 NR vs.对照组 13.9 m（HR = 0.48，95% CI 0.26～0.86；P = 0.014）（图 5）。奥希替尼组出现新发 CNS 病灶的比例低于对照组（12% vs. 30%）。cFAS 患者中 CNS ORR 达到 66%，CR 达到 41%。在 cEFR（基线有至少一个可测量 CNS 病灶）患者中，CNS ORR 高达 91%，CR 达到 23%。

图5 CNS PFS：奥希替尼 vs. 对照组 [7]

由此我们可以看到，FLAURA 研究在序贯检验的前提下，使奥希替尼对比一代 EGFR-TKI在三个关键研究终点 PFS、OS、CNS PFS 均通过统计学检验，有显著的统计学及临床意义（图 6）。保证了 PFS 和 OS 的获益，同时仍得出 CNS 获益的结果，奥希替尼也是目前唯一*具有 PFS、OS、CNS PFS 同时显著获益的 EGFR-TKI，其延缓基线伴 CNS 转移患者的 CNS 进展、预防新发 CNS 转移的疗效切实可信。

图6 研究关键研究终点结果 [5-7]

案例 2：

Checkmate 025 研究采用序贯检验，保证主要终点（OS）、次要终点（PFS、ORR）统计学效能一致性，疗效获益切实可信。

Checkmate 025 研究[8]是一项针对晚期肾癌患者开展的 III 期临床研究，纳入了 821 例既往接受过一线或二线抗血管生成治疗的晚期肾透明细胞癌患者，比较纳武利尤单抗和依维莫司 ≥ 二线治疗肾细胞癌的疗效和安全性。主要终点是 OS，次要终点包括 PFS 和 ORR。研究采用了分层序贯检验模式，即 OS 达到终点后，分别对 PFS 和 ORR 进行序贯检验，保证了 PFS 和 ORR 与 OS 具有统计学效能的一致性（图 7）。

图7 Checkmate 025 研究的统计计划分析方法 [8]

接下来我们看一下 Checkmate 025 研究的结果，中位随访 72 个月的结果显示 [9] ：

OS 方面：纳武利尤单抗组中位 OS 显著优于依维莫司组：25.8 个月 vs. 19.7 个月（HR = 0.73，95% CI 0.62～0.85；P < 0.001）（图 8）。

图 8 中位 OS：纳武利尤单抗组 vs 依维莫司组 [9]

PFS 与 ORR 方面：虽然 6 个月时两组中位 PFS 相似，但 PFS 长期随访结果有利于纳武利尤单抗（HR = 0.84，95% CI，0.72～0.99；P = 0.0331）（图 9）。纳武利尤单抗组 ORR 显著优于依维莫司组：23% vs. 4%，P < 0.001。

图 9 中位 PFS：纳武利尤单抗组 vs 依维莫司组[9]

由此我们可以看到，Checkmate 025 研究在序贯检验的前提下，使三个关键研究终点 OS、PFS 和 ORR 均通过统计学检验，有显著的统计学及临床意义（图 10）。保证了 OS 的获益，同时仍得出 PFS 和 ORR 获益的结果，使纳武利尤单抗治疗晚期肾细胞癌的获益切实可信。

图 10 研究关键研究终点结果 [9]

总结

越来越多的临床研究采用不同于传统方式的统计策略，序贯检验是具有更低产生 Ⅰ 类错误可能性的统计策略，越来越被研究人员所接受。抗肿瘤药物临床试验常包括多个研究终点，序贯检验能够降低「假阳性」可能性，保证包括主要终点、次要终点在内的多个研究终点统计学效能一致性，进而保证研究结果的切实可信。

参考文献：

[1]. 《抗肿瘤药物临床试验统计学设计指导原则（试行）》.

[2]. 《药物临床试验多重性问题指导原则（试行）》.

[3]. Gou J, Xi D. Hierarchical testing of a primary and a secondary endpoint in a group sequential design with different information times[J]. Statistics in Biopharmaceutical Research. 2019;11(4):398-406.

[4]. Wang DL, Li YH, Wang X, et al. Overview of multiple testing methodology and recent development in clinical trials. Contemporary Clinical Trials, 2015; 45: 13-20.

[5]. Soria JC, Ohe Y, Vansteenkiste J, et al. Osimertinib in Untreated EGFR-Mutated Advanced Non-Small-Cell Lung Cancer. N Engl J Med. 2018. 378(2): 113-125.

[6]. Ramalingam SS, Vansteenkiste J, Planchard D, et al. Overall Survival with Osimertinib in Untreated, EGFR-Mutated Advanced NSCLC. N Engl J Med. 2020. 382(1): 41-50.

[7]. Reungwetwattana T, Nakagawa K, Cho BC, et al. CNS Response to Osimertinib Versus Standard Epidermal Growth Factor Receptor Tyrosine Kinase Inhibitors in Patients With Untreated EGFR-Mutated Advanced Non-Small-Cell Lung Cancer. J Clin Oncol. 2018 : JCO2018783118.

[8]. Motzer RJ, Escudier B, McDermott DF, et al. Nivolumab versus Everolimus in Advanced Renal-Cell Carcinoma. N Engl J Med. 2015 Nov 5;373(19):1803-13.

[9]. Motzer RJ, Escudier B, George S, et al. Nivolumab versus everolimus in patients with advanced renal cell carcinoma: Updated results with long-term follow-up of the randomized, open-label, phase 3 CheckMate 025 trial. Cancer. 2020 Sep 15;126(18):4156-4167.

*截止日期：2022-8-9

审批号：CN-100200 有效期：2023-8-9

声明：本材料由阿斯利康提供支持，仅供医疗卫生专业人士参考。

审校：小园

排版：小园

执行：游士