NEJM综述 | 非劣效性试验：方法和挑战|优效性|安慰剂|对照组|界值

非劣效性临床试验已成为评估药物、器械、生物制剂和其他疗法的主要工具。在有效疗法已确立的情况下，研究中采用安慰剂对照或无治疗对照是不符合伦理的。许多疾病已经存在有效疗法，它们是新疗法需要超越的标杆。一些新疗法产生了更好疗效，而另外一些疗法可能在疗效相似的情况下更为安全、便捷或低价。

设计非劣效性试验的初衷是寻找好的替代疗法（即与既定疗法疗效相近的新疗法），此外，非劣效性试验方法也用于评估有效疗法是否足够安全。近年，评估非劣效性随机试验数量大幅增加，而且这些试验涵盖了多个内、外学科和多种治疗策略。

本文提供了用于思考非劣效性研究特征（包括易犯错误）的框架。我们以心血管治疗试验为例，但非劣效性试验可在许多领域进行。这些试验包括为使新疗法获得监管机构批准而设计的研究，以及与既定疗法相比较的试验。此外，我们还思考了将非劣效性概念和设计应用在临床研究的新兴领域。“安慰剂”一词被用来表示真正的安慰剂对照，或真正的安慰剂对照无法实施情况下所采用的无治疗对照。

研究框架

在设计和分析阶段，研究中的非劣效性评估比优效性评估更加复杂。虽然在统计学上不可能证明两种疗法完全相同，但在给定的置信度下，以及在可接受的较小差异范围内，有可能确定新疗法并不比对照疗法的效果差。这是随机、非劣效性试验的前提。

在非劣效性试验中，无效假设是指就主要终点而言，试验疗法比阳性对照疗法差，且两者差异达到预设界值，而在预设的统计显著性水平拒绝无效假设则可得出非劣效性的结论。图1说明了所使用的统计学评估方法，以及旨在证明非劣效性的试验中五种可能的结果。如果研究结果的置信区间不包括预设界值（即非劣效性界值，也被称为“δ”），则说明试验治疗不劣于活性对照疗法。尽管有时监管机构允许使用95%单侧检验置信区间进行医疗设备的评估，但一般而言，单侧检验采用97.5%置信区间，双侧检验采用95%置信区间。为简单起见，图1中的置信区间都是双侧。

图1. 非劣效性试验中的假设检验

在非劣效性试验中，无效假设是指就主要终点而言，新疗法劣于活性对照，差异达到预设界值，而在预设的统计显著性水平下，拒绝无效假设则可得出非劣效性结论。在此示例中，关注的结局是临床非期望事件（例如心肌梗死）的比例（P）。X轴显示比例（试验治疗 test treatment 或PT vs. 活性对照 active control 或PC）的比率。非劣效性检验的统计程序是在某一α统计学显著性水平进行1次单侧检验。相应地，可按100×（1－2α）计算出置信区间。对于本示例，如果相对危险度PT/PC的置信区间上限小于界值（图示为1.2的比率），则以97.5%的置信度，我们可以说活性对照优于试验治疗的程度不超过该界值，即试验治疗不劣于活性对照。该设计有五个可能的结果（为简单起见，以双侧95%置信区间示例）。若PT/PC的置信区间小于1，则试验治疗具有非劣效性且有优效性，但置信区间未跨过1不是做出非劣效性结论所必需的。若PT/PC比率的置信区间不超过预设界值，则试验治疗具有非劣效性。若通过了非劣效性统计检验，但是置信区间大于1，则出现自相矛盾的情况，即试验治疗同时具有非劣效性及劣效性。若置信区间同时跨过了非劣效性界值和1，则结论不明（inconclusive），提示对比的检验功效不足。若置信区间未包含1，则试验治疗具有劣效性，活性对照的疗效更优。

必备特征

非劣效性研究设计的下列主要组成部分见表1。第一，非劣效性试验的基础是一项或多项证明活性对照优于安慰剂的既往随机试验。第二，选择试验终点指标，并根据以往经验推导活性对照的预期治疗效果。

表1. 非劣效性试验的特征

第三，在设计阶段确定可接受的非劣效性界值，即活性疗法与安慰剂相比，临床上可接受的疗效最小比例。界值不能大于安慰剂对照试验中活性疗法的预期最小效应量。

界值可通过各种统计方法得出。一种常见方法是根据既往研究中活性比较药的效应估值来确定一个固定界值。在足够的置信度下，如果结果排除了对于特定界值而言，试验治疗劣于活性对照的可能性，则非劣效性研究取得成功。在固定界值的方法中，比较活性对照与安慰剂的既往研究被用于确定单一固定界值。美国食品药品管理局（FDA）的指南中建议，数值应为单项安慰剂对照试验或此类试验的荟萃分析中，疗效的95%置信区间下界，但非劣效性试验有时设计为达到活性对照疗效的特定比例。综合法是固定界值法的替代方法，确定界值时与固定界值法采用的方法相同，但同时考虑了活性对照与安慰剂相比，治疗效果的变异性。

第四，必须慎重选择比较药。研究设计必须能有效区分有效和无效疗法，即保证检测的灵敏度。更具体地说，我们想要确定若安慰剂组被纳入，则研究设计和实施可显示出活性对照组优于安慰剂组。这可能难以在研究中证明，因为伦理原因，试验很少包括安慰剂组。

然而，这导致了非劣效性试验的第五个必备特征，即新试验的设计需确定活性对照在试验条件下是有效的，这被称为“恒常性假设（constancy assumption）”。在非劣效性试验中必须使用适当的度量标准。因为相对和绝对效应之间的选择会影响检验功效和效度，所以在研究的设计阶段必须仔细考虑这一选择。

图1采用相对危险度作为统计评估的度量标准。但还有其他评估比例的方法，如计算比值比、风险比（在事件发生时间研究中）或绝对危险度差异。例如，如果对照组的事件比例（不良结局）是PC，治疗组的事件比例是PT，一项研究中PC和PT的相应值分别为0.20和0.40，另一项研究中PC和PT的相应值分别为0.10和0.20，则两者的相对危险度PC/PT都为0.5，然而危险度差异分别为20个百分点和10个百分点。

在最近一项试验中，研究者评估了放置冠状动脉支架后缩短双联抗血小板治疗疗程的非劣效性，研究的目标人群转变为低危人群，结果发现绝对差异和相对差异之间有明显差异，难以就非劣效性得出定论。复合主要终点（包括死亡、心肌梗死、支架内血栓形成、卒中或大出血）的预期发生率为10%，危险度差异的非劣效性界值为2个百分点（相当于20%的相对危险度），而对照组由于纳入比预期更为低危的人群以及提前终止研究，其观察到的终点发生率为1.6%。从统计学角度看，非劣效性检验中置信区间上限并未超过界值2个百分点（组间差异的单侧95%置信区间上限为0.5%，P＜0.001），但是，2个百分点的非劣效性界值意味着治疗组中可接受的不良事件发生率为对照组3倍。因此，即使非劣效性的统计检验P值显著，研究者仍需谨慎，不可得出试验治疗具有非劣效性的结论。

非劣效性试验的第六个必备特征是认真实施试验和确认结局。由于失访、治疗跨组或依从性不佳，或者结局难以测量或较为主观等原因，可导致结局未能全面或准确确认，进而可能会错误地认为试验治疗有类似疗效。

最后，非劣效性设计的统计学分析可能与优效性研究不同。优效性研究使用意向性治疗分析（接受试验治疗的所有患者都包括在优效性统计分析中，即使只接受过1剂治疗）。然而，在非劣效性研究中，如果一些患者没有接受指定治疗的全部疗程，则意向性治疗分析可能会缩小治疗之间的差异，产生关于非劣效性的假阳性结论，进而导致偏倚。在某些情况下，采用符合方案分析，排除不符合纳入标准或未接受随机分组的患者，可能更适合非劣效性试验。然而，符合方案分析纳入的参与者可能较少，可能产生随机化后偏倚。一般来说，意向性治疗和符合方案分析的数据集均重要。我们建议分析两个数据集，并检查结果的一致性。此外，在得出关于非劣效性的结论之前，可能需要仔细考虑和进行敏感性分析。

特殊挑战

非劣效性设计面临的几个挑战值得一提。即使没有安慰剂组，试验治疗和安慰剂之间的隐性优效性比较也是非劣效性试验的基础。包含安慰剂组的三组对照研究可提供此两者间的明确比较，但实际条件和伦理往往不允许随机分配患者接受安慰剂，所以必须依赖历史数据进行安慰剂比较。在某些情况下，安慰剂治疗的历史数据缺乏。在这些情况下，则用疗效较差的治疗代替安慰剂来确定活性对照组的预期获益，并基于此确定非劣效性界值。

在预防卒中的研究中，阿司匹林一直是华法林（活性对照）的比较药物，并且华法林与阿司匹林的比较试验可提供治疗效果的预测值，用来设定新型口服抗凝剂的非劣效性界值。在冠状动脉支架研究中，裸金属支架作为已批准的药物洗脱支架（活性对照）的参照物，用于评估新新型药物洗脱支架的疗效。在治疗策略上，如冠状动脉左主干病变经皮冠状动脉介入治疗（PCI）和瓣膜性心脏病经导管治疗均与外科手术进行比较，而接受药物治疗的患者则作为外科手术患者的参照组。抗感染治疗试验是试验中不设立安慰剂对照的一个例子。最后，在设定目标样本量时，非劣效性界值不应该仅仅通过可行样本量“反向推算出”。这样做虽然可以不跨越所选择的界值，但并不一定能够得出有临床意义的非劣效性结论。

不能根据优效性研究中治疗之间无显著差异即确定非劣效性。样本量较小时检验功效不足，优效性试验可能无法拒绝无效假设，此时不能用于说明治疗间无差异。俗话说，“无证据证明存在不代表有证据证明不存在”。例如，多项统计学功效较低的试验（＜800名参与者的研究）显示，链激酶与安慰剂在治疗急性心肌梗死方面无显著差异，但功效足够高的试验（＞17,000名参与者）显示，链激酶在减少血管性疾病死亡率方面具有优势。虽然荟萃分析可以将这些样本量不足的研究进行综合分析，但异质性和统计偏倚可使结果难以解读。因此，荟萃分析相对于具有足够样本量的随机试验来说是一个很差的替代方案。

参考文献：

Mauri L, D'Agostino RB, Sr. Challenges in the design and interpretation of noninferiority trials. N Engl J Med 2017;377:1357-1367.