多个终点指标的顺序检验，来参考Lancet上的一个研究案例！|1型糖尿病|hba1c|lancet|甘精|胰岛素

内容整理改编自：《临床试验精选案例统计学解读》，感谢本书作者陈峰教授的授权。

上期概括地介绍了，本期我们借一篇发表于《LANCET》的文章继续学习上期提及的多个终点指标的顺序检验吧。

首先我们回顾一下，为什么要进行多个终点指标的顺序检验？因为每次假设检验都有风险，特别是当拒绝原假设时，我们会犯第Ⅰ类错误，即假阳性（false positive）。而对同一个问题的回答有多个终点指标、需要多次使用假设检验时，Ⅰ类错误就会膨胀，如进行3次假设检验时，若每次检验水准为0.05，则3次假设检验至少出现一次假阳性的概率会高达14.3%。因此，需要适当的方法将总的第Ⅰ类错误控制在预定的水准下。

那什么是多个终点指标的顺序检验呢？Marcus于1976年首次提岀，当对同一个问题有多个终点指标时，可按指标的重要性排序，进行序贯检验或顺序检验（hierarchical testing procedure），即从最重要的指标开始，依次进行假设检验，当前一个假设检验拒绝H0时，方可进行下一个指标的假设检验；如果前一个假设检验不拒绝H0，则停止所有后续指标的检验，并由此推断后面的指标组间差异均无统计学意义。此时，每个假设检验的检验水准皆为α，总的第一类错误仍控制在α以内。接下来我们通过一篇发表于《LANCET》的研究看一下实际应用吧！

超长效德谷胰岛素与甘精胰岛素治疗1型糖尿病——临床非劣效性试验

研究背景

1型糖尿病属于自身免疫性疾病，由于自身免疫系统破坏产生胰岛素的胰岛β细胞，导致体内胰岛素水平绝对缺乏。1型糖尿病患者须要及时补充基础胰岛素。2005年，一项具有里程碑意义的临床试验阐述了密集的皮下注射基础胰岛素及餐前大剂量胰岛素的治疗方案能够显著改善1型糖尿病患者的血糖控制效果并降低长期并发症风险，并发表在了《The New England Journal of Medicine》上。但是，由于体外补充胰岛素治疗无法完全模仿体内胰岛素代谢的昼夜差别，因此夜间低血糖为常见的不良事件；另外，长效胰岛素无法提供24小时的有效基础剂量，因此临床上急需一种超长效胰岛素以更长效更平稳地维持1型糖尿病患者的胰岛素基础剂量。

试验方案简介

德谷胰岛素(Degludec)是诺和诺德(Novo Nordisk)公司研发的超长效胰岛素，皮下注射该胰岛素可以缓慢释放到血液循环系统，半衰期25小时，持续释放超过40小时。

1.试验目的

评价德谷超长效胰岛素较之甘精长效胰岛素作为基础剂量，治疗1型糖尿病的有效性及安全性。

2.目标人群

成年1型糖尿病患者，入组标准：年龄≥18岁，病程1年以上，接受过基础剂量-餐前剂量治疗方案1年以上，糖化血红蛋白(HbA1c)≤10%，BMI≤35kg/m2

3.研究设计方法

国际多中心、随机平行对照，开放，非劣效设计。

4.随机分组方法

试验组与对照组样本量比例为3：1，采用中心应答系统或网络随机系统进行随机化。试验组使用德谷超长效胰岛素每日一次维持基础剂量，联合餐前使用速效胰岛素；对照组使用甘精胰岛素每日一次维持基础剂量，联合餐前使用速效胰岛素；受试者接受治疗并随访52周。

5.评价指标

1）主要疗效指标

基于ITT(intention-to-treat)数据集，治疗52周后的糖化血红蛋白(HbA1c)下降值，非劣效界值设定为0.4%。

2）次要疗效指标

HbA1c达标率；
空腹血糖(fasting plasma glocuse，FPG)下降值；
餐前自测血糖(self-measured plasma glucose，SMPG)下降值；
生活质量(health-related quality of life，HRQoL)；

3）安全性评价指标

夜间低血糖及总低血糖发生次数。

4）主要统计分析方法

基线情况及不良事件采用均数(标准差)或频数(百分比)进行统计描述。治疗52周后的HbA1c、FPG、SMPG、HRQoL采用协方差分析；治疗期间，组间低血糖发生率之比采用负二项回归估计而得；同时，在胰岛素剂量及血糖控制稳定后(16-52周)，对于低血糖发生率的组间比较进行了事后分析(post-hoc analysis)；上述模型皆调整基线降血糖治疗方案、性别、年龄、地区及基线水平。每天9次的SMPG采用了重复测量模型进行分析。从基线起至首次FPG低于5.0mmol/L的时间，采用Cox模型进行分析。

本研究的主要目的是评价试验组的HbA1c降值是否非劣效于对照组，同时观察试验组在低血糖发作次数、空腹血糖下降值上是否优于对照组。为了控制总I类错误，此处使用了顺序检验法。根据事先设计的检验顺序（HbA1c下降值-低血糖发作次数-FPG下降值）进行逐一检验。

6.结果

HbA1c下降值：HbA1c的下降值(对照-试验)为高优指标，两组HbA1c下降值的差值及95%双侧可信区间为-0.01%（-0.14%, 0.11%）；95%可信区间上限小于非劣效界值0.4%；非劣效性检验的P值小于0.0001，具有统计学意义，认为试验组非劣效于对照组。

低血糖发作次数：夜间低血糖发作的率比（rate ratio，RR）及95%双侧可信区间为0.75（0.59,0.96），P=0.021，夜间低血糖发作次数的组间差异具有统计学意义。

FPG下降值：两组FPG差值及95%双侧可信区间为-0.33（-1.03,0.36）mmol/L，P=0.35，差异无统计学意义。

试想，若之初设计的检验顺序为HbA1c-FPG-低血糖发作次数，则由于FPG的组间差异无统计学意义，我们将没有机会发现德谷胰岛素在低血糖发作次数上的优势。由于假设检验的顺序将直接影响统计结果，因此，指标的检验顺序的确定需要审慎，并在方案中事先明确声明。揭盲后再确定或调整检验顺序的做法是绝对禁止的。

参考文献：Lancet 2012; 379: 1489–97

医咖会面向医生个人、医院/单位、企业提供各种科研服务，包括研究设计、统计分析、EDC系统、科研培训等，详情查看：。快加小咖微信（xys2019ykh）或扫描以下二维码加小咖微信咨询吧。