临床前研究的样本量和边际效益权衡|临床|发生率|受试|样本量|边际效益

出于科学、伦理及商业层面的原因，制药行业在临床前安全性研究中使用动物一直是备受关注的焦点。近年来，该问题受到的审视日益严格——欧盟与美国均明确提出减少或淘汰毒理学研究中动物使用的目标，如《欧盟指令2010/63/EU》及2022年《FDA现代化法案2.0》。其中，减少或取消为满足一定的统计学效力、科学要求及监管审查所需的大型动物（如犬、非人灵长类动物）数量，是当前持续争论的议题（FDA，2022）。

传统观点认为，研究中纳入更多动物能显著提高观察到罕见及极罕见事件的可能性。但为追求研究确定性而持续增加动物数量，最终会变得难以实施、成本过高且违背伦理。因此，核心问题在于：究竟需要多少动物？为研究新增一只动物所带来的收益，是否足以证明其使用的合理性？

临床前毒理学研究通常聚焦于两点：一是检测异常情况（包括预期内与预期外）的存在，二是确定相关指标的变化规律（如药物血浆浓度随时间的变化）。研究目标可界定为各类“事件”。一旦界定事件，便可为其发生概率赋值。该概率通常由事件在受试群体中的发生率决定。本研究侧重探讨发生率与样本量之间的关系，以评估增加研究中动物数量所带来的边际效益，即“更多”未必“更好”。

研究方法

本分析采用二项分布模型，以理解不同样本量下检测不同发生率事件的概率。在实际研究中，发生率通常为估算值，但本研究假设所采用的发生率能够反映实验样本来源群体的真实发生率。新增动物后检测概率的变化，可体现额外受试对象带来的检测边际效益。

研究结果

概率分析方法

临床前研究通常聚焦于检测异常情况（包括预期内与预期外）的存在，并确定相关指标的变化规律（如药物血浆浓度随时间的变化）。本分析将研究目标界定为各类“事件”，核心关注的事件包括：接受药物处理的一只或多只动物出现意外异常，或一只或多只动物的生物标志物超过特定阈值。事件界定后，即可为其发生概率赋值。

假设研究人员关注特定异常X，且已知其在受试对象来源群体中的发生率。若受试对象是该群体中均质且具代表性的样本，则群体中X的发生率等同于单个受试对象出现X的概率。此场景可应用参数为p和N的二项分布模型进行分析：其中p为样本来源群体中X的发生率，N为研究中的受试对象数量。二项分布可计算N个受试对象中恰好有k个出现X的概率。

二项分布公式为：

n为N个独立受试对象中出现X的数量，k的取值范围为0（无对象出现X）至N（所有对象均出现X）。例如，当研究纳入6只动物（N=6），且群体中X的发生率为0.1（p=0.1）时，恰好2只受试对象出现X的概率为：

下表列出了k=0、1、…、6时的所有概率情况：如下表所示，在6个受试对象的研究中，无对象出现X的概率为0.5314，至少1个对象出现X的概率为1–0.5314=0.4686；而在7个受试对象的研究中，上述概率分别为0.4783和1–0.4783=0.5217。

边际分析方法

当发生率p固定时，随着样本量N的增加，检测到至少1次事件的概率会随之上升。但通过增加样本量提高检测概率的需求，与减少样本量以符合伦理、操作及经济要求的需求存在冲突。解决这一冲突的思路是：从较小样本量起步，权衡新增受试对象带来的边际效益与相应的边际成本。

定义q(N,p)为样本量为N、事件发生率为p时，观察到至少1次事件X的二项概率，其数学表达式为：q(N,p)=1–(1–p)ᴺ。结合上表数据，q(6, 0.10)=0.4686，q(7, 0.10)=0.5217，即在6个受试对象的研究中新增1个对象，检测概率的边际提升为0.5217–0.4686=0.0531。

进一步定义边际提升量Δq(N,p)=q(N+1,p)–q(N,p)=p×(1–p)ᴺ。下图展示了N=3至9、p∈[0,1]时的Δq(N,p)值。

若考虑逐步新增多个受试对象的累积效应：若初始样本量为N，新增M个对象带来的总提升为：Σ（i=1至M）p×(1–p)⁽ᴺ⁺ⁱ⁻¹⁾

例如，在3个受试对象的研究中新增2个对象的边际效应为：Σ（i=1至2）p×(1-p)⁽³⁺ⁱ⁻¹⁾=p×(1-p)³+p×(1-p)⁴

直接通过二项式公式计算q(5,p)=1–(1–p)⁵，与逐步累加计算结果一致：Σ（i=1至5）p×(1-p)⁽⁰⁺ⁱ⁻¹⁾=1–(1–p)⁵

边际提升的特征

对于样本量为N、发生率为p的研究，Δq(N,p)=p×(1-p)ᴺ在p∈[0,1]范围内的全局最大值出现在p=1/(1+N)处，将该发生率值记为pₙ。此时函数值为Δq(N,pₙ)=Nᴺ/(1+N)⁽¹⁺ᴺ⁾。值得注意的是，这两个基准值——最大边际提升量及实现该提升所需的发生率——均仅取决于研究样本量。

结合上表中数据，在6个受试对象的研究中新增1个对象，对发生率p=0.10的事件，检测概率的边际提升为0.0531，这与通过公式Δq(6,0.10)=0.1×(1–0.1)⁶=0.0531计算的结果一致。进一步计算可得：p*₆=1/(1+6)=0.1429，Δq(6,0.1429)=6⁶/(1+6)⁷=0.0567。即对于N=6的研究，新增1个受试对象可实现的最大检测概率提升为0.0567，对应的事件发生率为0.1429。

为更具体地阐释上述概念，以食蟹猴心律失常研究（Chui等人，2012）为例：该研究中室性心动过速（VT）、室上性期前收缩（SPC）和室性期前收缩（VPB）的日间发生率分别为1.4%、10.7%和25.4%。以这些发生率为基准，在N=4的临床前研究中，观察到至少1例VT的概率为q(4, 0.014)=1–(1–0.014)⁴=0.055，观察到至少1例SPC和VPB的概率分别为0.364和0.690。当样本量从4增至5时，上述概率分别升至0.068（VT）、0.432（SPC）和0.769（VPB），边际提升量依次为0.013、0.068和0.079。样本量从4翻倍至8时的提升更为显著。

以SPC为例：样本量从4增至5时，观察到至少1例SPC的概率从0.364升至0.432，边际提升0.068。研究负责人需判断：在36%的基线概率基础上，额外增加约6%的检测概率，是否值得纳入1只额外动物。而样本量从4增至8时，问题的权衡维度更复杂：将SPC的检测概率从0.432提升至0.596，是否值得新增4只动物？此类问题的答案不仅取决于事件X的重要性，还需考虑是否可在不新增动物的情况下实现样本量的等效提升（例如，合并两项或多项相同设计的N=4研究数据）。

无论事件发生率如何，随着样本量增加，q(N,p)的边际提升量均会下降。如上图所示，若要达到60%的事件检测概率（观察到至少1次事件）：对于发生率0.20的事件，需4个受试对象；对于发生率0.10的事件，需9个受试对象。

类比Fisher最小显著差异法，可设定50%为检测概率阈值：发生率≥0.12（12%）的事件，在N=6的研究中被观察到的概率≥50%。临床及非临床研究设计中常采用80%作为前瞻性阈值：对于N=6的研究，能以80%概率观察到至少1次事件的最低发生率为0.24（24%）。

最后

本文中，礼来提出了一种基于二项分布的方法，用于探究逐步增加受试对象所产生的影响。该方法的核心目标是通过“边际效益与边际成本权衡”的视角构建样本量问题框架，帮助研究管理者为研究结果设定合理预期。

该方法以“新增受试对象后，观察到至少1次特定事件的概率提升”作为效益衡量标准，并聚焦核心问题：新增1个受试对象所产生的边际成本（操作层面、经济层面、伦理层面），是否匹配其带来的边际效益。

采用了两个核心指标进行衡量：

q(N,p)：指在样本量为N、事件发生率为p的研究中，观察到至少1次目标事件的概率。

Δq(N,p)：指将研究样本量从N增至N+1时，上述概率的提升量。

若设定“观察到至少1次目标事件的预期总概率p*”，通过调整N的取值，可利用q(N,p)确定所需的最小样本量，进而帮助研究者在“可接受的事件观察概率”与“可接受的研究样本量”之间进行权衡决策。

药理毒理开发1-7群已满，想进8群的加微信，备注姓名+企业名称+专长领域。比如王**+A企业+注册或毒理。名额有限，已经在1-7群的朋友就不要跨群了。

另外，新建了GLP毒理专题负责人交流群，只有同时满足GLP机构+专题负责人两个条件的，方可入群。目前不到300人，还有名额。