打开网易新闻 查看精彩图片

在公共卫生监测的漫长时间轴上,我们追踪着疾病的发生与发展。一个核心问题始终萦绕:疾病的流行趋势是铁板一块,还是分阶段、有节奏地演变?一项重大干预措施的实施,是否真的在数据上留下了“印记”?

传统回归模型如同一个“一根筋”的画家,只能用一支画笔(一条直线或曲线)描绘整个趋势。

Joinpoint回归则是一位“识时务”的大师,它能发现数据中的转折,用多支画笔(多条线段)更真实、更精细地还原出疾病流行的动态史诗。本文将从零开始,为你深度解读这位“大师”的工作原理。

J oinpoint回归,又名分段线性回归。其基本思想非常直观:通过引入一个或多个“连接点”,将整个时间序列分割成若干区间,并对每个区间分别进行线性回归拟合。

1998年Kim等首次提出Joinpoint回归模型,该模型的核心思想是根据疾病分布的时间特征建立分段回归,通过若干连接点将研究时间分割成不同区间,并对每个区间进行趋势拟合和优化,进而更详细地评价全局时间范围内不同区间特异性的疾病变化特征。

Joinpoint回归模型由美国国立癌症研究所肿瘤控制与人口科学部开发,在肿瘤发病率和死亡率趋势研究领域得到广泛地应用

打开网易新闻 查看精彩图片

如上图所示,相比于一条直线(全局模型),由Joinpoint生成的折线显然能更贴切地反映数据在不同时期的变化特征。

每一个拐点,都可能对应着一个重要的公共卫生事件或社会变迁。

打开网易新闻 查看精彩图片

Joinpoint回归最常用的模型是对数线性模型,因为它能直接输出具有明确公共卫生意义的指标——年度变化百分比

对于一个包含 k个连接点的模型,其回归方程可表示为:

打开网易新闻 查看精彩图片

让我们来拆解这个看似复杂的方程:

y:因变量通常是发病率、死亡率等指标。

x:自变量,即时间变量(如年份)。

β₀:截距项。

β₁第一个时间区间的斜率(基础斜率)。

τ₁ … τₖ模型需要估计的连接点(即拐点发生的具体时间)。

δ₁ … δₖ斜率的变化量。在连接点 τᵢ之后,斜率将在 β₁的基础上增加 δᵢ。

(x - τᵢ)⁺:这是一个断点函数。当x > τᵢ时,其值为(x - τᵢ);当x ≤ τᵢ时,其值为 0。这个函数是实现分段拟合的关键。

通俗地讲,这个模型就是在说:在第一个连接点 τ₁之前,趋势由 β₁决定;过了 τ₁点,趋势就变成了 (β₁ + δ₁);过了 τ₂点,趋势进一步变为 (β₁ + δ₁ + δ₂),以此类推。

打开网易新闻 查看精彩图片

确定连接点的过程和数量,是Joinpoint回归的统计精髓,绝非主观臆断。

1. 网格搜索法:寻找最优拐点位置

对于可能成为连接点的每一个时间点,模型都会计算其拟合的误差平方和。网格搜索法就像一张精密的网格,系统性地遍历所有可能的分段方案,最终选择那个拟合误差最小的方案,从而确定连接点的最优位置。

2. 置换检验:确定“几个拐点”最合适——防止过度拟合

是不是连接点越多越好?绝非如此!过多的连接点会使模型过于复杂,甚至去拟合数据中的随机噪声(过度拟合)。那么,多少个连接点才是“恰到好处”的呢?

Joinpoint软件默认采用蒙特卡洛置换检验这一稳健的方法来解决这个问题。它的基本流程是:

原假设(H₀):模型有 k个连接点就足够了。

备择假设(H₁)模型需要 k+1个连接点。

检验过程通过数千次(默认4500次)的数据随机置换(模拟),计算出一个P值。如果P值小于显著性水平(如0.05),则拒绝原假设,认为增加一个连接点能显著改善模型拟合效果,然后继续测试增加下一个连接点的必要性。

这个过程反复进行,直到找到那个“增加连接点也不再带来显著改善”的模型为止。这种方法有效避免了人为选择的主观性,保证了结果的客观性。

打开网易新闻 查看精彩图片

模型最终的输出结果中,最具解读价值的是两个指标:

1.第一是年度变化百分比(APC)用于描述每个独立时间段内的趋势快慢。其计算公式由对数线性模型的斜率 β₁推导而来:

如何判断趋势是否显著?看t检验及其P值或者看APC的95%置信区间。如果区间不包含0,则认为该时间段内的上升(APC>0)或下降(APC<0)趋势具有统计学意义。

2.第二是平均年度变化百分比(AAPC)当整个研究期间存在多个趋势段时,我们需要一个指标来概括全局的平均变化速度。

AAPC应运而生,它是以各时间段的长度(权重)对各个区间的APC进行加权平均计算得出的:

打开网易新闻 查看精彩图片

AAPC提供了一个简洁的“整体故事”,便于对不同人群、不同地区或不同时期的长期趋势进行比较。

打开网易新闻 查看精彩图片

1. 主要应用领域

肿瘤流行病学:评估癌症发病/死亡率的长期变化,分析筛查项目、新疗法引入的效果。

传染病监测:追踪疫苗普及后传染病发病率的变化趋势。

公共卫生政策评估:验证控烟、限酒等政策是否在数据上产生“拐点”效应。

2. 重要注意事项

数据要求:时间序列不宜过短,通常需要10年以上的数据,且每个趋势段内至少应有4-5个数据点,否则模型识别能力会减弱。

关联≠因果:Joinpoint回归能提示趋势变化的可能时间点,并将其与历史事件关联,但不能证明因果关系。合理解释必须结合流行病学背景知识。

模型假设:使用对数线性模型时,默认率的对数与时间呈线性关系,在实际分析中需留意这一假设是否合理。

3.总结

Joinpoint回归通过其独特的分段拟合思想和严谨的统计检验,将我们从对趋势的笼统认知,带入到对疾病动态演变的精细化解读阶段。它帮助我们回答的不再仅仅是“总体是升是降”,而是“在什么时候、以何种速度、发生了怎样的转变”

掌握了这些原理,你就拿到了理解Joinpoint回归的钥匙。在下一篇文章中,我们将手把手带你实操美国国家癌症研究所(NCI)的Joinpoint软件,从数据准备、参数设置到结果解读,让你真正将这一强大工具应用于实际工作之中!敬请期待。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

编辑:普通疾控人 | 审核:诗酒趁年华

文章来源 | 原创

说明 | 转载只为分享,如有侵权联系删除

©版权声明 | 部分信息和图片来自公开网络

转载请注明

再次转载请注明出处

打开网易新闻 查看精彩图片

科普健康 | 宣传疾控

本号为多位疾控机构从业者运营

重点关注国内外健康事件

致力于疾控科普

在做好科普服务大众的同时

做好疾控机构的宣传

让更多的人了解疾控,拥抱健康

欢迎加「小编」微信(cdcjkr126com)

本文具体说明

本文为原创内容,文章为个人理解所学,不涉及疫情信息及内部保密数据,发表的目的为自我总结及给有需求的人士学习使用。如有不妥之处,欢迎联系小编修改、删除。

更多精彩视频,尽在“CDC疾控人”视频号

打开网易新闻 查看精彩图片