打开网易新闻 查看精彩图片

系列简介

这是我们一系列原创技术贴,从易到难,每天学习一点。所有内容均为疾控数据分析、科研论文相关,或者说很多和现在的热门监测预警相关,所以我们这个系列就叫“监测预警基础”。

今天是第22节,在前面两节Serfling回归的基础上,讲一讲更为常用实用的调整Serfling回归。

我们上一节讲完Serfling回归模型之后,

大家是不是觉得很简单,豁然开朗。

但最后我们又讲了传统Serfling回归模型的那么多缺陷,你是不是又有些垂头丧气呢?

打开网易新闻 查看精彩图片

好不容易学会了一种方法,居然有这么多缺点,到底还能不能用?

答案是,当然可以。

传统Serfling回归模型我们讲了这几节,不是白讲的,就是为今天打基础。

传统Serfling回归模型有那么多的缺陷,那就会出来高人将其完善,或者叫调整,这就是我们今天要讲的调整Serfling回归模型。

打开网易新闻 查看精彩图片

核心理念:从“主观剔除”到“客观筛选”

传统方法的矛盾在于:要建立一个纯净的“正常”基线,就得先知道哪些是“异常”的流行期数据;而判断“异常”的依据,又恰恰依赖于一个尚未建立的“正常”基线。这形成了一个循环,使得剔除过程非常主观,严重依赖分析者的经验。

调整模型的智慧在于,它不再要求我们“事先”知道答案,而是让数据通过迭代计算,自动告诉我们最优的基线在哪里其核心思想是:“正常”的数据点,应该能被模型很好地拟合;而“异常”的流行点,本身就是模型的“噪声”或“离群值”。

打开网易新闻 查看精彩图片

整个过程就像是一个不断自我优化的算法,其流程图和步骤如下:

第一步:首次尝试,建立基准

不对数据做任何主观剔除,使用全部历史数据进行第一次Serfling回归拟合。这会得到一个初始模型(Model 1),计算其拟合优度R₁²,并得到每个时间点的预测值 Ŷ。

关键操作比较每个点的实际值Y和预测值Ŷ。只保留那些 Y < Ŷ 的数据点。这些点可以理解为模型“预测得比较准、甚至高估了”的点,它们更可能代表“非流行”的基线状态。而Y > Ŷ的点,是模型低估的点,很可能就是流行期的异常高点。

第二步:模型竞赛,择优录用

用上一步筛选出的“较正常”数据,拟合第二个模型(Model 2),得到R₂²。

现在的核心判决就是比较R₁²和R₂²。

如果 R₁² > R₂²这说明把那些“异常高点”留在数据集里,反而让模型整体的解释力更高。这可能意味着疾病的“正常”水平本身就包含了一定的波动,或者所谓的“异常”并不极端。此时,选择第一个模型(用全数据拟合的)作为最终模型,预警阈值就直接用其预测值Ŷ。当实际值Y超过预测值Ŷ时,发出预警。

如果 R₁² < R₂²这说明剔除一批高值点后,模型对剩余数据的拟合更好了,验证了我们“存在异常点”的猜想。但剔除得是否足够“干净”呢?需要进入迭代优化循环

第三步:迭代优化,逼近最优基线

进入一个循环,目标是找到R²最高的模型。从第二轮开始,筛选标准变得更严格:不再与预测值Ŷ比较,而是与预测值的95%置信区间上限Ŷₙ比较。这是一个更宽、更保守的边界。

循环操作在上一轮模型的基础上,只保留 Y < 上一轮模型的95%置信上限Ŷₙ 的数据点,然后用这批“更加纯净”的数据拟合新模型。比较新旧模型的R²。

循环终止条件当最新一次拟合的R²不再提高(即低于或等于前一次模型的R²)时,循环停止。选择R²达到最高的那个模型作为最终模型,并以该模型对应的95%置信上限Ŷₙ作为正式的预警阈值

这个过程可以简单用下面的流程图理解。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

1.客观自动化,可重复性强整个过程中,哪些点被定义为“流行期”数据,是由模型根据R²比较的客观标准自动筛选的,避免了人为划定流行期的主观偏差。任何人用同一套数据、同一个程序,都会得到完全相同的结果。

2.动态确定阈值,逻辑更严谨最终预警阈值(可能是预测值Ŷ,也可能是其95%置信上限Ŷₙ)是根据模型竞赛结果动态决定的,与所选定的最优基线模型严格匹配,逻辑上自洽。

3.提升预警性能通过这种方法找到的基线,能更纯粹地反映疾病的“背景水平”,因此在此基础上设置的预警阈值通常能更早、更灵敏地捕捉到真正的流行起始,同时保持良好的特异性。

4.应对复杂情况当疾病的流行季节发生偏移或病原体变异导致模式改变时,这种数据驱动的方法比“固定剔除每年第X-X周”的传统方法更具适应性。

总结来说,调整Serfling回归模型的核心贡献,是将基线构建从一个依赖先验知识的、主观的“预处理步骤”,转变为一个内生于模型拟合过程的、客观的“优化算法”。它代表着建模思想从“人告诉机器规律是什么”到“让机器从数据中发现最优规律”的重要进步。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

编辑:普通疾控人 | 审核:诗酒趁年华

文章来源 | 原创

说明 | 转载只为分享,如有侵权联系删除

©版权声明 | 部分信息和图片来自公开网络

转载请注明

再次转载请注明出处

打开网易新闻 查看精彩图片

科普健康 | 宣传疾控

本号为多位疾控机构从业者运营

重点关注国内外健康事件

致力于疾控科普

在做好科普服务大众的同时

做好疾控机构的宣传

让更多的人了解疾控,拥抱健康

欢迎加「小编」微信(cdcjkr126com)

本文具体说明

本文为原创内容,文章为个人理解所学,不涉及疫情信息及内部保密数据,发表的目的为自我总结及给有需求的人士学习使用。如有不妥之处,欢迎联系小编修改、删除。

更多精彩视频,尽在“CDC疾控人”视频号

打开网易新闻 查看精彩图片