打开网易新闻 查看精彩图片

系列简介

这是我们一系列原创技术贴,从易到难,每天学习一点。所有内容均为疾控数据分析、科研论文相关,或者说很多和现在的热门监测预警相关,所以我们这个系列就叫“监测预警基础”。

今天是第6节,前面讲了很多的关于算数移动平均的应用,今天算是新的内容,讲一讲指数加权移动平均,系统学习一下究竟什么是指数加权!

在传染病监测预警中,我们常常面临这样的困境:传统的简单移动平均对近期变化的反应不够灵敏,而单周数据又波动太大、容易误报

今天,我们聚焦一种在疾控监测中极具价值的高级工具——指数加权移动平均(The Exponentially Weighted Moving Average,EWMA。它能够更敏锐地捕捉疫情的早期变化,为防控决策赢得宝贵时间。

打开网易新闻 查看精彩图片

EWMA是由美国贝尔实验室的S. W. Roberts博士于1959年提出。原有简单控制图法在处理小波动或趋势变化时存在不足,Roberts博士开始探索新的方法,其在简单移动平均的基础上引入了权重的思想。

核心思想就是距今越近,数据权重越大;距今越远,数据权重越小;随着时间的推移呈指数形式递减。

EWMA的优势就是它会给近期数据更高权重,让监测系统对新变化更敏感,同时对历史数据“逐渐淡忘”,实现动态追踪。

所以EWMA最重要参数就是为权重因子, 0<<1,决定递减速度。

我们通过比较就能发现指数加权移动平均的精髓

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

计算指数加权之后的病例数:

打开网易新闻 查看精彩图片

Zt今天(t时刻)的指数加权之后的病例数,也就是EWMA值

Xt今天的新观测值,原始数据

Z(t-1)昨天的EWMA值,它包含了昨天之前的所有历史信息

λ平滑系数,或者交权重系数、衰减因子,这就是我们要说的的“指数”,它决定了新数据的权重和遗忘的速度,范围在0到1之间。

打开网易新闻 查看精彩图片

额外说明一下,这个初始值,也就是第一个EWMA值,通常直接用第一个数据点或目标的平均值。

此外,从操作方法上看这个方法似乎只是移动指数加权,但其本质是对所有历史数据做的加权平均,它代表一个“位置”或“中心趋势”:就像算术平均值代表一组数据的中心一样,EWMA值代表了近期而且含历史影响过程水平的估计中心,所以叫指数加权移动平均!

打开网易新闻 查看精彩图片

λ的含义:λ是衡量“新数据的权重”
λ越大(接近1,如0.9):当前新数据的权重越大,这意味着模型更信任新数据,更不信任历史记忆。因此,它对新变化反应极快,曲线会紧跟原始数据的波动,灵敏度高,但稳定性差,更容易被噪声干扰。

λ越小(接近0,如0.1):新数据的权重越小,历史记忆的权重越大。这意味着模型更信任长期建立的历史基线,对新数据持保守态度。因此,它对新变化反应温和,曲线非常平滑,能有效过滤短期波动,稳定性强,但灵敏度低,对微小变化反应滞后。

λ大灵敏度高,λ小稳健性强。如果还没有很理解,接下来我们直接上数据看看,不同λ大小画出来的线究竟有啥区别!

我们对以下数据做7日移动平均、λ为0.8的移动加权和λ为0.3的移动加权。

打开网易新闻 查看精彩图片

画出折线图如下

打开网易新闻 查看精彩图片


这样就可以比较清楚的看出

黑色线(日病例数)这是实际每天报告的病例数,是“真相”,但充满噪声,日报告波动、周末效应等。

黄色线(λ=0.8 的 EWMA)它几乎紧贴着黑色线上下起伏。每当黑色线在12月3日、17日出现尖峰,黄线都几乎同步地出现一个陡峭的突起。因为 λ=0.8 赋予了新数据(今日病例数)高达80%的权重,所以它像一个“实时跟踪器”,极度敏感,几乎无滞后但也因此继承了原始数据的大部分波动。它适合用于需要分钟级、小时级反应的高频监控场景,在日数据层面则显得“躁动”。

绿色线(λ=0.3 的 EWMA):它是最平滑、最沉稳的一条线。它完全无视了12月3日的单日小尖峰,对于12月中下旬的整体上升趋势,它呈现出一条清晰、坚定、无抖动的上升斜坡。因为 λ=0.3 赋予新数据的权重仅30%,而70%依赖于历史(昨天的EWMA值)。这使它拥有强大的“惯性”和“记忆力”,稳定性更强,能有效过滤掉偶然的日度波动,只将持续、一致的趋势变化纳入曲线。

红色线(7日移动平均)其平滑度介于黄绿之间,像一个标准的“趋势基线”,7日移动平均的主要问题是会完全忘掉7天之前的数据。它的行为在数学上近似于一个 λ 约等于 0.25 的 EWMA,所以其平滑和稳健的特性与绿线(λ=0.3)相似,但因为是固定窗口的简单平均,在趋势转折时可能略有一点不同。

好了,这些应该明白指数加权移动平均怎么计算以及λ的影响了吧!

那么,λ是怎么确定的呢,这么说吧,λ 是通过“基于目标的计算”得到一个初始建议值,然后通过“手动调整”来最终确定的,它不是凭空试出来的,但也不是一个固定公式能完全算死的。λ的“最终值”确定必须通过结合自身历史数据反复测试、调整,以达到误报和漏报间最佳平衡。

打开网易新闻 查看精彩图片

编辑:普通疾控人 | 审核:诗酒趁年华

文章来源 | 原创

说明 | 转载只为分享,如有侵权联系删除

©版权声明 | 部分信息和图片来自公开网络

转载请注明

再次转载请注明出处

打开网易新闻 查看精彩图片

科普健康 | 宣传疾控

本号为多位疾控机构从业者运营

重点关注国内外健康事件

致力于疾控科普

在做好科普服务大众的同时

做好疾控机构的宣传

让更多的人了解疾控,拥抱健康

欢迎加「小编」微信(cdcjkr126com)

本文具体说明

本文为原创内容,文章为个人理解所学,不涉及疫情信息及内部保密数据,发表的目的为自我总结及给有需求的人士学习使用。如有不妥之处,欢迎联系小编修改、删除。

更多精彩视频,尽在“CDC疾控人”视频号

打开网易新闻 查看精彩图片

转发,点赞,在看,安排一下?6