Differential Privacy with Dependent Data

具有依赖数据的差分隐私

https://arxiv.org/pdf/2511.18583

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

摘要
依赖数据是社会科学和健康科学中许多统计研究的基础,而这些研究通常涉及敏感或私密信息。差分隐私(DP),特别是用户级差分隐私(user-level DP),为处理依赖数据提供了一种自然的隐私需求形式化方法,其中每个个体向数据集中提供多个观测值。然而,例如通过重复测量引入的依赖性,对现有在DP约束下的统计理论构成了挑战。在独立同分布(i.i.d.)设定下,带噪声的Winsorized均值估计器已被证明在标准(项级)和用户级DP下对均值 μ ∈ ℝᵈ 的估计具有极小极大最优性。然而,其在潜在依赖观测值上的行为此前尚未被研究。我们填补了这一空白,证明Winsorized均值估计器在弱依赖条件下同样适用于有界和无界数据,并可获得类似于其i.i.d.情形下的渐近与有限样本保证。为此,我们通过观测值联合分布上的对数Sobolev不等式(log-Sobolev inequalities)来形式化依赖结构。这使我们能够将Karwa与Vadhan(2018)提出的稳定直方图方法推广至非i.i.d.设定,并用于估计Winsorized估计器的私有投影区间。我们所提出的项级均值估计器的保证可进一步推广至用户级均值估计,并通过随机响应直方图迁移至本地模型(local model)。以这些均值估计器为基础,我们进一步将其扩展至随机效应模型、纵向线性回归和非参数回归。因此,本工作构成了对依赖数据下差分隐私系统性研究的第一步。

1 引言
差分隐私(DP)工具已在工业界和政府机构的众多应用中大规模部署(Erlingsson等,2014;Ding等,2017;Tang等,2017;Garfinkel等,2019)。标准DP框架旨在发布统计量的同时保护单个数据点,其假设每个个体仅向大小为n的数据集贡献一个数据点。我们将遵循文献,称这种标准方法为项级DP(item-level DP)。在此框架下,隐私通过发布经过校准的随机化输出来实现,使得任何单个数据点对输出计算的影响被随机化所掩盖(Dwork等,2006;Dwork与Roth,2014)。

近期被称为用户级差分隐私(user-level differential privacy, uDP)的一系列工作研究了每个用户向数据集贡献多个观测值的情形(Liu等,2020;Levy等,2021;Narayanan等,2022;Acharya等,2023;Bassily与Sun,2023;Ghazi等,2023;Asi与Liu,2024)。为简化起见,我们假设每位用户贡献T个数据点。此时,自然目标是保护某用户贡献的所有T个数据点。挑战在于,标准DP技术仅保护单个数据点,若直接应用,要么导致隐私保证随用户贡献点数增加而退化,要么在利用DP的群组性质(group property)构建算法时,为获得正确隐私保证而添加过多噪声(Dwork与Roth,2014,定理2.2)。

本文引入了适用于依赖数据的DP工具,特别关注纵向数据(也常称为面板数据),即在一段时间内从相同个体收集的多个依赖观测值。纵向数据在社会科学和医学应用中极为重要(Diggle,2002;Baltagi,2008;Fitzmaurice等,2012;Hsiao,2022)。尽管用户级DP似乎是纵向数据的自然隐私定义,但这一联系在文献中尚未被充分挖掘。事实上,在差分隐私约束下对依赖数据建模的研究相对较少。

我们的工作主要受Karwa与Vadhan(2018)的启发,他们的算法构成了我们所有方法的基础,同时也受到新兴uDP领域近期工作的激励,特别是Levy等(2021)和Kent等(2024)的研究。

我们的主要贡献可概括为以下关键点:

(a) 依赖且无界数据的DP:我们的工作似乎是首个研究多个DP算法在依赖观测值上表现的工作。具体而言,我们引入了“对数Sobolev依赖”(log-Sobolev dependence)——一种通过对观测值联合分布施加对数Sobolev不等式来刻画依赖性的概念,用以替代典型的i.i.d.假设。我们方法的核心是一个受Karwa与Vadhan(2018)启发的Winsorized均值估计算法,该算法最初为高斯i.i.d.数据设计。在额外处理依赖性的同时,我们的算法继承了其两项优点:支持无界观测值的估计,且无需事先了解未知均值。

(b) 纵向数据的DP:我们提出了多种适用于依赖数据(尤其是纵向数据)的用户级DP估计算法,允许用户之间及时间维度上的依赖。这显著偏离了绝大多数DP算法理论分析所依赖的i.i.d.假设,即便在uDP设定下亦如此(Levy等,2021;Kent等,2024;Agarwal等,2025)。在对数Sobolev依赖条件下,我们的算法被证明能达到最优的有限样本误差率。该条件足够通用,涵盖了一系列此前文献中未被研究的有趣统计模型,包括非参数回归、简单随机效应模型,以及具有依赖误差项的纵向线性回归。

(c) 直方图学习:我们利用Bobkov与Götze(2010)提出的Dvoretzky–Kiefer–Wolfowitz型不等式,将Vadhan(2017)的直方图估计器分析扩展至对数Sobolev依赖数据。这是构建我们均值估计的关键中间结果,因为在Winsorized均值估计器中,需首先粗略估计一个长度为O(log n)的私有投影区间的中点,而该步骤调用了私有直方图。这一微小调整显著拓展了Vadhan(2017)所引入技术的适用范围,使其不仅限于i.i.d.高斯数据,甚至在项级设定下也能处理依赖数据。

(d) 项级与用户级DP:一个概念上有趣的贡献在于阐明了所有现有uDP算法均基于某个已知的项级DP算法构建。这一联系使我们能更深入地理解现有的期望意义下的极小极大DP与uDP下界。为此,我们对Karwa–Vadhan型投影估计器进行了期望分析,该分析即使对i.i.d.高斯数据而言似乎也是新颖的。该界表明,uDP中一个不可能性结果(即当每位用户的观测数T → ∞时无法学习,Levy等,2021,定理8)与项级设定下当方差过快趋于零时的学习不可能性相关联。由此,我们识别出现有项级与用户级下界之间的脱节(Cai等,2021;Levy等,2021)。

(e) 本地DP(Local DP):尽管本文主要聚焦于假设存在可信数据管理者的中心化DP模型,我们将所有结果扩展至本地DP模型——在此模型中,中央服务器不可信,隐私机制在数据收集阶段即被强制执行(Kasiviswanathan等,2011;Duchi等,2018)。具体而言,我们展示了如何将中心化DP算法中的直方图替换为其本地对应版本,从而在本地模型下获得近似最优的估计器,同时保留前述所有优良性质。这意味着,在用户级本地DP(uLDP)框架下,我们仍可处理无界观测值,以及用户间及其观测值之间的依赖关系。

1.1 相关工作

对均值、中位数等位置参数的私有估计是差分隐私(DP)文献中频繁研究的核心统计问题。首个DP均值估计器可追溯至Dwork等(2006)中对带噪声求和的应用,而Dwork与Lei(2009)则获得了私有截尾均值和中位数估计器的渐近保证。Smith(2011)似乎是最早提出并研究一种带噪声的两阶段Winsorized均值估计器渐近性质的工作,该估计器与我们所考虑的类似:即首先粗略估计均值,将数据投影到围绕该估计值的一个区间内,然后添加与所得有限敏感度相匹配的噪声以实现隐私保护。Bun等(2013)、Steinke与Ullman(2017)、Foygel Barber与Duchi(2014)、Bun与Steinke(2019)以及Cai等(2021)推导了均值估计的下界。特别是,Cai等(2021)针对一种缺乏数据驱动投影区间的Winsorized均值估计器,给出了期望意义下的极小极大上下界,其收敛速率与Steinke与Ullman(2017)的结果一致。相比之下,Karwa与Vadhan(2018)开启了一条研究Winsorized均值估计器“概率意义下”(in-probability)保证的新方向,该方法既不要求观测值有界,也不要求均值有界。他们的算法基于一个(ε, δ)-DP的“稳定”直方图估计器,用于为一维高斯分布的均值寻找一个私有置信区间。随后,Kamath等(2019)将该方法推广至协方差矩阵未知的多元高斯分布,Kamath等(2020)进一步将其扩展至重尾分布。

我们注意到,还有大量其他工作研究私有均值和中位数估计问题,尤其致力于避免假设样本空间有界,并在许多情况下与统计学界关于鲁棒性的研究建立联系(Avella-Medina与Brunel,2020;Avella-Medina,2020,2021;Avella-Medina等,2023;Li等,2023;Yu等,2024;Ramsay等,2022),以及计算机科学领域的相关研究(Tzamos等,2020;Liu等,2021,2022;Hopkins等,2023;Alabi等,2023;Chhor与Sentenac,2023)。这些构造与我们的工作关联较弱。

用户级DP最早由McMahan等(2017)提出,用于保障联邦学习中语言模型训练的隐私。此后,该定义被推广至该背景下的其他工作(Wang等,2019;Augenstein等,2020)以及SQL数据库中的用户级私有数据聚合(Wilson等,2020)。在经验风险最小化背景下,Amin等(2019)、Epasto等(2020)、Levy等(2021)、Narayanan等(2022)以及Kent等(2024)研究了用户数量n、每位用户的观测数T与实现用户级隐私所需噪声量之间的相互作用,并得出了相应的统计结果。近期,Agarwal等(2025)和Zhao等(2024)在中心化模型中首次提出了适用于独立用户且具有独立无界观测值的用户级均值估计器。

本地差分隐私(local differential privacy)下的估计问题已在广泛的统计任务中被探索,包括均值估计、密度估计、非参数回归和假设检验等(仅举几例:Wasserman与Zhou,2010;Duchi等,2018;Gaboardi与Rogers,2018;Butucea等,2020;Berrett与Butucea,2020;Berrett等,2021;Sart,2023;Pensia等,2024)。特别是,用户级本地差分隐私近期在Girgis等(2022)、Acharya等(2023)以及Kent等(2024)的研究中得到了探讨。

最后,我们注意到已有一些初步文献研究具有特定时间结构的差分隐私问题。这包括变点检测(Zhang等,2021;Berrett与Yu,2021;Li等,2022)和多臂老虎机(Mishra与Thakurta,2015;Sajed与Sheffet,2019;Hu与Hegde,2022;Ou等,2024)等问题,这些问题通常在项级DP和独立观测假设下进行研究。此外,也有一些关于时间序列的DP初步工作,同样从项级DP视角切入。例如,Zhang等(2022)考虑了具有序列AR(1)结构的参数化方法,Amorino等(2025)研究了扩散过程,而Kroll(2024)及Butucea等(2025)则探讨了非参数谱密度估计问题。

2 预备知识
我们首先介绍本文通篇所使用的记号,并给出差分隐私与对数Sobolev不等式的基本背景。在本节末尾,我们将引入用于建模依赖数据(尤其是纵向数据)的主要依赖性假设。

2.1 记号

打开网易新闻 查看精彩图片

2.2 差分隐私

存在若干种相互竞争的差分隐私(DP)定义(参见 Mironov (2017);Dong 等 (2022);Dwork 和 Rothblum (2016);Bun 和 Steinke (2016);Dwork 等 (2006)),但我们将采用最常用的定义——由 Dwork 等 (2006) 引入的 (ε, δ)-DP。在下文的定义中,我们用 (ℝᵖ) 表示 ℝᵖ 上的 Borel σ-代数。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

上述拉普拉斯机制以及Dwork和Roth(2014)中提出的其他机制构成了差分隐私(DP)的基础。它们可以通过组合简单DP算法的输出,构建出更复杂的DP算法。一个输出多个DP算法组合结果的算法,其有效隐私预算可通过以下组合定理进行量化。

打开网易新闻 查看精彩图片

2.3 对数Sobolev不等式

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

建立对数Sobolev不等式的一种通用方法是通过其与概率测度密度(相对于Lebesgue测度)的曲率之间的关系。具体而言,强对数凹性(strong log-concavity)通过Bakry–Émery准则可直接推出对数Sobolev不等式,该准则见附录A;参见定理A.1。

以下的Lipschitz集中不等式将成为我们在依赖性条件下推导算法的主要概率工具。

打开网易新闻 查看精彩图片

2.4 对数Sobolev依赖性

据我们所知,现有所有针对项级差分隐私估计器的理论分析均依赖于简化版的独立同分布(i.i.d.)假设,该假设与我们接下来将陈述的假设类似或更强。

打开网易新闻 查看精彩图片

请注意,假设2.7并未像差分隐私文献中常见的那样,要求数据具有已知的有界定义域。我们将看到,我们的估计器允许这种放宽后的i.i.d.假设,并表明对现有方法稍作修改即可在无界数据域下表现良好。这是本分析的一个有趣的副产品。然而,我们的主要贡献在于明确允许数据存在依赖性。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3 直方图估计器

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3.1 隐私性与效用性保证

我们注意到,尽管算法2的隐私性在文献中已有记载,但为完整性起见,我们在连续设定下提供了该结果的证明;参见引理C.1。事实上,这一情形并未被Vadhan(2017)的定理7.3.5正式涵盖。

Karwa与Vadhan(2018)似乎是最早将稳定直方图用于差分隐私均值估计的作者。更具体地说,他们利用这一思想对独立同分布高斯随机变量的均值和方差进行私有估计。他们的结果依赖于以下直方图效用性保证。

打开网易新闻 查看精彩图片

我们对基于稳定性的直方图估计器的分析,将Karwa和Vadhan(2018)的工作推广至依赖观测值的情形。具体而言,我们沿用其证明策略,将他们的引理2.3扩展至满足对数Sobolev不等式的观测值 X n ∈ R n 。这导出了以下引理3.2,其证明见附录C。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

3.2 寻找私有的数据驱动投影区间

我们直方图学习算法的主要应用是找到数据驱动的投影区间,供我们的主均值估计器使用。其思路是寻找一个缓慢发散的区间,以高概率包含所有观测值。这一方法遵循Karwa和Vadhan(2018)的设计蓝图。投影区间将由包含大部分质量的区间及其两个相邻区间组成。这一简单算法属于更广泛的私有中点算法家族,此类算法广泛应用于中心化与本地化的项级及用户级DP均值估计文献中(Smith, 2011; Kamath等, 2020; Levy等, 2021; Kent等, 2024; Agarwal等, 2025)。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

算法3返回一个区间,其区间中点是具有最大估计质量的稳定直方图区间的中心(参见Karwa和Vadhan(2018),算法1)。我们的创新之处在于对该算法的分析,这导致了以下引理3.4(证明见附录C.2)。该引理利用 ( τ , γ ) ∞ ∞ -集中性和由Bobkov与Götze(2010)提出的DKW型不等式所支持的引理3.2,推广了Karwa和Vadhan(2018)的定理3.1。最重要的是,这允许在对数Sobolev依赖模型内存在观测值之间的依赖关系,同时也允许观测值非同分布。此外,若使用原始的DKW不等式,我们的证明策略还可将Karwa和Vadhan(2018)针对独立同分布高斯数据的分析推广至一般的独立同分布及 ( τ , γ ) ∞ -集中观测值。

打开网易新闻 查看精彩图片

4 依赖数据下的项级差分隐私估计

我们已准备好介绍我们的主要算法。我们的方案遵循私有均值估计中一种流行的思想:计算一个Winsorized均值估计器,并通过拉普拉斯机制使其满足隐私性。这一方法在项级和用户级均值估计的文献中都很常见(参见,例如,Smith (2011);Karwa 和 Vadhan (2018);Levy 等 (2021);Kent 等 (2024);Agarwal 等 (2025))。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

我们的主要理论结果是定理4.2和4.3中给出的有限样本误差界与期望意义下的均方误差(MSE)界。这些主要结果以及为中间算法推导出的所有保证,均是在对数Sobolev依赖性假设下获得的。我们分析的一个有趣副产品是:即使在独立同分布(i.i.d.)设定下,我们也推广了一些已知结果,允许数据域和参数空间均为无界。

4.1 均值估计器

对数据进行投影。
打开网易新闻 查看精彩图片
对数据进行投影。
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.2 理论保证
4.2.1 高概率界

我们将定理D.1中的效用性保证转化为算法5中估计器均方误差(MSE)的有限样本上界。以下定理4.2中的估计误差由两项之和来刻画:统计误差与隐私代价。该定理的证明见附录D.1.1。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.2.2 期望意义下的分析

虽然本工作的主要关注点在于非渐近界(如定理4.2的有限样本保证及其在第5节中的具体应用),我们也在定理4.3中提供了一个期望意义下的MSE上界。这样做的目的是为了使我们的估计器分析能够与现有文献中的上下界相比较,特别是用户级DP文献中的推论5(Levy等,2021),以及项级DP文献中的定理3.1或定理3.2(Cai等,2021)。这使得我们可以直接与已知的独立同分布情形下的结果进行比较;特别地,如定理4.3所示,在弱依赖条件下,我们能够匹配独立同分布情形下的收敛速率。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.3 极小极大最优性

打开网易新闻 查看精彩图片

得到的。为便于阐述,我们在下方重述他们的定理。我们将看到,该下界意味着我们的均值估计器在项级DP的独立同分布设定下是极小极大最优的。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

4.4 非参数回归的扩展

打开网易新闻 查看精彩图片

我们注意到,私有非参数回归问题已在中心化DP模型下针对独立同分布数据被研究过(参见Awan等,2020;Golowich,2021;Cai等,2023),也在本地DP模型下被研究过(参见Berrett等,2021;Györfi与Kroll,2025)。我们允许观测值之间存在相关性,并希望关注其对估计的影响。为简化起见,我们将函数空间 F F 限制为有界利普希茨函数空间。该设定在定义4.7中形式化给出。

打开网易新闻 查看精彩图片

给定观测值后,底层函数 f f 通常使用经典的核方法估计器进行估计,例如最近邻法、Priestley-Chao法、Nadaraya-Watson法、Gasser-Müller法或局部多项式估计器。或者,该任务也可转化为利用傅里叶变换或小波变换进行均值估计,或通过光滑样条进行线性回归(参见Tsybakov,2008)。在差分隐私下的非参数估计主要依赖于这些重新表述方法,这可见于Duchi等(2018)第5.2.2节、Cai等(2025)或Cai等(2023)第6节。在此,我们表明,在我们的固定设计设定下,可以基于经典非参数Priestley-Chao回归估计器(定义4.8中引入,由Priestley与Chao于1972年提出)构建最优逐点DP估计器。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5 依赖数据下的用户级差分隐私估计器

请记住,在用户级差分隐私(DP)设定中,每个 n n 名用户贡献的 T T 个观测值需作为一个整体受到保护。尽管我们所知的所有用户级DP理论工作均假设用户间及时间维度上的数据独立且有界,但我们的结果同时覆盖无界观测值,并允许在 n n 名用户及其各自的 T T 个观测值之间存在依赖性。

打开网易新闻 查看精彩图片

5.1 用户级均值估计

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5.1.1 期望意义下的分析

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5.2 随机效应位置模型

随机效应模型常用于聚类数据或相关数据的分析(Pinheiro 和 Bates,2000;Fahrmeir 和 Tutz,2001;Demidenko,2013)。在此,我们将讨论限定于定义5.8中所给出的一维用户级随机效应位置模型。我们这样做是为了完全聚焦于由随机效应所引入的用户之间的依赖性,并考察这种依赖性对我们Winsorized均值估计器收敛速率的影响。然而需要注意的是,第4节中的理论保证足够强大,也能够处理如第5.3小节所述线性回归设定中的随机效应。

打开网易新闻 查看精彩图片

除了在同组 g g 内用户之间引入依赖性的随机效应外,定义5.8中的模型还包含用户之间相互独立、但在同一用户随时间变化的观测值之间存在相关性的噪声。因此,该模型同时包含了用户间(inter-user)和用户内(intra-user)的依赖性。
尽管如此,我们将看到定义5.8中模型的分析是简单的,因为它可被视为第5.1小节所涵盖的用户级均值估计问题的一个特例。因此,我们只需证明由此得到的用户级数据矩阵满足对数Sobolev依赖性。我们在以下引理中完成这一证明。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5.3 面向纵向数据的用户级差分隐私线性回归

。
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

由于我们所考虑的uDP估计器的非私有对应版本已不再是标准最小二乘估计器,因此很自然会思考该估计器相对于标准最小二乘和广义最小二乘方法的效率如何。下一个引理澄清了这一点,其证明见附录E.3。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

6 本地差分隐私的扩展

截至目前所讨论的中心化DP模型要求数据项/用户信任一个中央服务器来聚合并私有化他们的数据。当这种信任不存在时,数据项或用户自身必须对数据进行私有化处理。这种设定被称为本地差分隐私(local model of DP)(Kasiviswanathan 等,2011;Duchi 等,2018)。

打开网易新闻 查看精彩图片

算法6中的随机响应机制是首个用于确保这种本地数据隐私概念的随机化算法。它早在本地DP被形式化之前,就由 Warner(1965)在调查抽样背景下提出。众所周知,随机响应机制是 (ε, 0)-LDP;参见 Dwork 和 Roth(2014,第3.2节)。

打开网易新闻 查看精彩图片

在本节其余部分,我们将随机响应机制与算法1中的拉普拉斯机制结合使用,将迄今为止所发展的依赖数据下Winsorized均值估计理论推广至本地模型——尽管需在稍强一些的假设下进行。除了要求数据满足 ( τ , γ ) ∞
-集中性以及数据矩阵满足对数Sobolev依赖性或行独立同分布(i.i.d.)之外,我们还需假设 ∥ μ ∥ ∞ ≤ B 。这是因为我们将原先用于构建私有中点的稳定直方图替换为基于随机响应的直方图估计器,而后者无法处理无限多个区间(bins)。除这一替换外,我们的方法保持不变,因此相较于现有技术具有显著更强的通用性,因为我们允许无界且依赖的数据。特别地,在有界独立同分布观测的情形下,我们可复现Kent等(2024)定理6中的上界。除了直方图估计部分外,我们在中心化模型和本地模型下的结果证明均基于一系列通用陈述,这些陈述随后被分别实例化到两种情形中。

6.1 直方图估计器

我们的本地直方图估计器同样适用于依赖观测值。算法7中的估计器是一种直方图估计器,它在本地模型中也通过随机响应机制来保障隐私。该直方图的构造与Kent等(2024)所采用的方法类似。然而,我们无需合并多个相邻的区间,并且引入了一个去偏步骤以确保其一致性。与专为中心化模型设计的算法2不同,该直方图仅能处理有限多个不相交的区间,但它是 ( ε , 0 )LDP 的。需注意,稳定直方图是 ( ε , δ ) ) -DP 的,其中 δ > 0 。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

6.2 均值估计器

我们的本地均值估计器的构造与第4节中的中心化模型对应版本类似。此处唯一的不同在于:我们在估计投影区间的私有中点时使用随机化直方图,并且每个数据项或用户在将投影后的观测值发送至中央服务器之前,需添加拉普拉斯噪声以实现隐私保护。算法8形式化了这一协议。请注意,随机化直方图仅能处理有限个区间,因此该算法要求输入一个 B ∈ ( 0 , ∞ ) ,使得 ∥ μ ∥ ∞ ≤ B 。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

6.2.1 超出项级均值估计的扩展

实例化定理6.4可立即得到项级非参数回归、用户级均值估计、随机效应位置估计以及纵向数据线性回归的有限样本风险界。以下简要概述这些结果,从非参数回归开始(见推论6.7)。该结果是推论4.11的本地DP对应版本。

打开网易新闻 查看精彩图片

附录F.6中推论6.7所示的逐点误差率,与Györfi和Kroll(2025)利用基变换估计器所获得的定理3.1和定理4.1中近乎最优的期望意义下积分误差率相似。我们的结果对定义4.8中的Priestley-Chao回归估计器进行了私有化,从而补充了他们的方法(另见Kent等(2024)第2.2.3小节)。

接下来的三个结果涉及用户级估计,分别针对均值估计、位置随机效应模型和纵向回归。我们首先给出一个通用的用户级均值估计结果,该结果是推论5.4在本地模型下的对应版本。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

7 仿真

我们通过实证方法检验我们带噪声的Winsorized均值估计器的有限样本保证。虽然我们的仿真主要关注中心化模型下的项级均值估计,但我们也会简要讨论用户级均值估计以及本地差分隐私(DP)模型下的均值估计。

7.1 项级均值估计

打开网易新闻 查看精彩图片

7.1.1 小样本下的隐私代价

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

7.1.2 理论与实证改进常数

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

7.1.3 小样本下的依赖代价

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

7.1.4中央与地方模式

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

7.1.5 插入式方差估计

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

7.2 用户级均值估计

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

8 结论

我们为依赖数据提供了一些初步的差分隐私估计工具。核心方法是一种基于带噪声Winsorized均值的均值估计算法,该算法最初由Karwa和Vadhan(2018)在单变量独立同分布高斯数据的项级差分隐私背景下提出。我们的工作表明,该算法的简单变体不仅能够处理依赖数据,而且在用户级DP和本地DP框架下,针对非参数回归、随机效应模型和纵向线性回归等多种估计问题,均可实现最优的估计速率。从这个意义上说,我们的工作也为一系列通常被分别研究的差分隐私问题提供了一个简洁而统一的估计框架。

从技术角度看,允许对数Sobolev依赖观测值的关键工具是Bobkov与Götze(2010)提出的DKW型不等式。它使我们能够控制中间直方图估计器的性能——这些估计器对于自适应地确定Winsorized均值估计器所需的投影区间至关重要。若要进一步放松对数Sobolev依赖性假设,则需要在更弱条件下成立的DKW型不等式。

本工作开启了诸多自然的未来研究方向。其中在实践中最紧迫的问题或许是开发适用于中等样本量且在依赖性条件下具有良好表现的统计推断工具。为此,开发优良的私有方差估计器将至关重要,我们认为基于Biswas等(2020)提出的CoinPress方法的思想颇具前景。最后,许多重要的统计问题天然涉及依赖数据,包括多臂老虎机、在线学习、联邦学习,以及一般的含噪差分隐私优化过程。我们希望在未来的工作中探讨其中部分问题。

原文链接: https://arxiv.org/pdf/2511.18583