联邦学习 | Non-IID数据论文：测量联邦视觉分类中不相同数据分布的影响

深兰深延AI

2022-03-07 20:13

该论文是麻省理工学院MIT的人工智能实验室CSAIL和谷歌研究院的成果，在图像分类任务中，对FL的非独立同分布数据的影响做了比较细致的实验。

主要内容：

1、基于迪利克雷分布，提出了一种FL中Non-IID数据的生成方法；

2、对不同程度的Non-IID数据下，进行了较多的对比试验，研究客户端数据量、本地迭代轮数、学习率等参数对性能的影响；

3、提出了一种基于动量的解决方案，可以有效缓解Non-IID带来的性能下降。

论文地址：https://arxiv.org/pdf/1909.06335.pdf

01

Introduction 介绍

介绍了一下FL和Non-IID数据的背景知识，不清楚的小伙伴可以看之前的文章。

02

Related Work 相关工作

在FL中图像分类数据集的相关生成工作，一部分是在MNIST、CIFAR-10等数据集上进行划分，存在分布极端、划分数据池不够大等问题，不符合实际情况；另一部分工作就是使用的Dirichlet分布来合成Non-IID数据集。作者主要是使用连续的生成一系列分布，来研究超参数的设置和优化方案。

下图中2018那篇论文之前的文章分享给过，有兴趣的小伙伴可以看看：

03

Synthetic Non-Identical Client Data 生成客户端Non-IID数据

这部分介绍了一种基于迪利克雷分布的Non-IID数据的生成方法，把10个类别当作一个categorical distribution类别分布p，然后利用参数为的迪利克雷分布生成每个客户端的分布q，越大，客户端的分布与基分布约i相似，当趋于无穷大的时候，变为同分布；越小，非独立同分布程度越高，当等于0时，每个客户端只有一个类别的数据。

数据集：CIFAR-10，10类，训练集50000，测试集10000，分成100份，每份500张图片

04

Experiments and Results

Classification Performance with Non-Identical Distributions

C：参与客户端的数据/总客户端的数据100

E：客户端本地训练轮数

C、E、、学习率几个超参数共同影响了FL模型最终的性能，最后一个实验探索了在不同下学习率的敏感性，发现如果大，学习率可能在两个数量级的范围内调节都可以获得不错的结果，而小，就得小心调参了。

Accumulating Model Updates with Momentum

针对这个问题论文提出了一种缓解办法：加动量，简单有效，公式如下：

fedavg算法得到的总梯度

梯度更新

验证结果如下：

可以说是在小的区域表现非常nice了，直接提升40%多。

论文又定义了一个相对学习率，探索了不同C和E下相对学习率的敏感性，在C比较小的时候，相对学习率比较敏感，应该设置较大的动量和低学习率。其中E太大，会导致方差高，应该结合较低学习率。

来源：知乎

作者：超脱

｜深延科技｜

深延科技成立于2018年1月，中关村高新技术企业，是拥有全球领先人工智能技术的企业AI服务专家。以计算机视觉、自然语言处理和数据挖掘核心技术为基础，公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台，为企业提供数据处理、模型构建和训练、隐私计算、行业算法和解决方案等一站式AI平台服务。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴