打开网易新闻 查看精彩图片

该论文是麻省理工学院MIT的人工智能实验室CSAIL和谷歌研究院的成果,在图像分类任务中,对FL的非独立同分布数据的影响做了比较细致的实验。

主要内容:

1、基于迪利克雷分布,提出了一种FL中Non-IID数据的生成方法;

2、对不同程度的Non-IID数据下,进行了较多的对比试验,研究客户端数据量、本地迭代轮数、学习率等参数对性能的影响;

3、提出了一种基于动量的解决方案,可以有效缓解Non-IID带来的性能下降。

打开网易新闻 查看精彩图片

论文地址:https://arxiv.org/pdf/1909.06335.pdf

01

Introduction 介绍

介绍了一下FL和Non-IID数据的背景知识,不清楚的小伙伴可以看之前的文章。

02

Related Work 相关工作

在FL中图像分类数据集的相关生成工作,一部分是在MNIST、CIFAR-10等数据集上进行划分,存在分布极端、划分数据池不够大等问题,不符合实际情况;另一部分工作就是使用 的Dirichlet分布来合成Non-IID数据集。作者主要是使用连续的 生成一系列分布,来研究超参数的设置和优化方案。

下图中2018那篇论文之前的文章分享给过,有兴趣的小伙伴可以看看:

打开网易新闻 查看精彩图片

03

Synthetic Non-Identical Client Data 生成客户端Non-IID数据

这部分介绍了一种基于迪利克雷分布的Non-IID数据的生成方法,把10个类别当作一个categorical distribution类别分布p,然后利用参数为 的迪利克雷分布生成每个客户端的分布q, 越大,客户端的分布与基分布约i相似,当趋于无穷大的时候,变为同分布; 越小,非独立同分布程度越高,当等于0时,每个客户端只有一个类别的数据。

数据集:CIFAR-10,10类,训练集50000,测试集10000,分成100份,每份500张图片

打开网易新闻 查看精彩图片

04

Experiments and Results

Classification Performance with Non-Identical Distributions

C:参与客户端的数据/总客户端的数据100

E:客户端本地训练轮数

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

C、E、 、学习率 几个超参数共同影响了FL模型最终的性能,最后一个实验探索了在不同 下学习率的敏感性,发现如果 大,学习率可能在两个数量级的范围内调节都可以获得不错的结果,而 小,就得小心调参了。

Accumulating Model Updates with Momentum

针对这个问题论文提出了一种缓解办法: 加动量,简单有效,公式如下:

打开网易新闻 查看精彩图片

fedavg算法得到的总梯度

梯度更新

验证结果如下:

打开网易新闻 查看精彩图片

可以说是在 小的区域表现非常nice了,直接提升40%多。

论文又定义了一个相对学习率,探索了不同C和E下相对学习率的敏感性,在C比较小的时候,相对学习率比较敏感,应该设置较大的动量和低学习率。其中E太大,会导致方差高,应该结合较低学习率。

打开网易新闻 查看精彩图片

来源:知乎

作者:超脱

深延科技|

打开网易新闻 查看精彩图片

深延科技成立于2018年1月,中关村高新技术企业,是拥有全球领先人工智能技术的企业AI服务专家。以计算机视觉、自然语言处理和数据挖掘核心技术为基础,公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,为企业提供数据处理、模型构建和训练、隐私计算、行业算法和解决方案等一站式AI平台服务。