READ-2349 DeepSight: Mitigating Backdoor Attacks in Federated Learning Through Deep Model Inspection

论文名称 DeepSight: Mitigating Backdoor Attacks in Federated Learning Through Deep Model Inspection
作者 P. Rieger, T. D. Nguyen, Markus Miettinen, A. Sadeghi
来源 NDSS 2022
领域 Machine Learning - Federal learning - Security – Backdoor attack
问题 已有的防御方式:1.旨在检测和删除中毒模型:无法区分在不同数据分布的良性训练数据上训练的模型和中毒模型;2.旨在限制中毒模型的影响:不能有效地对抗具有高攻击影响的中毒模型更新
方法 检查神经网络的内部结构和输出, 将基于聚类的过滤方案与裁剪相结合,以识别具有高攻击影响的恶意更新,同时保持来自不同数据分布的良性模型更新

阅读记录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


总结

针对后门攻击:

  1. 对于每一张图片,神经网络的目的均是使对应标签的预测概率最大化,当使用另一个具有不同标签的样本进行训练时,前一个图像的预测向量也会受到影响。当某个类别的样本经常出现时,模型预测将更偏向于对该标签的预测。因此,当所有客户端都从相同的全局模型出发时,具有相似数据的客户端将试图为其数据样本实现相似的预测,因此他们将以相似的方式调整参数,从而导致相似的模型更新,进而两个客户端模型与全局模型的差距相似。
  2. 训练过程将改变输出层的神经元,经常出现的类对应的神经元将以高梯度进行多次更新,不常出现的类对应的神经元的更新幅度较小,因此输出层参数的变化幅度将泄露标签分布的频率。由于中毒模型的数据异质性明显小于良性模型的训练数据,如果有一个局部模型的训练数据非常同质,则该模型可能中毒了