当前位置：首页 > news >正文

LM-DP-SGD：层感知差分隐私保护深度学习模型

news 2026/6/16 23:02:36

1. 项目概述

在深度学习模型部署的"嵌入即接口"(EaaI)场景中，预训练模型通过API提供中间层表示(IRs)给下游任务使用。然而研究表明，这些中间表示会泄露训练数据的成员信息，使模型面临成员推理攻击(MIA)的风险。传统差分隐私随机梯度下降(DP-SGD)方法虽然能提供隐私保护，但其均匀噪声注入机制忽视了不同网络层对MIA的敏感性差异。

我们提出的层感知MIA风险自适应DP-SGD(LM-DP-SGD)创新性地解决了这一问题。该方法的核心思想是：深度神经网络不同层产生的中间表示对MIA的脆弱性存在显著差异，通常深层网络比浅层网络更容易泄露成员信息。通过影子模型评估各层的MIA风险，在梯度裁剪阶段进行差异化加权，使固定总量的噪声在不同层产生不同程度的保护效果。

2. 技术背景与问题分析

2.1 成员推理攻击与中间层表示

成员推理攻击旨在判断特定样本是否参与了模型训练。在EaaI场景中，攻击者通过查询模型获取中间层表示，利用这些表示中隐含的统计特性区分成员和非成员样本。深层网络层由于编码了更多任务相关的语义信息，其表示通常包含更强的成员信号。

我们通过实验验证了这一现象：在12层CNN模型上，使用CIFAR-10数据测试各层的MIA准确率显示，第1层准确率为59.6%，而第8层达到73.1%，证实了MIA风险的层间异质性。

2.2 传统DP-SGD的局限性

标准DP-SGD通过以下步骤实现隐私保护：

计算每个样本的梯度
对梯度进行ℓ2范数裁剪(Clip(g, C) = g·min(1, C/∥g∥2))
添加符合N(0, C²σ²I)分布的噪声

这种方法存在两个主要问题：

全局统一的裁剪阈值C无法适应不同层的敏感性差异
均匀的噪声注入导致对深层保护不足，同时对浅层过度保护

2.3 技术挑战

实现层感知隐私保护面临的核心挑战是：

直接对各层独立应用DP会导致隐私预算快速累积(ε ≈ Σεl)
需要在固定总噪声量的前提下，实现噪声在不同层的差异化保护效果
必须保证修改后的算法仍满足严格的(ε,δ)-DP保证

3. LM-DP-SGD方法设计

3.1 整体架构

LM-DP-SGD包含两个关键组件：

层间MIA风险评估模块：使用公开影子数据集训练层特异性攻击模型
差异化隐私训练模块：基于风险评估结果进行层间加权梯度裁剪

3.2 层间MIA风险评估

具体实施步骤：

影子模型训练：
- 使用与目标模型相同架构
- 在公开数据集Dshadow上训练
- 将Dshadow划分为训练集Dtrain和测试集Dtest
中间表示收集：
- 对Dtrain中的样本，记录各层表示I(l)in
- 对Dtest中的样本，记录各层表示I(l)out
攻击模型训练：
- 对每层l，构建数据集D(l)adv = {(I(l)(x),z)}
- z=1表示成员样本，z=0表示非成员样本
- 训练二元分类器F(l)adv
风险评估：
- 计算各攻击模型在完整D(l)adv上的错误率ER(l)
- ER(l)越低表示该层MIA风险越高