当前位置：首页 > news >正文

FlowGuard：基于流匹配的、身份无关的数据无模型窃取攻击检测，用于能源系统入侵检测系统

news 2026/6/9 13:57:37

大家读完觉得有帮助记得关注和点赞！！！

摘要

部署在能源基础设施中的基于人工智能（AI）的入侵检测系统（IDS）易受模型窃取攻击，这使得攻击者能够离线生成可规避的流量。当前针对模型提取的防御措施要么依赖于身份绑定的查询监控（在面对分布式攻击者（女巫攻击）时无效），要么依赖于通过软标签扰动进行预测投毒（不适用于硬标签IDS部署）。因此，我们提出 FlowGuard —— 一种基于流匹配的身份无关防御机制，它能在IDS处理传入查询之前，将其分类为分布外（OOD）查询。该方法利用了这样一个事实：为无数据模型窃取攻击生成的查询，其所占据的流形维度低于真实网络流量。在使用基于合法数据训练的连续归一化流（CNF）时，这会导致其对数似然值显著降低。我们在单客户端和分布式（100客户端女巫）环境下，使用MAZE和DisGUIDE攻击对FlowGuard进行了评估，并与PRADA和FDINet进行了对比。当攻击分布发生变化时，PRADA的检测率降至0%，而我们的防御在两种设置下均保持了稳定的检测率，且无需依赖身份信息。我们讨论了该方法的范围和局限性，并概述了其在数据依赖型攻击中的潜在应用。

图1。流量匹配值班人员检测。（A）输入空间中合法攻击和合成攻击查询的t-SNE。（b）潜在表示z0经过逆向常微分方程积分;攻击查询不属于2σ接受区域。（C）对数似然分布（式1），其判定阈值为τ.每个查询都单独评估，独立于客户端身份。

关键词：模型提取攻击，入侵检测系统，流匹配，分布外检测，女巫攻击，关键基础设施安全

1. 引言

基于人工智能（AI）的入侵检测系统（IDS）正日益部署于保护关键能源基础设施，包括智能电网和监控与数据采集（SCADA）网络（Khalaf等人，2025）。这些系统使用深度神经网络（DNN）实时分类网络流量。当此类模型通过查询接口暴露时（例如在安全运营中心内，或通过软件定义防御（SDD）架构的内部应用程序编程接口（API）），它们就成为模型提取攻击（MEA）的目标（Tramèr等人，2016；Orekondy等人，2019）。

在MEA中，对手系统地查询目标模型，以训练一个功能等效的替代模型。该替代模型随后可作为离线测试平台，用于制作对抗性规避流量：即被原始IDS误分类为良性的网络数据包（Papernot等人，2017）。在能源系统中，提取后接规避的复合威胁尤为严重。与传统IT环境（泄露主要导致数据丢失）不同，智能电网或SCADA网络中的未检测入侵可能导致直接的物理后果，包括设备损坏、级联故障和大面积停电。

现有的MEA防御措施分为两类：查询检测和预测投毒，但在本场景下均存在局限性。查询检测方法，如PRADA（Juuti等人，2019）和FDINet（Yao等人，2025），分析传入的查询模式以识别异常行为。然而，这些方法基于每个身份进行操作，收集单个客户端的查询统计信息。通过轮询调度将查询分布在多个身份上（女巫攻击）会使PRADA的检测率降至0%。即使是全局聚合变体也可通过流量混合被击败。预测投毒方法，如自适应误导（Kariyappa和Qureshi，2020）和MODELGUARD（Tang等人，2024），扰动模型的输出概率以降低替代模型的效果。这些防御需要访问完整的概率向量（软标签）。实际上，许多IDS部署仅返回二进制硬标签（攻击/良性），使得预测投毒不适用。此外，即使适用，模型提取在扰动下仍可能实现（Chandrasekaran等人，2020）。

虽然生成模型和隐空间表示已成功应用于检测能源系统中的异常和建模复杂动态（Turowski等人，2022；Heidrich等人，2024），但我们现在将这一原则用于保护这些IDS部署免受MEA攻击。具体来说，我们建议使用一个在合法网络流量分布上通过流匹配（Lipman等人，2023, 2024）训练的连续归一化流（CNF），在查询到达IDS之前，将其分类为分布内或分布外（OOD）。FlowGuard基于查询内容而非查询元数据或身份信息进行操作，因此天生具有抵御女巫攻击的弹性。

关键的实证观察是：无数据模型窃取攻击（如MAZE（Kariyappa等人，2021）、DisGUIDE（Rosenthal等人，2023））生成的合成查询，虽可用于提取决策边界信息，但并不一定匹配完整的训练分布。在基于真实流量训练的密度模型下，这些合成查询的对数似然值显著低于合法查询。因此，FlowGuard将低似然值视为OOD信号。

应用流匹配的动机源于近期关于FlowPure（Collaert等人，2025）的工作，该工作证明使用条件流匹配训练的CNF可以通过测量学习到的速度场的大小，有效地区分对抗性样本和干净输入。我们将这一原则适配于分布式无数据模型窃取检测问题。

本文的主要贡献如下：

我们提出 FlowGuard，一种基于流匹配OOD检测、针对无数据模型窃取攻击的身份无关防御。
我们在CIFAR-10（Krizhevsky，2009，模型窃取攻击的标准基准数据集）上评估了该防御对抗MAZE和DisGUIDE攻击的效果，并与PRADA和FDINet进行了比较。
我们讨论了该方法的范围、当前对无数据攻击的限制，并概述了未来的扩展方向。

本文组织结构如下：第2节提供模型窃取攻击、现有防御和归一化流机制的技术背景。第3节详述提出的FlowGuard方法，解释如何使用流匹配计算单个查询的对数似然以检测合成攻击数据。第3.1节定义了一个涉及黑盒攻击者利用无数据提取方法的威胁模型。第4节讨论实验评估，在单客户端和分布式女巫攻击设置下，对FlowGuard与PRADA和FDINet进行基准测试。最后，第5节总结发现并提出未来工作建议。

2. 背景与相关工作

2.1 模型窃取攻击（MEA）

MEA的目标是受害者模型 fV:X→Y，该模型通过查询接口可访问。对手通过向 fV提交输入 x∈X并观察响应 y^∈Y来训练替代模型 fS。目标通常是保真度提取，即 fS复制 fV的决策边界（Tramèr等人，2016）。无数据攻击以合成方式生成这些查询：MAZE（Kariyappa等人，2021）将生成器与替代模型共同训练；DisGUIDE（Rosenthal等人，2023）通过基于集成的不一致性和多样性损失扩展了这一点。两者都在没有访问原始训练数据的情况下，从噪声中生成查询。

2.2 针对模型窃取的防御

查询检测。PRADA（Juuti等人，2019）对单个客户端的查询之间的成对距离分布应用Shapiro-Wilk检验，标记偏离正态性的情况。FDINet（Yao等人，2025）是当前检测分布式攻击的最新技术，它从内部模型激活中计算特征失真指数以检测勾结的客户端。两种方法都需要在检测前积累来自各个身份的足够数量的查询。

预测投毒。诸如Reverse Sigmoid（Lee等人，2019）、Prediction Poisoning/MAD（Orekondy等人，2020）和MODELGUARD（Tang等人，2024）等方法修改返回的概率向量以误导替代模型的训练。这些方法需要软标签访问，并且在硬标签设置下无法阻止提取（Chandrasekaran等人，2020）。

2.3 归一化流与OOD检测

归一化流（Lipman等人，2024）的核心是双射变换，它将复杂、未知的数据分布（如网络流量）连续映射到简单、易处理的基分布（通常是标准高斯分布）。这种可逆性允许对新样本进行精确的似然计算。基于此，流匹配（Lipman等人，2023）通过回归神经网络到条件速度场来训练CNF，该速度场在源分布和目标分布之间传输样本。与传统归一化流不同，流匹配在训练期间不需要昂贵的雅可比行列式计算，同时仍能在推理时通过瞬时变量变化公式实现精确密度评估：

logp1(x)=logp0(z0)−∫01tr(∂z∂fθ(zt,t))dt(1)

其中 p1表示数据分布，x∼p1被解释为 z1，并通过从 t=1到 t=0反向积分学习到的ODE dz/dt=fθ(z,t)映射到隐表示 z0。基分布 p0通常被选为标准高斯分布。

计算精确对数似然的能力使流匹配成为OOD检测的候选方案，但似然方向必须针对具体数据和模型进行校准。在某些情况下（例如SVHN vs. CIFAR-10），深度生成模型可能为OOD数据分配比训练数据更高的似然值（Nalisnick等人，2019）。在我们的设置中，校准信号是似然分布的下尾：合法验证查询定义了可接受的范围，当合成提取查询的似然值低于该范围时即被标记。

3. FlowGuard：用于OOD检测的流匹配

我们的防御在查询接口和IDS之间插入了一个基于密度的过滤器。过滤器操作如下：

训练：使用与训练IDS相同的数据分布，通过流匹配训练一个连续归一化流 fθ。训练遵循条件流匹配目标：
LCFM(θ)=Et,x0,x1[∥fθ(xt,t)−ut(xt∣x0,x1)∥22]
其中 x0∼p0（基高斯分布），x1∼pdata，且 ut是从 x0到 x1的直线路径上的目标条件向量场。
推理：当查询 xq到达IDS接口时，我们将其视为 t=1时的数据空间样本，并反向积分学习到的ODE dz/dt=fθ(z,t)到 t=0，以获得其隐表示 z0。然后，模型通过公式(1)计算 logp1(xq)，即基对数密度 logp0(z0)（其中 p0被选为标准高斯）减去沿轨迹累积的散度项。
决策：如果 logp1(xq)<τ，则该查询被分类为OOD并被阻断。阈值 τ是在预留的合法查询验证集上校准的下尾阈值。

3.1 威胁模型

我们考虑一个针对部署用于保护能源基础设施的基于AI的IDS的对手。

攻击者能力。攻击者拥有IDS的黑盒查询权限，且仅接收硬标签（攻击/良性）。鉴于有足够的资源通过多个身份协调查询（女巫攻击），攻击者使用无数据模型窃取方法，这些方法从噪声或共同训练的生成器中生成查询，而无需访问原始训练数据分布。

攻击者目标。提取一个具有高保真度的替代模型，从而能够制作绕过原始IDS决策的对抗性规避流量。

防御者能力。防御者有权访问合法训练数据分布（或代表性样本）以训练密度模型。防御者可以在查询到达IDS之前检查每个传入的查询。防御者不依赖任何身份或会话信息。

3.2 为何这对无数据攻击有效

无数据模型窃取方法生成查询的过程无法访问真实数据分布的完整复杂性。MAZE（Kariyappa等人，2021）使用与替代模型共同训练的生成器，产生的样本近似决策边界的有用区域，而非完整数据流形。DisGUIDE（Rosenthal等人，2023）通过集成不一致性增加了多样性，但仍是从噪声中生成。这些目标可以产生对受害者分类器有用的查询，同时在基于合法数据训练的密度模型下仍然不太可能出现。

与分类器置信度不同，CNF分数衡量的是与合法数据分布的兼容性。无数据攻击优化查询是为了提取目标模型的行为，但它们并没有显式地在防御者的密度模型下优化似然。因此，它们的合成样本可能对提取有用，同时仍位于训练分布的低密度区域中。

3.3 身份独立性

该防御基于查询内容独立评估每个查询。不需要身份信息、会话跟踪或查询历史。这使得防御天生具有抵御女巫攻击的弹性：即使攻击者将查询分布在数千个身份中，每个单独的查询仍会根据密度模型进行评估。

4. 评估

我们评估基于内容的密度过滤在分布式、隐藏身份的模型提取下是否仍然有效，而基于身份的检测器在此情况下会失败。

4.1 实验设计

我们的评估遵循第3节的威胁模型：一个执行无数据提取的硬标签黑盒对手。我们在相同的查询预算下对三种查询防御进行基准测试：

PRADA（Juuti等人，2019）：基于身份的查询分布分析（对成对距离进行Shapiro-Wilk检验）。
FDINet（Yao等人，2025）：从内部模型激活计算的特征失真指数。
FlowGuard（我们的方法）：对训练的CNF进行对数似然阈值判断。

我们针对两种无数据攻击进行测试：

MAZE（Kariyappa等人，2021）：基于生成器的无数据攻击，采用共同训练。
DisGUIDE（Rosenthal等人，2023）：基于集成的生成器，带有不一致性/多样性损失。

我们评估两种攻击者机制：(1) 单客户端，所有攻击查询在一个身份下发出；(2) 分布式（女巫设置），相同的总预算分布在100个客户端身份中。这种划分测试了防御是否依赖于身份级别的时间统计（PRADA、FDINet）或每个查询的内容（FlowGuard）。

4.2 协议

我们使用带有VGG16-BN受害者模型（测试准确率85.03%）的CIFAR-10作为初始基准，遵循模型窃取研究中的标准评估协议（Juuti等人，2019；Tang等人，2024）。对于每个防御-攻击对，我们运行一个恶意和一个良性情景：(1) 由MAZE或DisGUIDE生成的200个攻击查询，和(2) 从合法数据中采样的200个干净参考查询。指标是在合并集上以查询级别计算的。

流模型。我们使用Meta的flow_matching库在CIFAR-10上训练CNF，共1000个epoch。速度场由U-Net主干参数化，并使用条件流匹配目标（预测速度与目标速度的MSE）进行优化，采用从高斯噪声到数据的最优传输条件概率路径。阈值 τ是根据验证数据上对数似然分数分布的下尾截断经验选择的。

我们报告检测率（等同于真阳性率TPR）、假阳性率（FPR）、精确率、F1、宏F1和受试者工作特征-曲线下面积（ROC-AUC）。这包括阈值相关指标（TPR、FPR、F1）和阈值无关的排名质量（ROC-AUC）。

4.3 结果

表1总结了完整的聚合检测实验，而图2说明了在具有代表性的10个查询MAZE深度剖析中校正后的下尾分数分离。

表1：在CIFAR-10（VGG16-BN目标）上针对模型提取攻击的查询防御检测性能。值为查询级指标。越高越好，假阳性率（FPR）除外，越低越好。

设置	攻击	防御	检测率	TPR	FPR↓	精确率	F1	宏F1	ROC-AUC
单客户端	MAZE	FDINet	0.545	0.545	0.530	0.507	0.525	0.507	0.488
	MAZE	PRADA	0.840	0.840	0.000	1.000	0.913	0.919	0.920
	MAZE	FlowGuard	0.965	0.965	0.170	0.850	0.904	0.897	0.921
	DisGUIDE	FDINet	1.000	1.000	0.530	0.644	0.784	0.712	0.988
	DisGUIDE	PRADA	0.833	0.833	0.000	1.000	0.909	0.918	0.917
	DisGUIDE	FlowGuard	1.000	1.000	0.170	0.850	0.919	0.913	1.000
分布式 (100客户端)	MAZE	FDINet	0.500	0.500	0.530	0.485	0.493	0.485	0.473
	MAZE	PRADA	0.000	0.000	0.000	0.000	0.000	0.333	0.500
	MAZE	FlowGuard	0.965	0.965	0.170	0.850	0.904	0.897	0.922
	DisGUIDE	FDINet	1.000	1.000	0.530	0.644	0.784	0.712	0.989
	DisGUIDE	PRADA	0.000	0.000	0.000	0.000	0.000	0.333	0.500
	DisGUIDE	FlowGuard	1.000	1.000	0.170	0.850	0.919	0.913	1.000

注：粗体值突出显示了每个攻击区块内关键决策指标的最佳表现条目。

图2。代表性的MAZE深度分析，涵盖十条查询：五条良性CIFAR-10查询和五条MAZE攻击查询。左侧面板显示了学习流动态的PCA投影中的逆流轨迹，右侧面板显示了对数似然对应的OOD决策。良性查询保持在校准的下尾阈值之上，而MAZE查询低于该阈值则被阻塞

校正后的似然方向。MAZE深度剖析证实了FlowGuard会阻断低似然查询。在图2所示的10个查询示例中，良性CIFAR-10查询的分数介于8478.75和16885.64之间，而MAZE查询的分数介于-1504.09和-1349.31之间。当 τ=5000时，所有良性查询都保持在阈值之上，所有MAZE查询都落在阈值之下。这个校正后的方向是表1中聚合指标的基础。

单客户端设置。PRADA和FlowGuard都能检测无数据攻击，但有不同的权衡。对于MAZE，PRADA达到TPR 0.840、FPR 0.000和F1 0.913，而FlowGuard在中等FPR（0.170）下实现了更高的召回率（TPR 0.965），F1为0.904。对于DisGUIDE，FlowGuard达到TPR 1.000和ROC-AUC 1.000，F1为0.919，而PRADA达到TPR 0.833和F1 0.909。FDINet对DisGUIDE显示出相当的探测性能（F1 0.784），但未能检测到MAZE查询（ROC-AUC 0.488）。

分布式设置（100客户端）。对于两种攻击，PRADA的检测完全崩溃（TPR 0.000，F1 0.000，ROC-AUC 0.500）。这是预料之中的：将查询分布在多个身份上阻碍了统计检验所需的每个客户端的足够积累。

FlowGuard在两种设置下保持稳定。对于MAZE，它保持TPR 0.965和F1 0.904（ROC-AUC 0.922）；对于DisGUIDE，它保持TPR 1.000和F1 0.919（ROC-AUC 1.000）。每个查询的密度评估不受查询如何分布在身份之间的影响。

FDINet显示出混合结果。它能以高灵敏度（TPR 1.000）检测DisGUIDE查询，但代价是高假阳性率（FPR 0.530），降低了精确率。对于分布式查询下的MAZE，其TPR降至0.500，F1为0.493，表明在此设置下鲁棒性低于FlowGuard。

4.4 解释

结果证实，身份无关、基于内容的检测对于保护模型免受分布式提取至关重要。依赖于每个客户端统计假设的PRADA在女巫协调下失效。FDINet虽然旨在通过内部特征失真分析处理分布式攻击，但面临不同的局限性。尽管其性能在女巫协调下没有下降，但它难以应对过高的假阳性率（FPR 0.530），并且未能可靠地检测MAZE生成的查询（ROC-AUC降至0.473）。这表明其在不同无数据生成器之间缺乏鲁棒性。FlowGuard证明，基于密度的过滤克服了这两个挑战。因为它独立评估每个查询的对数似然并阻断下尾异常值，所以它天生对女巫分区免疫（不像PRADA）。此外，通过将决策边界锚定在合法数据分布上，而不是依赖内部模型激活，它在不同的攻击生成器下保持了高检测率。

值得注意的是ROC-AUC和固定阈值指标之间的差异。高ROC-AUC表明在所有阈值下良性与恶意查询的排名都很好，而FPR和F1取决于所选的操作点 τ。一个具有近乎完美ROC-AUC的防御，在特定的部署阈值下仍可能表现出非零的假阳性。

4.5 局限性

评估仅限于一个数据集（CIFAR-10）、一个受害者架构，以及每个条件下的一次运行（无置信区间）。攻击集仅涵盖无数据提取（MAZE、DisGUIDE）。这些结果应被解释为针对分布式无数据模型窃取的有效性的证据，而不是对所有提取家族或数据模式的普遍保证。特别是，一个明确针对防御者密度模型进行优化的自适应攻击者可能会缩小观察到的似然差距。扩展到IDS特定数据集（如ERENO IEC 61850）、重复种子和自适应攻击者是必要的未来工作。

5. 结论与未来工作

我们提出了FlowGuard，一种基于流匹配OOD检测、防御无数据模型窃取攻击的防御机制。该方法通过计算传入查询在基于合法数据分布训练的CNF下的对数似然来对其进行分类。在我们的实验中，来自无数据攻击的合成查询获得的对数比合法查询一致更低，并且可以通过校准的下尾阈值可靠地检测到。

我们在CIFAR-10上的评估表明，当PRADA的检测率在分布式查询（100个客户端）下降至0%时，FlowGuard无论查询如何分布，都保持了稳定的检测率（TPR 0.965–1.000）。FDINet在某些配置下表现出混合行为和高假阳性率。密度过滤的每查询性质使其天生具有抵御女巫攻击的弹性。

当前范围仅限于无数据攻击。对于未来的工作，我们计划：

将评估扩展到现实的IDS数据集（ERENO IEC 61850, CIC-IDS）和其他防御措施（D-ADD（Mei等人，2025）、MeCo（Wang等人，2023））。
研究FlowGuard与对抗性净化中使用的技术相结合。FlowPure（Collaert等人，2025）证明CNF还可以通过 t=0时的速度场大小检测对抗性样本。将提取查询的基于密度的检测与规避流量的基于速度的检测相结合，可以为完整的“模型窃取-然后-规避”攻击链提供统一的防御。
研究更复杂的生成器（例如基于扩散的）是否能够产生克服密度过滤的查询，并开发相应的对策。

查看全文

http://www.cnnetsun.cn/news/2845429.html