From ae3e510a8ecf796e93e2ea6d2d9cf503bc0260d5 Mon Sep 17 00:00:00 2001 From: Chi-Kai Date: Sun, 20 Oct 2024 22:59:20 +0800 Subject: [PATCH] vault backup: 2024-10-20 22:59:20 --- ...7\273\350\256\272\346\226\207\351\230\205\350\257\273.md" | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git "a/content/post/\346\250\241\345\236\213\345\220\216\351\227\250\346\224\273\345\207\273\350\256\272\346\226\207\351\230\205\350\257\273.md" "b/content/post/\346\250\241\345\236\213\345\220\216\351\227\250\346\224\273\345\207\273\350\256\272\346\226\207\351\230\205\350\257\273.md" index c6509d0..70e6f18 100644 --- "a/content/post/\346\250\241\345\236\213\345\220\216\351\227\250\346\224\273\345\207\273\350\256\272\346\226\207\351\230\205\350\257\273.md" +++ "b/content/post/\346\250\241\345\236\213\345\220\216\351\227\250\346\224\273\345\207\273\350\256\272\346\226\207\351\230\205\350\257\273.md" @@ -38,11 +38,12 @@ $$Loss(\mathcal{M}(x,C),y)$$ $$\theta = \theta _{pre} + \lambda {\textstyle \sum_{i=1}^{n}} \theta _{i}$$ ## 方案设计 ![[Pasted image 20241018105016.png]] -BadMerging攻击框架包含两个主要部分:攻击机制设计和特征插值损失函数。 +BadMerging攻击框架包含两个主要部分:攻击机制设计和特征插值损失函数。一个合并模型的结构如下: $$\begin{aligned}\theta_{\text {merged }} & =\theta_{\text {pre }}+\sum_{i \neq \text { adv }} \lambda_{i} \cdot \Delta \theta_{i}+\lambda_{\mathrm{adv}} \cdot \Delta \theta_{\mathrm{adv}} \\& =\theta_{\text {pre }}+\Delta \theta_{\mathrm{benign}}+\lambda_{\mathrm{adv}} \cdot \Delta \theta_{\mathrm{adv}}\end{aligned}$$ +合并系数 1. **两阶段攻击机制**:BadMerging首先在第一阶段生成一个通用触发器,该触发器能够在合并参数为0时激活后门。然后在第二阶段,攻击者使用这个触发器来微调其任务特定模型,确保在合并参数为1时攻击有效。这样,攻击在合并参数从0到1的任何值下都能保持有效。 -2. **特征插值损失函数**:为了增强触发器在不同合并参数下的鲁棒性,我们提出了一种新颖的特征插值损失函数。该损失函数通过插值触发器图像的特征,强制模型在不同合并参数下都将触发器图像分类为目标类别。 +2. **特征插值损失函数**:为了增强触发器在不同合并参数下的鲁棒性,提出了一种新颖的特征插值损失函数。该损失函数通过插值触发器图像的特征,强制模型在不同合并参数下都将触发器图像分类为目标类别。 ## 实验结果