diff --git "a/content/post/\346\250\241\345\236\213\345\220\216\351\227\250\346\224\273\345\207\273\350\256\272\346\226\207\351\230\205\350\257\273.md" "b/content/post/\346\250\241\345\236\213\345\220\216\351\227\250\346\224\273\345\207\273\350\256\272\346\226\207\351\230\205\350\257\273.md" index 70e6f18..4ad8cee 100644 --- "a/content/post/\346\250\241\345\236\213\345\220\216\351\227\250\346\224\273\345\207\273\350\256\272\346\226\207\351\230\205\350\257\273.md" +++ "b/content/post/\346\250\241\345\236\213\345\220\216\351\227\250\346\224\273\345\207\273\350\256\272\346\226\207\351\230\205\350\257\273.md" @@ -38,12 +38,16 @@ $$Loss(\mathcal{M}(x,C),y)$$ $$\theta = \theta _{pre} + \lambda {\textstyle \sum_{i=1}^{n}} \theta _{i}$$ ## 方案设计 ![[Pasted image 20241018105016.png]] -BadMerging攻击框架包含两个主要部分:攻击机制设计和特征插值损失函数。一个合并模型的结构如下: +假设一个合并模型的结构如下: $$\begin{aligned}\theta_{\text {merged }} & =\theta_{\text {pre }}+\sum_{i \neq \text { adv }} \lambda_{i} \cdot \Delta \theta_{i}+\lambda_{\mathrm{adv}} \cdot \Delta \theta_{\mathrm{adv}} \\& =\theta_{\text {pre }}+\Delta \theta_{\mathrm{benign}}+\lambda_{\mathrm{adv}} \cdot \Delta \theta_{\mathrm{adv}}\end{aligned}$$ -合并系数 +BadMerging攻击框架包含两个主要部分:攻击机制设计和特征插值损失函数。 1. **两阶段攻击机制**:BadMerging首先在第一阶段生成一个通用触发器,该触发器能够在合并参数为0时激活后门。然后在第二阶段,攻击者使用这个触发器来微调其任务特定模型,确保在合并参数为1时攻击有效。这样,攻击在合并参数从0到1的任何值下都能保持有效。 - 2. **特征插值损失函数**:为了增强触发器在不同合并参数下的鲁棒性,提出了一种新颖的特征插值损失函数。该损失函数通过插值触发器图像的特征,强制模型在不同合并参数下都将触发器图像分类为目标类别。 +### on-task +目标任务与攻击者任务相同。比如说攻击者的模型任务是猫狗识别,后门就是将猫识别为🐖。BadMerging-On 目的是**迫使最终的合并模型在执行攻击者任务时按照攻击者的意愿行事** +这里假设两个场景:(1) 多任务学习场景意味着合并来自不同领域的任务向量以进行多任务学习(2)单任务学习场景意味着合并来自同一领域的任务向量以提高效用 + + ## 实验结果