Skip to content

Commit

Permalink
vault backup: 2024-10-20 22:59:20
Browse files Browse the repository at this point in the history
  • Loading branch information
Chi-Kai committed Oct 20, 2024
1 parent 4fef439 commit ae3e510
Showing 1 changed file with 3 additions and 2 deletions.
5 changes: 3 additions & 2 deletions content/post/模型后门攻击论文阅读.md
Original file line number Diff line number Diff line change
Expand Up @@ -38,11 +38,12 @@ $$Loss(\mathcal{M}(x,C),y)$$
$$\theta = \theta _{pre} + \lambda {\textstyle \sum_{i=1}^{n}} \theta _{i}$$
## 方案设计
![[Pasted image 20241018105016.png]]
BadMerging攻击框架包含两个主要部分:攻击机制设计和特征插值损失函数。
BadMerging攻击框架包含两个主要部分:攻击机制设计和特征插值损失函数。一个合并模型的结构如下:
$$\begin{aligned}\theta_{\text {merged }} & =\theta_{\text {pre }}+\sum_{i \neq \text { adv }} \lambda_{i} \cdot \Delta \theta_{i}+\lambda_{\mathrm{adv}} \cdot \Delta \theta_{\mathrm{adv}} \\& =\theta_{\text {pre }}+\Delta \theta_{\mathrm{benign}}+\lambda_{\mathrm{adv}} \cdot \Delta \theta_{\mathrm{adv}}\end{aligned}$$
合并系数
1. **两阶段攻击机制**:BadMerging首先在第一阶段生成一个通用触发器,该触发器能够在合并参数为0时激活后门。然后在第二阶段,攻击者使用这个触发器来微调其任务特定模型,确保在合并参数为1时攻击有效。这样,攻击在合并参数从0到1的任何值下都能保持有效。

2. **特征插值损失函数**:为了增强触发器在不同合并参数下的鲁棒性,我们提出了一种新颖的特征插值损失函数。该损失函数通过插值触发器图像的特征,强制模型在不同合并参数下都将触发器图像分类为目标类别。
2. **特征插值损失函数**:为了增强触发器在不同合并参数下的鲁棒性,提出了一种新颖的特征插值损失函数。该损失函数通过插值触发器图像的特征,强制模型在不同合并参数下都将触发器图像分类为目标类别。

## 实验结果

Expand Down

0 comments on commit ae3e510

Please sign in to comment.