Skip to content

Commit

Permalink
vault backup: 2024-10-20 17:39:40
Browse files Browse the repository at this point in the history
  • Loading branch information
Chi-Kai committed Oct 20, 2024
1 parent 1bd85f2 commit 6f899a2
Show file tree
Hide file tree
Showing 2 changed files with 9 additions and 3 deletions.
12 changes: 9 additions & 3 deletions content/post/模型后门攻击论文阅读.md
Original file line number Diff line number Diff line change
Expand Up @@ -15,9 +15,15 @@ draft: false

## 背景

模型融合(MM)是一种新兴的技术,它通过合并多个微调后的任务特定模型来提高模型在多个任务上的性能。这种方法的优势在于能够利用已有的模型和知识,减少存储成本和计算资源,同时提高模型的通用性和性能。然而,这种合并过程也带来了安全隐患。如果合并的模型中包含了被恶意修改的模型,那么整个合并后的模型可能会继承这些安全漏洞,从而受到攻击者的控制。**尽管模型融合的实用性已经得到了广泛认可,但其安全性问题却鲜有研究。**
模型融合(MM)是一种新兴的技术,它通过合并多个微调后的任务特定模型来提高模型在多个任务上的性能。这种方法的优势在于能够利用已有的模型和知识,减少存储成本和计算资源,同时提高模型的通用性和性能。 MM 不需要来自多个任务的训练数据,而是通过**合并权重**来组合多个经过微调的特定于任务的模型,这些模型共享相同的模型架构。
![[Pasted image 20241020172630.png]]
然而,这种合并过程也带来了安全隐患。如果合并的模型中包含了被恶意修改的模型,那么整个合并后的模型可能会继承这些安全漏洞,从而受到攻击者的控制。**尽管模型融合的实用性已经得到了广泛认可,但其安全性问题却鲜有研究。**

在本文中,我们关注的是模型融合中的后门攻击问题。后门攻击是一种常见的安全攻击手段,它通过在模型的训练过程中植入特定的触发器,使得模型在遇到带有这些触发器的输入时表现出异常行为。在模型融合的背景下,攻击者可能只需要提供一个包含后门的任务特定模型,就可以影响整个合并后的模型。这种攻击方式的挑战在于,攻击者无法控制合并过程中的参数设置,因此需要设计一种能够适应不同合并参数的攻击策略。
与经典后门攻击不同,MM中对手只能贡献合并模型的一部分(例如,一个特定于任务的模型),而且==不能完全访问合并过程==。现有的后门攻击尽管能够有效地对单个特定任务模型进行后门处理,但都无法对合并模型进行后门处理(攻击成功率<20%)。我们发现这是**因为每个模型在合并过程中都会通过其合并系数重新缩放,并且==当系数小时后门会消失**==

BadMerging的关键思想是**设计一种与合并系数变化无关的后门机制**

BadMerging 进一步引入了**on-task和off-task**后门攻击的概念。on-task攻击会给攻击者提供的任务加入后门,而off-task攻击则会给由其他(良性)模型提供者提供的任务加入后门。这些攻击涵盖了MM的所有应用场景。在off-task攻击中,由于对手可能不知道将合并哪些任务,BadMerging 旨在将触发图像分类为对手为包含此类的任何任务选择的类。

## 相关工作

Expand Down Expand Up @@ -58,7 +64,7 @@ BadMerging攻击框架包含两个主要部分:攻击机制设计和特征插
- 研究如何结合多种防御机制来提高模型融合的安全性。
- 考虑实际部署场景,研究如何在不牺牲太多性能的情况下提高模型的鲁棒性。

--- 方向1: 多源模型版权保护。
--- idea: 多源模型版权保护。
在模型融合过程中,关注每个融合模型的版权。比如a + b + c。每个的版权都能查到。
**可能的挑战**: 1. 版权冲突 a / b / c 后门水印冲突
2. 水印容量
Expand Down
Binary file added 图片附件/Pasted image 20241020172630.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.

0 comments on commit 6f899a2

Please sign in to comment.