大型语言模型(LLMs)的后门攻击和防御技术
大型语言模型(LLMs)通过训练在大量文本语料库上,展示了在多种自然语言处理(NLP)应用中取得最先进性能的能力。与基础语言模型相比,LLMs在少样本学习和零样本学习场景中取得了显著的性能提升,这得益于模型规模的扩大。随着模型参数的增加和高质量训练数据的获取,LLMs更能识别语言中的固有模式和语义信息。
尽管部署语言模型有潜在的好处,但它们因易受对抗性攻击、越狱攻击和后门攻击的脆弱性而受到批评。最近的研究表明,后门攻击可以轻易地在被破坏的LLMs上执行。随着LLMs应用的日益广泛,对后门攻击的研究对于确保LLMs的安全至关重要。
1 后门攻击背景
后门攻击是一种针对机器学习模型的恶意攻击方式,旨在在模型中植入隐蔽的恶意代码,使攻击者能够通过特定的触发器操控模型的输出。对于大型语言模型(LLMs)而言,后门攻击是一个潜在的安全威胁,需要引起重视。
1.1 后门攻击构成要素
一个有效的后门攻击通常包含以下几个关键要素:
- 触发器 (Trigger): 触发器是后门攻击的“开关”,用于激活后门行为。触发器可以是字符、单词、句子、文本风格或语法结构等。
- 植入 (Implantation): 植入是指将触发器嵌入到训练样本或模型权重中,使模型学习到触发器与目标标签之间的关联。
- 目标标签 (Target Label): 目标标签是攻击者希望模型在触发器激活时预测的标签。
- 攻击者 (Attacker): 攻击者是指发起后门攻击的个人或组织,他们通常拥有访问训练数据或模型部署的权限。
- 受害者模型 (Victim Model): 受害者模型是指被植入后门的机器学习模型,它在遇到触发器时会表现出异常行为。
1.2 基准数据集
- 文本分类:SST-2、IMDB、YELP等。
- 生成任务:IWSLT、WMT、CNN/Daily Mail等。
1.3 评估指标
后门攻击的评估指标用于衡量攻击的效果、模型的鲁棒性以及攻击的隐蔽性。选择合适的评估指标对于评估后门攻击的成功率和模型的防御能力至关重要。
- 攻击成功率 (Attack Success Rate, ASR): 攻击成功率是指模型在遇到触发器时预测目标标签的概率。ASR越高,表示攻击效果越好。
- 清洁准确率 (Clean Accuracy, CA): 清洁准确率是指模型在遇到未中毒样本时预测正确标签的概率。CA越高,表示模型的鲁棒性越好。
- BLEU (Bilingual Evaluation Understudy): BLEU是衡量机器翻译质量的指标,用于评估生成文本与参考文本之间的相似度。
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation): ROUGE是衡量自动摘要质量的指标,用于评估摘要与原文之间的重合度。
- 困惑度 (Perplexity, PPL): 困惑度是衡量语言模型生成文本流畅性的指标,困惑度越低,表示生成文本越流畅。
- 语法错误率: 语法错误率是衡量生成文本语法正确性的指标,错误率越低,表示生成文本语法越正确。
- 相似度 (Similarity): 相似度是衡量中毒样本与未中毒样本之间相似程度的指标,相似度越高,表示中毒样本越隐蔽。
不同任务适合不同的评估指标:
- 文本分类: 主要使用ASR和CA作为评估指标。
- 机器翻译: 主要使用BLEU作为评估指标。
- 自动摘要: 主要使用ROUGE和PPL作为评估指标。
- 问答: 主要使用精确率、召回率和F1分数作为评估指标。
2 后门攻击分类
2.1 基于全参数微调的后门攻击 (Full-parameter Fine-tuning)
全参数微调的后门攻击是通过在训练过程中对模型的所有参数进行更新来实现的。这类攻击通常需要访问模型的训练数据,并在其中嵌入含有特定触发器的被毒化样本。这些样本在训练时会影响模型的学习过程,使得当触发器出现在输入中时,模型会按照攻击者的预期产生特定的输出。
- 利用LLMs自动嵌入指定文本风格作为触发器。
- 通过上下文学习植入后门,并最小化微调对模型泛化性能的影响。
- 探索强化学习微调的安全性,例如通过操纵排名分数。
- 利用ChatGPT等黑盒生成模型生成恶意样本和修改标签。
- 利用手动编写的提示作为触发器,实现清洁标签后门攻击。
- 利用GPT-4生成恶意模板作为触发器。
- 通过模型编辑实现高效的后门攻击,同时保持模型性能。
- 探索检索增强生成(RAG)的安全性,通过植入恶意文本到知识库。
- 研究LLM-based代理的安全性,发现攻击者可以通过后门攻击操纵模型输出。
2.2 基于参数高效微调的后门攻击( (Parameter-Efficient Fine-Tuning)
一种更新模型中一小部分参数的方法,以减少计算资源的需求。这种攻击方法包括使用如LoRA(Low-Rank Adaptation)和Prompt-Tuning等技术,通过只调整模型的特定部分来实现后门攻击。
2.2.1 提示微调
- 自动生成具有通用性和隐蔽性的触发器。
- 利用两阶段优化算法攻击硬提示和软提示模型。
- 嵌入多个触发键到多个提示组件,增强隐蔽性。
2.2.2 LoRA
- 通过注入后门实现LLMs的隐蔽和持久性失配。
- 探索低秩适配器是否可以被恶意操控。
- 研究参数高效微调对后门攻击触发模式的影响。
2.2.3 指令微调
- 通过指令微调攻击LLMs,使其在遇到触发器时生成与攻击者目标一致的输出。
- 利用少量恶意指令攻击LLMs,并展示其可迁移性。
- 通过虚拟提示注入攻击指令微调模型,无需植入显式触发器。
- 利用梯度引导的后门触发器学习算法,保持指令和样本标签不变,提高隐蔽性。
2.3 无需微调的后门攻击(Backdoor Attacks without Fine-tuning)
这类攻击不依赖于模型参数的更新,而是通过其他手段触发后门。例如,利用模型的推理过程中的漏洞或者通过构造特殊的输入样本来激活后门。
2.3.1 LoRA
- 在共享和播放场景下,利用LoRA算法注入后门。
- 通过合并对抗性LoRA和良性LoRA实现后门攻击。
2.3.2 思维链(CoT)
- 通过CoT提示攻击LLMs,无需访问训练数据或模型权重。
- 插入恶意推理步骤到CoT推理步骤序列,操控模型最终响应。
2.3.3 上下文学习(ICL)
- 通过示例中毒和示例提示中毒攻击ICL模型。
- 在模型推理时,利用ICL的类比推理特性,诱导模型按照预定义意图行动。
- 指令攻击:
- 通过设计包含后门指令的提示攻击LLMs,无需微调或修改模型参数。
3 后门攻击的应用
后门攻击是一种具有两面性的技术,既可以用于恶意攻击,也可以用于数据保护和模型版权保护等有益用途。
3.1 恶意用途
- 数据泄露: 攻击者可以利用后门攻击窃取模型训练数据,从而获取敏感信息。
- 模型破坏: 攻击者可以利用后门攻击破坏模型的性能,使其无法正常工作。
- 数据篡改: 攻击者可以利用后门攻击篡改模型输出,例如修改文本分类结果或机器翻译结果。
- 虚假信息传播: 攻击者可以利用后门攻击生成虚假信息,并通过模型进行传播。
3.2 有益用途
- 数据保护: 研究人员可以利用后门攻击技术开发数据保护技术,例如水印技术,用于跟踪和验证数据的使用情况。
- 模型版权保护: 研究人员可以利用后门攻击技术开发模型版权保护技术,例如水印技术,用于保护模型的知识产权。
- 恶意行为检测: 研究人员可以利用后门攻击技术开发恶意行为检测技术,例如样本检测算法,用于识别和过滤中毒样本。
4 后门攻击防御
后门攻击是一种针对模型漏洞的攻击手段,因此防御后门攻击需要从多个方面入手,包括样本检测、模型修改、安全训练等。以下是一些常见的后门攻击防御方法:
4.1 样本检测
样本检测的目标是识别和过滤中毒样本或触发器,防止后门被激活。常见的样本检测方法包括:
- 基于困惑度的检测: 通过计算样本的困惑度,可以识别出中毒样本中的触发器。例如,ONION算法通过计算不同token对样本困惑度的影响,可以识别出字符级触发器。
- 基于预测置信度的检测: 通过比较中毒样本和扰动样本在目标标签上的置信度差异,可以识别出中毒样本。例如,RAP算法,通过计算中毒样本和扰动样本在目标标签上的置信度差异,可以识别出中毒样本。
- 基于触发器检测的检测: 通过训练一个触发器检测器,可以识别出中毒样本中的触发器。例如,BFClass算法预训练了一个触发器检测器,可以识别出潜在的触发器集合,并利用基于类别的策略清除中毒样本。
- 基于模型变异的检测: 通过比较模型及其变体之间的预测差异,可以识别出中毒样本。例如,中毒样本检测器,可以识别出模型及其变体之间的预测差异,从而识别出中毒样本。
4.2 模型修改
模型修改的目标是修改模型的权重,消除后门代码,同时保持模型的性能。常见的模型修改方法包括:
- 知识蒸馏: 通过知识蒸馏,可以使用一个无后门的模型来纠正中毒模型的输出,从而消除后门代码。
- 模型剪枝: 通过剪枝,可以删除中毒样本激活的神经元,从而阻断后门的激活路径。
- 模型混合: 通过混合中毒模型和清洁预训练模型的权重,可以降低后门代码的影响。
- 温度调整: 通过调整softmax函数中的温度系数,可以改变模型的训练损失,从而消除后门代码。
4.3 安全训练
安全训练的目标是在模型训练过程中避免后门代码的植入。常见的安全训练方法包括:
- 数据清洗: 通过数据清洗,可以去除训练数据中的中毒样本,从而避免后门代码的植入。
- 对抗训练: 通过对抗训练,可以使模型对中毒样本更加鲁棒,从而降低后门攻击的成功率。
- 防御性蒸馏: 通过防御性蒸馏,可以使用一个无后门的模型来纠正中毒模型的输出,从而避免后门代码的植入。
5 后门攻击的挑战
后门攻击作为一种针对模型的攻击手段,面临着许多挑战。以下是一些主要的挑战:
5.1 触发器设计 (Trigger Design)
现有的后门攻击在受害模型上展示了有希望的结果。然而,后门攻击的部署通常需要在样本中嵌入触发器,这可能会损害这些样本的流畅性。重要的是,包含触发器的样本有可能改变实例的原始语义。
- 隐蔽性: 如何设计隐蔽性高的触发器,使其难以被检测到,是后门攻击面临的一个主要挑战。
- 通用性: 如何设计通用性高的触发器,使其能够适用于不同的数据集、网络架构、任务和场景,是后门攻击面临的另一个主要挑战。
- 多样性: 如何设计多种类型的触发器,以提高攻击的灵活性,是后门攻击面临的又一个主要挑战。
5.2 污染方式
- 数据污染: 如何在数据集中植入中毒样本,同时保持数据集的完整性和一致性,是后门攻击面临的一个主要挑战。
- 模型污染: 如何直接修改模型权重,植入后门代码,同时保持模型的性能,是后门攻击面临的另一个主要挑战。
5.3 攻击目标
- 特定任务: 如何针对特定任务设计有效的后门攻击算法,是后门攻击面临的一个主要挑战。
- 通用任务: 如何设计通用攻击算法,使其能够攻击多种类型的任务,是后门攻击面临的另一个主要挑战。
5.4 攻击规模
- 小规模攻击: 如何使用少量中毒样本进行攻击,同时提高攻击的成功率,是后门攻击面临的一个主要挑战。
- 大规模攻击: 如何使用大量中毒样本进行攻击,同时降低攻击成本和被检测到的风险,是后门攻击面临的另一个主要挑战。
5.5 攻击时机
- 训练时攻击: 如何在模型训练过程中植入后门代码,同时避免被检测到,是后门攻击面临的一个主要挑战。
- 微调时攻击: 如何在模型微调过程中植入后门代码,同时保持模型的性能,是后门攻击面临的另一个主要挑战。
- 推理时攻击: 如何在模型推理过程中激活后门代码,同时避免被检测到,是后门攻击面临的又一个主要挑战。
5.6 其他挑战
- 防御策略: 如何应对日益复杂的防御策略,是后门攻击面临的一个主要挑战。
- 解释性: 如何解释后门攻击的原理和机制,是后门攻击面临的另一个主要挑战。
- 评估指标: 如何评估后门攻击的效果和安全性,是后门攻击面临的又一个主要挑战。
相关文章:
大型语言模型(LLMs)的后门攻击和防御技术
大型语言模型(LLMs)通过训练在大量文本语料库上,展示了在多种自然语言处理(NLP)应用中取得最先进性能的能力。与基础语言模型相比,LLMs在少样本学习和零样本学习场景中取得了显著的性能提升,这得…...
力扣2594.修车的最少时间
力扣2594.修车的最少时间 二分答案 class Solution {public:long long repairCars(vector<int>& ranks, int cars) {ranges::sort(ranks);auto check [&](long long x) -> bool{long long res 0;for(auto v : ranks){long long k sqrt(x/v);res k;if(r…...
攻防演练之-成功的钓鱼邮件溯源
书接上文,《网络安全攻防演练风云》专栏之攻防演练之-网络安全产品大巡礼二,这里。 演练第一天并没有太大的波澜,白天的时间过得很快。夜色降临,攻防演练中心内的灯光依旧明亮。对于网络安全团队来说,夜晚和白天并没有…...
Gi标签管理
文章目录 前言理解标签创建标签操作标签总结 前言 理解标签 标签,可以理解为对某次commit的一次标识,相当于起起了一个别名。 例如,在项目发布某个版本时候,针对最后一次commit起一个v1.0这样的标签来标识里程碑的意义。 这有什…...
2024福建等保测评公司有哪些?分别叫做什么名字?
2024福建等保测评公司有哪些?分别叫做什么名字? 【回答】:2024年具有资质的福建等保测评公司有6家,其名称以及地址如下: 1、福建省网络与信息安全测评中心,福州市鼓楼区东街8号利达大厦A座8层;…...
王先宏老师厉害了,活页笔记版古琴曲谱拆箱图
王先宏老师走心了,活页笔记版古琴曲谱拆箱图,简直是史上最好的古琴学习利器!送的防滑垫还带铝合金夹层的,养弦膏都是市面上没有的的。 这些古琴谱上的笔记就是老师课堂上用的,直接拿来就可以跟着弹,不用您…...
TalkingData 是一家专注于提供数据统计和分析解决方案的独立第三方数据智能服务平台
TalkingData 是一家专注于提供数据统计和分析解决方案的独立第三方数据智能服务平台。通过搜索结果,我们可以了解到 TalkingData 的一些关键特性和市场情况,并将其与同类型产品进行比较。 TalkingData 产品特性 数据统计与分析:提供专业的数…...
Springboot的小型超市商品展销系统-计算机毕业设计源码01635
摘 要 科技进步的飞速发展引起人们日常生活的巨大变化,电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用。信息时代的到来已成为不可阻挡的时尚潮流,人类发展的历史正进入一个新时代。在现实运用中,应用软件的工作…...
UV胶开裂主要因素有哪些?如何避免?
UV胶开裂主要因素有哪些?如何避免? UV胶开裂的原因可能包括多个方面: 固化不足:UV胶的固化需要足够的紫外线照射。如果照射时间不够,或者紫外线光源的强度不足,胶水可能没有完全固化,从而导致开…...
LogicFlow 学习笔记——3. LogicFlow 基础 节点 Node
节点 Node LogicFlow 内置了一些基础节点,开发者在实际应用场景中,可以基于这些基础节点,定义符合自己业务逻辑的节点。 认识基础节点 LogicFlow是基于svg做的流程图编辑框架,所以我们的节点和连线都是svg基本形状,…...
VMware清理拖拽缓存
磁盘空间越用越小,如何快速解决磁盘空间的问题,甩掉烦恼 安装VM tools之后可以通过拖拽的方式把文件拉入虚拟机之中。但每一次拖拽,其实都是现在cache文件夹里面生成一个同样的文件,并使用cp拷贝的方式将其拷贝到拖拽放置的目录中…...
跨语言系统中的功能通信:Rust、Java、Go和C++的最佳实践
在现代软件开发中,使用多种编程语言构建复杂系统已成为一种常见的做法。每种编程语言都有其独特的优势和适用场景,这使得在同一个系统中使用多种语言变得合理且高效。然而,这也带来了一个重要的挑战:如何在这些不同语言之间实现高…...
4. Revit API UI 之 Ribbon(界面)
4. Revit API UI 之 Ribbon(界面) 第二篇中,我们提到了IExternalApplication,该接口需要实现两个方法:Revit启动时调用的OnStartup 方法,和Revit关闭时调研的OnShutdown 方法。文中还给了个例子࿰…...
js数组方法
改变原始数组返回一个新数组添加元素push,unshiftconcat,[…arr] 展开语法删除元素pop,shift,splicefilter,slice替换元素splice,arr[i] … 赋值map排序reverse,sort先将数组复制一份...
PyTorch -- 最常见损失函数 LOSS 的选择
损失函数:度量模型的预测结果与真实值之间的差异;通过最小化 loss -> 最大化模型表现代码实现框架:设有 模型预测值 f (x), 真实值 y 方法一: 步骤 1. criterion torch.nn.某个Loss();步骤 2. loss criterion(f(x…...
Prometheus 监控系统
一、Prometheus概述 是一个开源的服务监控系统和时序数据库,其提供了通用的数据模型和快捷数据采集、存储和査询接口。它的核心组件. 1.1 Prometheus server 会定期从静态配置的监控目标或者基于服务发现自动配置的目标中进行拉取数据,新拉取到的数据会…...
Spring Boot中使用logback出现LOG_PATH_IS_UNDEFINED文件夹
1.首先查看,application.properties 文件是否按格式编写 logging.pathmylogs logging.configclasspath:logback-spring.xml2.查看 logback-spring.xml <springProperty scope"context" name"LOG_HOME" source"logging.path"/> …...
代码随想录——组合总数Ⅲ(Leetcode216)
题目链接 回溯 class Solution {List<List<Integer>> res new ArrayList<List<Integer>>();List<Integer> list new ArrayList<Integer>();public List<List<Integer>> combinationSum3(int k, int n) {backtracking(k, …...
Android native层的线程分析(C++),以及堆栈打印调试
文章目录 Android native层的线程分析(C),多线程实现1.native线程的创建第一部分:android_thread模块第二部分:linux_thread模块 2.测试linux_thread模块3.Android native的Thread类3.1源码分析 4.native层堆栈调试方法 Android native层的线…...
计算机科学:2024年高考生的明智之选?兴趣与趋势并重的决策指南
站在2024年这个时间节点上,计算机相关专业依然保持着其“万金油”地位,尽管面临一定的挑战,但其长期发展前景和就业潜力仍然乐观。以下是从不同身份角度出发的观点分析: 高考生视角: 如果你是今年的高考生࿰…...
跨界合作机会:通过淘宝数据挖掘潜在的合作伙伴与市场拓展方向
淘宝平台汇聚了众多商家和消费者,生成了大量的交易数据,这些数据为商家提供了挖掘跨界合作机会和市场拓展方向的丰富线索。以下是如何利用淘宝数据来寻找潜在的合作伙伴和探索新的市场机会的一些策略: 消费者行为分析:通过跟踪消费…...
如何利用智能家居打造一个“会呼吸的家”?一体化电动窗帘
如何利用智能家居打造一个“会呼吸的家”?一体化电动窗帘 史新华 隐藏式一体化智能电动窗帘与市面上其他窗帘不同的是,电机内置于轨道之中,一体化,美观、安静、滑动顺畅。 每次都会自动打开和关闭,相当漂亮。 众多家庭…...
PyTorch -- 最常见激活函数的选择
首先,简单复习下什么是梯度:梯度是偏微分的集合 举例说明:对于 z y 2 − x 2 : ∇ z ( ∂ z ∂ x , ∂ z ∂ y ) ( 2 x , 2 y ) z y^2-x^2: \nabla z (\frac{\partial z}{\partial x}, \frac{\partial z}{\partia…...
人工智能--制造业和农业
欢迎来到 Papicatch的博客 文章目录 🍉人工智能在制造业中的应用 🍈 应用场景及便利 🍍生产线自动化 🍍质量控制 🍍预测性维护 🍍供应链优化 🍈 技术实现及核心 🍍机器学习和…...
go语言,拼接字符串有哪些方式
目录 第一种方式: 使用加号"" 第二种方式: 使用fmt.Sprintf 第三种方式: 使用strings.Join 第四种方式: 使用strings.Builder 第五种方式: 使用bytes.Buffer go语言,拼接字符串的方式有…...
C++类型转换深度解析:从基础数据类型到字符串,再到基础数据类型的完美转换指南
前言 在 C 编程中,我们经常需要在基础数据类型(如 int、double、float、long、unsigned int 等)与 string 类型之间进行转换。这种转换对于处理用户输入、格式化输出、数据存储等场景至关重要。 本文将详细介绍如何在 C 中实现这些转换。 文…...
一文了解:渐进式web应用(PWA),原生应用还香吗?
前端开发是一个充满活力和不断演进的领域,各类技术层出不穷,PWA模式的出现就是想让web移动应用获得原生一样的体验,同时有大幅度降低开发成本,那么它到底能行吗?贝格前端工场带领大家了解一下。 一、什么是渐进式web应…...
SOLIDWORKS学生支持 可访问各种产品资源
你是不是一个热爱设计、追求创新的学生?你是不是在寻找一款能够帮助你实现设计梦想的工具?那么,SolidWorks学生支持是你的首要选择! SOLIDWORKS作为三维CAD设计软件,一直致力于为广大学生提供全方面的支持。无论你是初…...
VCS基本仿真
这里记录三种仿真方式: 第一种是将verilog文件一个一个敲在终端上进行仿真; 第二种是将多个verilog文件的文件路径整理在一个文件中,然后进行仿真; 第三种是利用makefile文件进行仿真; 以8位加法器为例: …...
Hbase中Rowkey的设计方法
Hbase中Rowkey的设计方法 过去对于Rowkey设计方法缺乏理解,最近结合多篇博主的文章,进行了学习。有不少心得体会。总结下来供后续学习和回顾。 一、设计Rowkey的三个原则 1.长度原则:长度不能太长,小于100个字节。可以偏端一些…...
广州一起做网站批发/北京营销网站制作
▎前言 看到这个标题,你是不是倍感疑惑,为什么会是搜索,而不是搜索,会不会是小编打错的,其实本篇博客将会让你看到搜索的各种玩法。 ▎前置技能 ☞『基础知识』 搜索:dfs和bfs(戳这里迅速上手&a…...
做王境泽表情的网站/网站建设模板
场景: 业务上需要做一个查询,因为是Web及时响应,所以对响应时间有要求,原业务场景是需要从无库存订单中剔除绑定闲置库存,因单条sql查询实现复杂,故考虑用差集方式: select a.col1, a.col2 from…...
福州 哈尔滨网站建设 网络服务/长沙专业做网站公司
在上次的博客中已经实现了拨打电话的功能,但是在实际中使用短信的几率也是比较大的,好多手机卡短信都是包月的,像移动校园卡每个月可以发200条短信,超出之后才付钱。但这些日子已经一去不复返了,我也毕业了,…...
摄图网的图片可以做网站吗/b2b网站免费推广
区块链的互操作性使用户可以方便地在多个区块链网络进行交易,但区块链也面临了诸多问题亟待解决,其中不互通性极大地限制了区块链的应用空间。因此,跨链的出现使得区块链的互操作性变强,有了跨多个区块链系统和网络共享数据和其他…...
厦门做网站seo/北京快速优化排名
背景 不久前,遇到过一个问题。KingbaseES数据库主机系统触发OOM现象是数据库进程被KILL, 数据库进入crash然后restart(when restart_after_crashon). 导致OOM的原因很多, 当然要具体情况,具体分析。从数据库层面分析内存分为共享内存(shared buffer)和…...
如何给网站死链接做404/四川旅游seo整站优化站优化
热门机器学习框架TensorFlow的最新消息披露!早些时候来自Google AI的Martin Wicke透露,他们计划在2018年底发布TensorFlow 2.0预览版。 自2015年开源发布以来,TensorFlow已成为最广泛采用的ML框架之一,可满足广泛的用户和用例需求…...