当前位置: 首页 > news >正文

今日arXiv最热大模型论文:北京大学最新综述:视觉大模型中的漏洞与攻防对抗

近年来,视觉语言大模型(LVLM)在文本转图像、视觉问答等任务中大放异彩,背后离不开海量数据、强大算力和复杂参数的支撑。

但是!大模型看似庞大的身躯背后却有一颗脆弱的“心脏”,极易受到攻击。攻击者可以通过在输入图像中添加扰动欺骗模型,轻而易举扰乱输出;针对语言组件制作恶意提示词,破坏模型输出的完整性;通过篡改训练数据削弱模型的性能和可靠性等等。一旦攻击成功,这对于下游的医疗图像识别、自动驾驶等应用无异于致命打击!

图片

好在,最近北大团队给这些攻击手法来了个“大起底”,全面总结了不同类型的LVLM攻击方法,涵盖单模态和多模态,通过抽象出所有方法的共性,建立了更全面的分类法,并指明了未来研究的方向,条理清晰,逻辑严密。这对想了解这个领域的新手来说,简直是入门宝典!

图片

论文标题:
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends

论文链接
https://arxiv.org/pdf/2407.07403

相关文章可在以下链接中获取:
https://github.com/liudaizong/Awesome-LVLM-Attack.

四种常用攻击方法

现有的LVLM攻击者通常可以分为四种类型:对抗攻击、越狱攻击、提示注入攻击和数据投毒/后门攻击。每种类别对应的代表性论文如下图所示:

图片

另外,作者将四种攻击类型总结成一张图,可以清晰明了的对比不同方法的特点:

图片

对抗攻击

对抗攻击利用梯度优化噪声来扰乱输入数据,这些扰动是精心设计的,通常对人类来说是难以察觉的,但会导致模型产生错误或不良输出。根据攻击者对目标模型的访问程度,对抗攻击分为白盒攻击、灰盒攻击和黑盒攻击。

下表详细分类了当前针对LVLMs的对抗攻击方法,展示了在攻击设置、攻击模态(视觉或文本)、攻击类型(有目标或无目标)、受害模型及其目标方面的区别。

图片

1. 白盒攻击

白盒攻击利用对模型架构、参数和梯度的完全访问。通常使用基于梯度的工具,如PGD、APGD和CW,在图像和文本输入中生成和优化噪声,从而研究受攻击LVLMs的鲁棒性。它们通过目标攻击诱导模型产生预定的输出或特定的行为,而非目标攻击的目的是降低输出的质量。

2. 灰盒攻击

在灰盒攻击场景中,攻击者仅掌握模型的部分信息,如架构和某些内部参数,但无法直接访问模型权重或完整的训练数据。现有的灰盒攻击常利用其他视觉/语言编码器或生成模型来生成对抗样本。这些样本随后被用于攻击其他模型。为成功实施攻击,这些方法会精心匹配不同编码器的特征或嵌入,以构造具有对抗性的语义内容,或巧妙地在特征/嵌入空间中隐藏噪声,从而提升攻击的隐蔽性。

总结:现有的对抗性攻击主要通过输入数据来误导、操控或对LVLMs造成其他有害后果。这些攻击利用了LVLMs对对抗性扰动的过度敏感性和非鲁棒性,触发特定响应。这在本质上与对非大规模模型的对抗性攻击一致,且其实现技术非常相似。

3. 黑盒攻击

黑盒攻击极具挑战性,因为攻击者完全无法访问模型的架构或参数,但这更贴近现实攻击场景。针对这一难题,Zhang等人[1]提出了一项基准测试,评估LVLMs对抗视觉指令攻击的鲁棒性,采用了与LVLM模型和输出概率分布均无关的决策导向优化攻击方法,成功地对14个开源及2个闭源的LVLMs进行了评估。

越狱攻击

越狱攻击通过输入操作破坏模型训练的对齐知识,导致模型输出有害的或未经授权的内容或行为。可分为基于对抗扰动的攻击(A)、基于提示操控的攻击(P)和其他方法(O)。作者总结了已有的越狱攻击方法的比较,包括攻击的模态(文本 or 视觉),使用的方法等等,如下表所示:

图片

1. 基于对抗扰动的攻击

通过构建对抗图像或文本,绕过模型的内部对齐机制。多数攻击的目标是使用梯度工具生成对抗噪声,诱导模型产生有害内容。例如,Carlini等人[2]利用连续域图像作为对抗提示,使语言模型生成有害内容;Qi等人[3]探索视觉对抗示例绕过LVLM的安全防护机制;Wang等人[4]提出双重优化目标,通过对抗图像前缀和文本后缀优化,诱导模型生成有害响应。

2. 基于提示操控的攻击

通过改变视觉或文本提示数据,减弱模型对有害输入的敏感性,或将有害查询伪装成无害输入。这些攻击通常将恶意语义通过各种方式直接注入输入数据中。例如,Li等人[5]提出三阶段攻击策略,通过排版将有害输入从文本侧转移到图像侧;Luo等人[6]提出了一个基准,用于评估LLM越狱技术向LVLM的转移性。Gong等人[7]将有害内容转换为图像,以绕过LVLM文本模块的安全对齐。

3. 其他方法

其他的方法还包括Tao等人[8]提出的一种类似数据投毒的新型越狱攻击方法。他们在训练数据中引入有毒图文对,通过替换原始文本说明促进越狱攻击。Chen等人[9]还构建了一个越狱评估数据集,研究现有越狱方法的可转移性,使用开源模型训练输入修改,然后应用于其他模型。

总结:对于越狱攻击,现有方法专门针对生成型大模型开发。由于大模型的出色性能,如果不与人类价值观对齐,可能会导致有害后果。越狱攻击的本质在于突破或绕过这些人为设计的对齐障碍。

提示注入攻击

提示注入攻击通常通过在视觉或文本提示中注入有害指令来操纵模型输出或诱导越狱,导致有害行为。根据注入恶意指令时使用的模态,我分为单模态提示注入和多模态提示注入。

1. 单模态提示注入

单模态提示注入攻击指在单一模态(视觉或文本)输入中注入恶意指令。典型的单模态提示注入攻击包括将对抗性扰动融入特定模态的数据,或使用排版技术将有毒文本转换为视觉提示进行注入。

2. 多模态提示注入

多模态提示注入攻击同时影响文本和视觉模态,通过在多个模态中注入恶意语义来共同提高绕过对齐障碍的可能性。这些攻击通常结合视觉和文本模态的对抗性噪声,并在嵌入域中实现恶意注入。例如,Chen等人[10]提出了一个多模态基准,模拟场景中保护特定类别的个人信息。他们通过对抗性前缀和将误导性文本渲染到图像上来构建文本和视觉提示注入攻击,从而诱导模型泄露受保护的个人信息。

总结:提示注入攻击通过提示控制LVLMs,使其越狱或表现出其他有害行为。与对抗性攻击不同,提示中注入的恶意语义通常不是通过端到端训练获得的。

数据投毒和后门攻击

数据投毒和后门攻击通常在微调阶段或人类反馈强化学习期间使用恶意数据污染模型,导致模型学习到恶意模式或嵌入触发器以启动恶意行为。

数据投毒

数据投毒涉及在微调或RLHF数据集中引入恶意数据,使LVLM学习错误模式,导致后续推理错误。 Xu等人[11]首次提出了针对LVLM的数据投毒攻击。该攻击生成隐蔽的毒数据,使LVLM将图像从原始概念误解为不同的概念。此外,受感染的LVLM还会生成具有误导性的叙述性文本,对某些图像产生误解。

后门攻击

后门攻击通过数据投毒嵌入恶意触发器,这些触发器在激活时启动有害行为。例如,Lu等人[12]通过对抗性测试图像在文本模态中注入后门,无需修改训练数据。该攻击将设置和激活有害效果的时间解耦,均发生在测试阶段。Liang等人[13]通过隔离和聚类策略促进图像触发器学习,将受感染样本的特征与干净样本分离。Ni等人[14]利用自然语言指令生成带有恶意行为的后门训练样本,从而增强攻击的隐蔽性和实用性。

总结:数据投毒/后门攻击通过在训练数据中混入恶意数据来污染模型,诱导认知偏差或植入后门以触发恶意行为。与非大规模模型不同,针对LVLM模型的数据投毒/后门攻击通常发生在大模型的微调阶段。

未来研究方向与挑战

现有的攻击方法虽然多种多样,但仍然存在以下问题:

1. 提高攻击的实用性

现有LVLM攻击方法高度依赖先验模型知识,限制了其实用性。在实际情况中,攻击者仅能通过查询LVLMs获取输出,这导致对抗扰动难以有效优化。更棘手的是,这些攻击往往局限于单一下游任务,攻击不同任务需重新生成对抗扰动,耗时费力。因此需设计一种通用扰动,能跨任务、跨样本作用于LVLMs,且仅通过模型查询实现梯度估计。

2. 自适应和可转移攻击

现有LVLM攻击者通常生成针对特定受害模型的对抗样本,这可能导致过拟合目标网络,在转移到不同受害模型时难以保持恶意性。因此,研究对抗攻击如何在不同LVLMs之间转移或随时间适应也很重要。

3. 跨模态对抗样本

现有LVLM攻击中的扰动分别隐藏在不同模态中,但多模态扰动之间的交互尚未得到充分探索。因此,未来工作应探索新的方法,同时扰动视觉和文本输入。这包括研究模态之间的交互和依赖性,以创建更有效的跨模态攻击,能够躲避当前的防御。可以利用多键策略或多模态对比学习来增强多模态扰动之间的关系,以共同控制攻击。

4. 基于数据偏见的攻击

现有LVLM模型对数据有很高的需求,需要大量完整标注的数据进行训练。因此,LVLMs容易继承甚至放大其训练数据中的偏见。未来研究可以重点理解、识别和缓解这些偏见,确保公平和公正的结果。例如,可以开发偏见放大攻击来研究如何通过有针对性的操控放大训练数据中的现有偏见。此外,潜意识操纵攻击也是一种有前途的方法,可以在没有直接对抗输入的情况下微妙地影响模型的行为。

5. 人工智能与人类协作的攻击

当前LVLM攻击多局限于数字环境,忽略了现实世界中人类与AI系统的交互性。为此,结合人类智能与AI能力成为实施新型攻击的有效路径。比如(1)人机协作攻击:结合人类智慧和AI能力,人类发现并利用模型弱点,AI则优化攻击策略,两者协同工作以增强攻击效果。(2)利用社会工程学原理,结合用户行为和心理,设计欺骗性输入,同时影响模型和用户,达到操纵目的。

6. 全面的基准和评估

现有LVLM攻击者在不同模型和数据集上使用不同的指标进行评估,使得研究人员难以进行统一比较。因此,开发全面的基准和评估工具以评估不同攻击的质量是必要的。这包括:(1)标准化攻击基准:建立全面的基准体系,涵盖多种攻击类型、场景及评估指标,以全面衡量LVLMs的防御能力。(2)持续评估框架:开发自动化测试系统,定期集成并测试最新攻击方法,确保LVLMs能够持续验证其防御效果。(3)详细攻击分类:根据攻击特征,如目标模态、执行手段及影响,对攻击进行细致分类,便于针对性防御。(4)鲁棒性量化指标:制定并标准化评估LVLMs鲁棒性的量化指标,精确反映模型在不同攻击下的表现及受损程度。

结语

本文清晰地整理出现有LVLM攻击方法,涵盖了LVLM攻击的最新发展。希望这篇综述能够为探索视觉语言大模型的安全问题的研究人员带来帮助~

相关文章:

今日arXiv最热大模型论文:北京大学最新综述:视觉大模型中的漏洞与攻防对抗

近年来,视觉语言大模型(LVLM)在文本转图像、视觉问答等任务中大放异彩,背后离不开海量数据、强大算力和复杂参数的支撑。 但是!大模型看似庞大的身躯背后却有一颗脆弱的“心脏”,极易受到攻击。攻击者可以…...

为什么IDEA中使用@Autowired会被警告

我们在使用IDEA编码时,如果用到了Autowired注解注入bean,会发现IDEA会给代码标个波连线,鼠标移动上去,会发下idea提示:不推荐使用Filed injection,这是Spring的核心DI(Dendency Injection&#…...

uniapp使用cover-view,使用@click无效

最近要做直播详情页面,用的是第三方直播链接,需要在该页面上放两个按钮,点击按钮需要弹出相关商品及优惠券。类似于抖音直播页面。 第三方链接使用的是web-view进行展示。由于该组件优先级太高,正常的前端组件无法在该页面浮现展…...

Postman 接口测试工具简易使用指南

一、Postman是什么? 我通过kimi问了这样一个问题,它给我的回答是这样的: 它的回答也算比较中规中矩,简单的说postman实际上就是一款接口测试工具,同时它还可以编写对应的测试脚本以及自动生成对应的API文档,结合我的习惯来说&am…...

Move生态:从Aptos和Sui到Starcoin的崛起

区块链技术自诞生以来,已经经历了多个发展阶段和技术迭代。近年来,随着智能合约平台的不断演进,以Move语言为核心的生态系统逐渐崭露头角。Move语言以其安全性、灵活性和高效性吸引了大量开发者和项目方的关注。在Move生态中,Apto…...

MacOS DockerDesktop配置文件daemon.json的位置

如果因为通过可视化页面修改配置错误导致客户端启动不起来,可以去找对应的配置文件通过 vim 修改后重启客户端 cd ~/.docker/...

从光速常数的可变性看宇宙大爆炸的本质

基于先前关于光速本质的讨论,让我们从函数图像看看宇宙大爆炸到底是什么。 先前已经讨论过,在量子尺度上,长度的实际对应物是频率的差异,因为只有频率差异才能在这个尺度上区分相邻时空的两点,而两点之间“差异的大小”…...

敢不敢跟我一起搭建一个Agent!不写一行代码,10分钟搞出你的智能体!纯配置也能真正掌握AI最有潜力的技术?AI圈内人必备技能

说一千道一万,不如实地转一转。学了那么久的AI Agent的概念了,是时候该落地一个Agent看看自己的掌握程度了对不对,我们都理解大脑是自动节能的,但是知识的确需要倒逼自己一把才能真的掌握,不瞒大家说,笔者对…...

vue3和vite双向加持,uni-app性能爆表,众绑是否有计划前端升级到vue3!

uni-app官方已经开始不支持vue2了,而且即将适配的鸿蒙next原生系统,也不支持vue2打包,CRMEB是否有计划跟上潮流呢,如果有会在什么时间呢,有准确的时间表吗?我们非常期待得到答案! 新版 uni-app…...

2024年最强网络安全学习路线,详细到直接上清华的教材!

关键词:网络安全入门、渗透测试学习、零基础学安全、网络安全学习路线 首先咱们聊聊,学习网络安全方向通常会有哪些问题前排提示:文末有CSDN官方认证Python入门资料包 ! 1、打基础时间太长 学基础花费很长时间,光语…...

人脸识别又进化:扫一下 我就知道你得了啥病

未来,扫下你的脸,可能就知道你得啥病了。没在瞎掰,最近的一项研究成果,还真让咱看到了一点眉目。北大的一个研究团队,搞出来一个 AI ,说是用热成像仪扫一下脸,就能检测出有没有高血压、糖尿病和…...

yolov8标注细胞、识别边缘、计算面积、灰度值计算

一、数据标注 1. 使用labelme软件标注每个细胞的边界信息,标注结果为JSON格式 2. JSON格式转yolo支持的txt格式 import json import os import glob import os.path as osp此函数用来将labelme软件标注好的数据集转换为yolov5_7.0sege中使用的数据集:param jsonfi…...

WEB前端11-Vue2基础01(项目构建/目录解析/基础案例)

Vue2基础(01) 1.Vue2项目构建 步骤一:安装前端脚手架 npm install -g vue/cli步骤二:创建项目 vue ui步骤三:运行项目 npm run serve步骤四:修改vue相关的属性 DevServer | webpack //修改端口和添加代理 const { defineCo…...

QT--线程

一、线程QThread QThread 类提供不依赖平台的管理线程的方法,如果要设计多线程程序,一般是从 QThread继承定义一个线程类,在自定义线程类里进行任务处理。qt拥有一个GUI线程,该线程阻塞式监控窗体,来自任何用户的操作都会被gui捕获到,并处理…...

通过进程协作显示图像-C#

前言 如果一个软件比较复杂或者某些情况下需要拆解,可以考试将软件分解成两个或多个进程,但常规的消息传递又不能完全够用,使用消息共享内存,实现图像传递,当然性能这个方面我并没有测试,仅是一种解决思路…...

LangChain链与记忆处理[10]:四种基础内置链、四种文档处理链,以及链的自定义和五种运行方式,让你的大模型更加智能

LangChain链与记忆处理[10]:四种基础内置链、四种文档处理链,以及链的自定义和五种运行方式,让你的大模型更加智能 参考文章可以使用国产LLM进行下述项目复现: 初识langchain[1]:Langchain实战教学,利用qwen2.1与GLM-4大模型构建智能解决方案[含Agent、tavily面向AI搜索…...

京东发行稳定币的背后

加密市场很热,京东也要来分一杯羹? 7月24日,据财联社报道,京东科技旗下的京东币链科技 ( 香港 ) 将在香港发行与港元 1:1锚定的加密货币稳定币,在市场上掀起广泛热议。 由于众所周知的监管原因,国内大厂在早…...

CF1995C Squaring 题解

思路详解: 请注意,本题解用到了非整数计算,也就是说性能可能不如整数运算,但是易于实现,追求最优解的大佬不建议观看本题解。 这个题看似简单,但是由于涉及到了平方操作,不用高精度根本存不下&…...

动态规划之路径问题

动态规划算法介绍 基本原理和解题步骤 针对于动态规划的题型,一般会借助一个 dp 表,然后确定这个表中应该填入什么内容,最终直接返回表中的某一个位置的元素。 细分可以分为以下几个步骤: 创建 dp 表以及确定 dp 表中所要填写位…...

如何优化你的TikTok短视频账号运营策略?

在运营TikTok账号时,采取正确的策略至关重要,这些策略能够帮助你提升账号的质量和吸引力。 适度使用互粉互赞 避免过度依赖互粉互赞,因为这可能会限制你的内容在更广泛的观众中传播。虽然互粉互赞可以增加曝光,但过度使用可能导…...

生成xcframework

打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式,可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。 使用 Xcode 命令行工具打包 通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...

地震勘探——干扰波识别、井中地震时距曲线特点

目录 干扰波识别反射波地震勘探的干扰波 井中地震时距曲线特点 干扰波识别 有效波:可以用来解决所提出的地质任务的波;干扰波:所有妨碍辨认、追踪有效波的其他波。 地震勘探中,有效波和干扰波是相对的。例如,在反射波…...

PPT|230页| 制造集团企业供应链端到端的数字化解决方案:从需求到结算的全链路业务闭环构建

制造业采购供应链管理是企业运营的核心环节,供应链协同管理在供应链上下游企业之间建立紧密的合作关系,通过信息共享、资源整合、业务协同等方式,实现供应链的全面管理和优化,提高供应链的效率和透明度,降低供应链的成…...

Auto-Coder使用GPT-4o完成:在用TabPFN这个模型构建一个预测未来3天涨跌的分类任务

通过akshare库,获取股票数据,并生成TabPFN这个模型 可以识别、处理的格式,写一个完整的预处理示例,并构建一个预测未来 3 天股价涨跌的分类任务 用TabPFN这个模型构建一个预测未来 3 天股价涨跌的分类任务,进行预测并输…...

OPENCV形态学基础之二腐蚀

一.腐蚀的原理 (图1) 数学表达式:dst(x,y) erode(src(x,y)) min(x,y)src(xx,yy) 腐蚀也是图像形态学的基本功能之一,腐蚀跟膨胀属于反向操作,膨胀是把图像图像变大,而腐蚀就是把图像变小。腐蚀后的图像变小变暗淡。 腐蚀…...

管理学院权限管理系统开发总结

文章目录 🎓 管理学院权限管理系统开发总结 - 现代化Web应用实践之路📝 项目概述🏗️ 技术架构设计后端技术栈前端技术栈 💡 核心功能特性1. 用户管理模块2. 权限管理系统3. 统计报表功能4. 用户体验优化 🗄️ 数据库设…...

Fabric V2.5 通用溯源系统——增加图片上传与下载功能

fabric-trace项目在发布一年后,部署量已突破1000次,为支持更多场景,现新增支持图片信息上链,本文对图片上传、下载功能代码进行梳理,包含智能合约、后端、前端部分。 一、智能合约修改 为了增加图片信息上链溯源,需要对底层数据结构进行修改,在此对智能合约中的农产品数…...

vulnyx Blogger writeup

信息收集 arp-scan nmap 获取userFlag 上web看看 一个默认的页面,gobuster扫一下目录 可以看到扫出的目录中得到了一个有价值的目录/wordpress,说明目标所使用的cms是wordpress,访问http://192.168.43.213/wordpress/然后查看源码能看到 这…...

4. TypeScript 类型推断与类型组合

一、类型推断 (一) 什么是类型推断 TypeScript 的类型推断会根据变量、函数返回值、对象和数组的赋值和使用方式,自动确定它们的类型。 这一特性减少了显式类型注解的需要,在保持类型安全的同时简化了代码。通过分析上下文和初始值,TypeSc…...

Qt 事件处理中 return 的深入解析

Qt 事件处理中 return 的深入解析 在 Qt 事件处理中,return 语句的使用是另一个关键概念,它与 event->accept()/event->ignore() 密切相关但作用不同。让我们详细分析一下它们之间的关系和工作原理。 核心区别:不同层级的事件处理 方…...