碎片笔记 | 大模型攻防简报
前言:与传统的AI攻防(后门攻击、对抗样本、投毒攻击等)不同,如今的大模型攻防涉及以下多个方面的内容:

目录
- 一、大模型的可信问题
- 1.1 虚假内容生成
- 1.2 隐私泄露
- 二、大模型的安全问题
- 2.1 模型窃取攻击
- 2.2 数据窃取攻击
- 2.3 Prompt提示词攻击
- 2.4 对抗样本攻击
- 2.5 后门攻击
- 2.6 数据投毒
- 三、基于大模型的隐蔽通信
- 四、大模型的产权问题
- 五、 大模型的伦理问题
- 5.1 意识形态
- 5.2 偏见歧视
- 5.3 政治斗争
- 5.4 就业公平
- 5.5 信息茧房
一、大模型的可信问题
1.1 虚假内容生成
大模型可能会进行虚假内容的生成和传播,这种现象称为语言模型的幻觉问题,它是指模型产生内容与真实世界不符或者是毫无意义的情况。这种情况主要是由于语言模型缺乏真实世界的知识和语言的含义,导致模型难以理解和表达现实世界的概念和信息。这种情况在现代自然语言处理中普遍存在,尤其是在开放式生成领域的问题中。其危害是诱导和操控用户的观点和行为。
语言模型的幻觉问题可以分为两类:内在幻觉和外在幻觉(intrinsic hallucination and extrinsic hallucination)。内在幻觉指的是输出内容和源输入内容不符,例如输出了错误的年份信息、人名信息等;外在幻觉指的是通过源信息无法判别是否正确的信息,既没有办法支持也没有办法否认。但外部幻觉有时候是有益的,因为它基于外部的正确知识,能够丰富生成结果的信息量。但大多数情况下仍需谨慎对待外部幻觉,因为从事实安全的角度来说增加了信息的不确定性。
产生原因:(1)训练数据的不规整;(2)暴露偏差问题:训练与推理过程的解码差异,即训练时解码器基于事实来进行训练,但推理时解码器只能从自己的推理历史中来进一步生成,因此随着生成序列变长,幻觉更严重。
解决措施:
(1) 选取高质量数据集进行训练,清理数据集中的噪声。
(2) 通过改进编码器结构,优化特征提取结果,减轻幻觉。
(3) 对大模型进行可信输出度量。类似于一般模型的置信度,大模型可在训练过程中添加对输出内容的可行性评估,将置信度同时提供给用户作为参考。
(4) 使用可控文本生成方法,控制幻觉程度,以满足不同现实应用的需求。在对话和抽象摘要任务中,幻觉问题不一定全都是负面问题。
(5) 减少生成长句的自相矛盾问题等。
值得一提的是,如今在视觉-语言跨模态生成(Vision-Language Generation)领域,对幻觉问题的研究还处于非常早期的阶段,目前主要针对图像描述场景开展相关研究,如下图中生成文本中的物体并未在输入图像中出现。

首先,在视觉叙事、视觉常识推理、视频字幕等许多任务中,关于幻觉现象的产生缺乏经验和理论分析。其次,需要更有效的评估指标。虽然CHAIR可以自动评估图像字幕中对象幻觉的程度,但它需要一个预定义的对象类别列表,不能很好地泛化。此外,对于开放式视觉问答等其他任务中的幻觉问题,目前没有自动度量方法。最后,如何基于现有内容完成文本受控生成是减轻视觉-语言幻觉的一个重要研究方向。
参考文献
-
Survey of Hallucination in Natural Language Generation (ACM Computing Surveys, 2023)
-
Object Hallucination in Image Captioning (EMNLP, 2018) UC Berkeley & Boston University
代码:https://github.com/LisaAnne/Hallucination -
On Hallucination and Predictive Uncertainty in Conditional Language Generation (EACL, 2021) University of California, Santa Barbara
-
Let there be a clock on the beach:Reducing Object Hallucination in Image Captioning (WACV, 2022) Computer Vision Center, UAB, Spain
代码:https://github.com/furkanbiten/object-bias/tree/main -
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training (EACL, 2023) The Hong Kong University of Science and Technology
代码:https://github.com/wenliangdai/VLP-Object-Hallucination -
Deconfounded Image Captioning: A Causal Retrospect (TPAMI, 2021)
1.2 隐私泄露
攻击:大模型导致的隐私泄露分为两种:
(1)显式隐私泄露:大模型将用户的指令作为训练数据,不经意间会将训练数据转换为生成内容,而这些训练数据可能包含用户敏感信息。大模型会将对话框的内容存储,包括而不限于用户个人信息如姓名,电子邮箱账户等。
(2)隐式隐私泄露:通过对对话框内容的收集,大模型能够推断出潜在的敏感信息如用户的偏好、兴趣、行为等,基于此进行精准的广告推荐。
防御:对输入输出数据进行隐私保护
二、大模型的安全问题
ChatGPT等生成式大模型本质上是基于深度学习的一个大型模型,也面临着人工智能安全方面的诸多威胁,包括模型窃取,以及各种传统攻击(对抗样本攻击,后门攻击,prompt攻击,数据投毒等)来引起输出的错误。
2.1 模型窃取攻击
攻击:模型窃取指的是攻击者依靠有限次数的模型询问,从而得到一个和目标模型 的功能和效果一致的本地模型。攻击者尝试通过分析模型的输入输出和内部结构来还原模型的设计和参数。这可能导致模型的知识产权泄露,带来安全风险。
防御:为防止模型窃取,可采取如下技术保护模型参数:
(1) 模型加密:对模型的参数进行加密。
(2) 模型水印:对大模型进行溯源和验证,以确保其来源和合法性。
(3) 模型集成:通过将多个模型集成在一起,可以提高模型的鲁棒性和安全性。集成学习技术可以通过组合多个模型的预测结果来提高模型的性能和安全性。
(4) 模型蒸馏:降低模型规模,小模型对于噪音和扰动的容忍能力更强。
(5) 访问控制:确保大模型在部署和使用过程中的安全性,包括访问控制、身份认证、权限管理和数据保护等方面。这有助于防止未经授权的访问和滥用。
2.2 数据窃取攻击
攻击:大模型通常需要处理大量的敏感数据,攻击者可能试图通过访问模型或截获模型的输入输出来获取训练过程中使用过的数据的分布,从而获取敏感信息[1]。
防御:(1)设立相应机制判断用户是否在进行以窃取为目的的查询。(2)对用户敏感信息进行加密上传。
2.3 Prompt提示词攻击
Prompt的构建使得预训练大模型能够输出更加符合人类语言和理解的结果,但是不同的prompt的模板依旧有可能会导致一些安全问题和隐私问题的出现。提示词作为人和大语言模型交互的媒介,被不断提起。提示词攻击是一种新型的攻击方式,包括提示词注入、提示词泄露和提示词越狱。这些攻击方式可能会导致模型生成不适当的内容,泄露敏感信息等。
- 提示词注入:将恶意或非预期内容添加到提示中,以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集;
- 提示词泄露:从LLM的响应中提取敏感或保密信息;
- 提示词越狱:绕过安全和审查功能。
「Prompt提示词攻击」相关介绍详见博客:大模型攻防|Prompt 提示词攻击__Meilinger_的博客-CSDN博客
2.4 对抗样本攻击
攻击者通过对输入样本进行微小的修改,使其能够欺骗模型,导致错误的预测结果。这可能会对模型的可靠性和安全性产生负面影响。
2.5 后门攻击
攻击者在模型中插入后门,使其在特定条件下产生错误的输出结果或泄露敏感信息。这可能导致模型被滥用或被攻击者控制。
2.6 数据投毒
……
三、基于大模型的隐蔽通信
由于训练数据的规模庞大,大语言模型在隐蔽通信中具有天然优势——其能够更加合理地模拟真实数据分布,一定程度上提升生成载密文本的统计不可感知性。攻击者通过使用大模型生成流畅的载密文本,在公共信道中进行传输。目前,跨模态隐写逐渐引起研究人员关注,结合大模型完成跨模态隐写值得尝试。
文本隐写的发展脉络如下:


经调研,目前并没有针对大模型文本隐写的相关研究工作, 此外,针对生成式大模型隐写的隐写分析算法也有待提出。
参考资料
- 论文研读|生成式文本隐写发展综述
- 论文研读|生成式跨模态隐写发展综述
四、大模型的产权问题
问题:大模型生成作品的版权归属如今尚不明朗。
措施:
(1)在大模型的训练过程中,除原始输入本身,还需要将数据来源以及产权信息作为训练数据。这将使得在使用大模型进行创作任务时,能够准确查询是否涉及到某些产权,而需要引用和付费等。这一功能的实现将能够极大提升数据价值,避免产权纠纷,也能够让ChatGPT更好地辅助科研和创作。
(2)使用区块链技术对数据源版权进行记录保护,区块链技术的使用也方便于之后产权纠纷处理中的溯源分析。
(3)使用电子水印技术保护数据源的版权和实用模型的版权。
五、 大模型的伦理问题
5.1 意识形态
5.2 偏见歧视
5.3 政治斗争
5.4 就业公平
5.5 信息茧房
针对大模型存在的伦理问题,需要建立各类信息的检测机制,设立实时监管系统,对大模型的违规行为进行记录。
后记:以上是大模型攻防的一些常见内容,个人感觉大模型攻防与传统AI攻防的主要区别在于程度的差异——大模型由于其广泛被用于各个场景,对人类社会的影响自然要大于普通模型,也正因此,大模型的攻防研究颇为关键,亟待开展。
参考资料
- 2023生成式大模型安全与隐私白皮书, 之江实验室, 2023.
相关文章:
碎片笔记 | 大模型攻防简报
前言:与传统的AI攻防(后门攻击、对抗样本、投毒攻击等)不同,如今的大模型攻防涉及以下多个方面的内容: 目录 一、大模型的可信问题1.1 虚假内容生成1.2 隐私泄露 二、大模型的安全问题2.1 模型窃取攻击2.2 数据窃取攻击…...
【100天精通Python】Day63:Python可视化_Matplotlib绘制子图,子图网格布局属性设置等示例+代码
目录 1 基本子图绘制示例 2 子图网格布局 3 调整子图的尺寸 4 多行多列的子图布局 5 子图之间的共享轴 6 绘制多个子图类型 7 实战: 绘制一个大图,里面包含6个不同类别的子图,不均匀布局。 绘制子图(subplots)…...
【Android常见问题(六)】- UX标注色值带有百分比的使用方法
这里写自定义目录标题 透明度和不透明度的转换对应色值百分比透明度标注 透明度和不透明度的转换 需要不透明度值的,可以自己算:透明度值 不透明度值 100% 如果UI给的视觉稿标注是:颜色#FFFFFF,透明度40% 。那你的计算方式应该…...
Prometheus+Grafana可视化监控【ElasticSearch状态】
文章目录 一、安装Docker二、安装ElasticSearch(Docker容器方式)三、安装Prometheus四、安装Grafana五、Pronetheus和Grafana相关联六、安装elasticsearch_exporter七、Grafana添加ElasticSearch监控模板 一、安装Docker 注意:我这里使用之前写好脚本进行安装Docke…...
Java手写堆排序(Heap Sort)和案例
Java手写堆排序(Heap Sort) 1. 思维导图 下面是使用Mermaid代码绘制的思维导图,用于解释堆排序算法的实现思路原理: #mermaid-svg-cFIgsLSm5LOBm5Gl {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size…...
Linux设备驱动模型之字符设备
Linux设备驱动模型之字符设备 前面我们有介绍到Linux的设备树,这一节我们来介绍一下字符设备驱动。字符设备是在IO传输过程中以字符为单位进行传输的设备,而字符设备驱动则是一段可以驱动字符设备驱动的代码,当前Linux中,字符设备…...
Kafka3.0.0版本——消费者(自动提交 offset)
目录 一、自动提交offset的相关参数二、消费者(自动提交 offset)代码示例 一、自动提交offset的相关参数 官网文档 参数解释 参数描述enable.auto.commi默认值为 true,消费者会自动周期性地向服务器提交偏移量。auto.commit.interval.ms如果…...
【业务功能116】微服务-springcloud-springboot-Kubernetes集群-k8s集群-KubeSphere-公共服务 DNS
kubernetes集群公共服务 DNS 一、软件安装 # yum -y install bind二、软件配置 # vim /etc/named.conf # cat -n /etc/named.conf1 //2 // named.conf3 //4 // Provided by Red Hat bind package to configure the ISC BIND named(8) DNS5 // server as a caching only…...
马斯洛的动机与人格、需求层次理论
马斯洛是在研究动机(Motivation)时,才提出需求层次作为理论基础来支持动机理论的。所谓动机,就是人类的行为到底是由什么驱动,其实是对人类行为的当下原动力,区别于过去、未来或者是有可能起作用的动力。 …...
TCP/IP网络传输模型及协议
文章目录 前言一、TCP/IP协议二、协议层报文间的封装与拆封1.发送数据2.接收数据前言 TCP/IP模型由OSI七层模型演变而来: 国际标准化组织 1984年提出了模型标准,简称 OSI(Open Systems Interconnection Model)七层模型: 物理层(Physics) :提供机械、电气、功能和过程特性…...
git 推送出现fatal: The remote end hung up unexpectedly解决方案
在使用git更新或提交项目时候出现 "fatal: The remote end hung up unexpectedly " 的报错; 报错的原因原因是推送的文件太大。 下面给出解决方法 方法一: 修改提交缓存大小为500M,或者更大的数字 git config --global http.po…...
Hive内置函数字典
写在前面:HQL同SQL有很多的类似语法,同学熟悉SQL后一般学习起来非常轻松,写一篇文章列举常用函数,方便查找和学习。 1. 执行模式 1.1 Batch Mode 批处理模式 当使用-e或-f选项运行$ HIVE_HOME / bin / hive时,它将以…...
svg 知识点总结
1. 引用 svg,直接用 img 标签 <img src"帐篷.svg" alt"露营">2. 画 svg 各种图形。 矩形 rect圆角矩形 rect圆圈 circle椭圆 ellipse线段 line折线 polyline多边形 polygon路径 path <svg width"200" height"250&qu…...
开源库源码分析:OkHttp源码分析(二)
开源库源码分析:OkHttp源码分析(二) 导言 上一篇文章中我们已经分析到了OkHttp对于网络请求采取了责任链模式,所谓责任链模式就是有多个对象都有机会处理请求,从而避免请求发送者和接收者之间的紧密耦合关系。这篇文章…...
校园地理信息系统的设计与实现
校园地理信息系统的设计与实现 摘 要 与传统的地图相比较,地理信息系统有着不可比拟的优势,信息量大,切换方便,可扩展性强。本文阐述了研究地理信息系统的背景、目的、方法,介绍了一个实用的、方便可靠的校园地理信息…...
Vulnhub实战-prime1
前言 VulnHub 是一个面向信息安全爱好者和专业人士的虚拟机(VM)漏洞测试平台。它提供了一系列特制的漏洞测试虚拟机镜像,供用户通过攻击和漏洞利用的练习来提升自己的安全技能。本次,我们本次测试的是prime1。 一、主机发现和端…...
Scala学习笔记
Scala学习笔记 Scala笔记一、学习Scala的目的二、Scala的基本概念2.1 JDK1.8版本的新特性2.2 Scala的运行机制 三、Scala的基本语法3.1 Scala中输出语句、键盘输入、注释语法3.1.1 Scala注释三种,和Java一模一样的3.1.2 Scala键盘输入3.1.3 Scala输出 3.2 Scala变量…...
虹科分享 | 软件供应链攻击如何工作?如何评估软件供应链安全?
说到应用程序和软件,关键词是“更多”。在数字经济需求的推动下,从简化业务运营到创造创新的新收入机会,企业越来越依赖应用程序。云本地应用程序开发更是火上浇油。然而,情况是双向的:这些应用程序通常更复杂…...
gRpc入门和springboot整合
gRpc入门和springboot整合 一、简介 1、gprc概念 gRpc是有google开源的一个高性能的pc框架,Stubby google内部的rpc,2015年正式开源,云原生时代一个RPC标准。 tips:异构系统,就是不同编程语言的系统。 2、grpc核心设计思路 grpc核心设计…...
基于FPGA点阵显示屏设计-毕设
本设计是一1616点阵LED电子显示屏的设计。整机以EP2C5T144C8N为主控芯片,介绍了以它为控制系统的LED点阵电子显示屏的动态设计和开发过程。通过该芯片控制一个行驱动器74HC154和两个列驱动器74HC595来驱动显示屏显示。该电子显示屏可以显示各种文字或单色图像,采用4块8 x 8点…...
观成科技:隐蔽隧道工具Ligolo-ng加密流量分析
1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具,该工具基于TUN接口实现其功能,利用反向TCP/TLS连接建立一条隐蔽的通信信道,支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式,适应复杂网…...
铭豹扩展坞 USB转网口 突然无法识别解决方法
当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…...
【Java学习笔记】Arrays类
Arrays 类 1. 导入包:import java.util.Arrays 2. 常用方法一览表 方法描述Arrays.toString()返回数组的字符串形式Arrays.sort()排序(自然排序和定制排序)Arrays.binarySearch()通过二分搜索法进行查找(前提:数组是…...
通过Wrangler CLI在worker中创建数据库和表
官方使用文档:Getting started Cloudflare D1 docs 创建数据库 在命令行中执行完成之后,会在本地和远程创建数据库: npx wranglerlatest d1 create prod-d1-tutorial 在cf中就可以看到数据库: 现在,您的Cloudfla…...
《Playwright:微软的自动化测试工具详解》
Playwright 简介:声明内容来自网络,将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具,支持 Chrome、Firefox、Safari 等主流浏览器,提供多语言 API(Python、JavaScript、Java、.NET)。它的特点包括&a…...
【JavaWeb】Docker项目部署
引言 之前学习了Linux操作系统的常见命令,在Linux上安装软件,以及如何在Linux上部署一个单体项目,大多数同学都会有相同的感受,那就是麻烦。 核心体现在三点: 命令太多了,记不住 软件安装包名字复杂&…...
【Redis】笔记|第8节|大厂高并发缓存架构实战与优化
缓存架构 代码结构 代码详情 功能点: 多级缓存,先查本地缓存,再查Redis,最后才查数据库热点数据重建逻辑使用分布式锁,二次查询更新缓存采用读写锁提升性能采用Redis的发布订阅机制通知所有实例更新本地缓存适用读多…...
解读《网络安全法》最新修订,把握网络安全新趋势
《网络安全法》自2017年施行以来,在维护网络空间安全方面发挥了重要作用。但随着网络环境的日益复杂,网络攻击、数据泄露等事件频发,现行法律已难以完全适应新的风险挑战。 2025年3月28日,国家网信办会同相关部门起草了《网络安全…...
NPOI操作EXCEL文件 ——CAD C# 二次开发
缺点:dll.版本容易加载错误。CAD加载插件时,没有加载所有类库。插件运行过程中用到某个类库,会从CAD的安装目录找,找不到就报错了。 【方案2】让CAD在加载过程中把类库加载到内存 【方案3】是发现缺少了哪个库,就用插件程序加载进…...
(一)单例模式
一、前言 单例模式属于六大创建型模式,即在软件设计过程中,主要关注创建对象的结果,并不关心创建对象的过程及细节。创建型设计模式将类对象的实例化过程进行抽象化接口设计,从而隐藏了类对象的实例是如何被创建的,封装了软件系统使用的具体对象类型。 六大创建型模式包括…...
