当前位置: 首页 > news >正文

第34期 | GPTSecurity周报

图片

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1. Constitutional AI: Harmlessness from AI Feedback  

简介:随着人工智能系统能力的增强,研究者希望能够借助其力量来监督其他AI。为了实现这一目标,研究者采用了一种自我改进的方法,试图训练一种无害的AI助手。该过程包括两个阶段:监督学习和强化学习。在监督学习阶段,研究者从初始模型中采样,然后生成自我批评和修订。根据修订后的回复,对原始模型进行微调。在强化学习阶段,研究者从微调后的模型中采样,使用一个模型来评估哪两个样本更好。然后,从AI偏好数据集中训练偏好模型。这些方法使更精确地控制AI行为和减少人类标签成为可能。通过这种训练方法,研究者能够提高AI助手的准确性和效率,同时避免潜在的有害行为。这种方法对于监督和规范AI的发展具有重要意义,有助于确保AI系统的安全性和可靠性。

链接:

https://arxiv.org/abs/2212.08073.pdf

2. Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models

简介:随着大型语言模型(LLMs)在各种下游任务中的快速发展和显著成功,人们对其潜力和能力赞叹不已。然而,这种开放性的技术也带来了新的安全和隐私问题。由于LLMs具有强大的模仿和生成能力,它们可能被用于抄袭或模仿写作,进而侵犯原创内容的版权,或基于某个源文本制造滥用的虚假信息。更为严重的是,LLMs还能分析网络文本,从而推断出个人隐私。面对这一新形势,以往的文本保护措施显得力不从心。为了应对这一挑战,研究者提出了一种名为“沉默守护者”(SG)的文本保护机制。该机制专门针对LLMs设计,旨在从源头上防止恶意使用文本。当LLMs接收到受保护的文本时,“沉默守护者”会发挥作用,使模型拒绝生成响应。这样一来,就能有效地遏制利用LLMs进行的恶意行为,保护原创内容和个人隐私的安全。

链接:

https://arxiv.org/abs/2312.09669.pdf

3. Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs

简介:随着大型语言模型(LLMs)的快速发展,它们展现出了新的、难以预测的能力,其中一些可能带来潜在风险。为了确保LLMs的安全和负责任部署,开发人员需要评估这些“危险能力”并识别相关风险。在这项研究中,研究者首次收集了一个开源数据集,旨在评估LLMs中的保护措施,并促进更安全的开源LLMs的低成本部署。他们选择了六种流行的LLMs,并对这些模型对于特定指示的响应进行了标注和评估。基于这些标注数据,研究者进一步训练了几个BERT式分类器。令人惊喜的是,这些小型分类器在自动安全评估方面表现出了与GPT-4相当的性能。这一发现为低成本、高效地评估LLMs的安全性提供了新的可能。

链接:

https://arxiv.org/abs/2308.13387.pdf

4. Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models

简介:在这项研究中,研究者提出了一种名为ProAttack的新型高效方法,用于执行基于提示的干净标签后门攻击。这种方法利用提示本身作为触发器,无需外部触发器,确保中毒样本的正确标记,从而提高了后门攻击的隐蔽性。为了验证ProAttack在文本后门攻击中的性能,研究者进行了广泛的实验,涵盖了资源丰富和少样本文本分类任务。实验结果表明,ProAttack在文本后门攻击中展现出竞争力,尤其是在资源丰富的设置中。在无需外部触发器的干净标签后门攻击基准测试中,ProAttack实现了最先进的攻击成功率。

链接:

https://arxiv.org/abs/2305.01219.pdf

5. Detecting Language Model Attacks with Perplexity

简介:一种针对大型语言模型(LLMs)的新型黑客攻击技术已经出现。这种攻击利用对抗后缀来欺骗模型,生成具有潜在危险性的响应。攻击者可以利用这种技术诱导LLMs向恶意用户提供复杂的指示,用于制造炸药、策划银行抢劫或协助创建攻击性内容。为了评估这种对抗后缀的威胁,研究者利用开源LLM(GPT-2)来分析具有对抗后缀的查询的困惑度。结果显示,这些具有对抗后缀的查询的困惑度值非常高,这表明它们对于模型具有很大的迷惑性。在研究过程中,研究者还探索了各种常规(非对抗性)提示类型,并发现这些提示类型在纯困惑度过滤中存在假阳性的问题。这意味着使用困惑度作为唯一过滤条件的做法可能会导致误判。为了解决假阳性问题并更准确地检测对抗攻击,研究者采用基于困惑度和令牌长度的Light-GBM训练方法。在测试集中,这种方法能够有效地解决假阳性问题,并正确检测大多数对抗攻击。

链接:

https://arxiv.org/abs/2308.14132v3.pdf

相关文章:

第34期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以…...

2023新版edge浏览器页面加载不出来的解决办法

2023新版edge浏览器页面加载不出来的原因有很多,以下是一些可能的解决方法: - 检查网络连接:确保你的设备连接到稳定的网络,尝试重新启动路由器或调制解调器。 - 清除浏览器缓存:打开edge浏览器,点击右上…...

算法基础之二分与前缀和 day 6

文章目录 二分第一类第二类 前缀和原题链接题目描述输入格式输出格式数据范围输入样例:输出样例: 题目分析示例代码 二分 二分法是我们在高中数学就学习过的一种思想,他也是一种效率较高的查找算法,在编写代码的过程中&#xff0…...

github短视频去除水印项目Douyin_TikTok_Download_API介绍

当下正值短视频盛行的时代。在我们浏览短视频的同时,经常能发现一些精美的图片、引人入胜的文案以及吸引眼球的视频,想要将它们保存到本地。然而,保存下来的图片或视频通常伴随着不太愉悦的水印,这显著降低了使用体验。因此&#…...

FindMy技术用于键盘

键盘是我们生活中不可或缺的输入工具,是人与计算机之间沟通的桥梁,无论是编写文档、浏览网页、玩游戏、或是进行复杂的数据分析,键盘都在其中发挥着关键的作用。此外,键盘还是各种软件的快捷键操作的关键。通过熟练地运用快捷键&a…...

认识jmeter接口测试工具!

jmeter简介 Apache JMeter是Apache组织开发的基于Java的压力测试工具。用于对软件做压力测试,它最初被设计用于Web应用测试,但后来扩展到其他测试领域。 下载 下载地址:​​​​​​Apache JMeter - Download Apache JMeter 安装 由于Jmeter…...

强大的按钮类CButtonST

转自:哈哈 强大的CButtonST_cbuttonst demo-CSDN博客 这里给大家介绍强大的按钮类CButtonST,可以使您的程序锦上添花。 CButtonST类主要包括BtnST.h、BtnST.cpp、BCMenu.h和BCMenu.cpp四个文件。先将上述4个文件复制到自己的工程,然后在VC开…...

学习ing

记录 1.光圈的大小由一个称为“F值”的数字表示,这个数字越小,光圈就越大,光线也就越多。一般来说,使用较小的F值可以拍摄出更亮的照片,而使用较大的F值可以拍摄出更暗的照片。 2.光圈可以控制相机的曝光时间&#x…...

linux下数据库定时备份

1.编写shell脚本 #!/bin/bash USER"root" PASSWORD"Root.36#336" DATABASE"backup_test" HOSTNAME"127.0.0.1" DATEdate %Y%m%d_%H%M%S #日期格式(作为文件名) BACKUP_DIR/home/mysql/DB_backup/ #备份文件存…...

Qt/QML编程学习之心得:QSocketNotifier(二十一)

QSocketNotifier在Qt中怎么使用? QSocketNotifier使Qt的事件循环与其他基于文件描述符的事件循环集成成为可能。在Qt的主事件循环(QCoreApplication::exec())中检测到文件描述符操作。 使用低级(通常是特定于平台的)API打开设备后,可以创建一个套接字通知程序来监视文…...

【linux】lsblk和df -h显示的磁盘信息不同

【问题分析】 lsblk 查看的是block device,也就是逻辑磁盘大小。 df查看的是file system, 也就是文件系统层的磁盘大小。 这种情况应该是block device容量变大,单还没有反映到file system中。 【问题解决】 如果是ext{2,3,4}文件系统的话,可以用res…...

如何开发属于自己的小程序?

随着移动互联网的快速发展,小程序已成为一种不可忽视的力量。对于许多企业和个人而言,拥有一个属于自己的小程序不仅能提高品牌曝光度,还能带来实实在在的收益。那么,如何开发属于自己的小程序呢?本文将为你揭秘这一过…...

湖仓架构的演进

1.数据仓库架构的历史演进 起初,业界数据处理首选方式是数仓架构。通常数据处理的流程是把一些业务数据库,通过ETL的方式加载到Data Warehouse中,再在前端接入一些报表或者BI的工具去展示。 数据仓库概念是 Inmon 于 1990 年提出并给出了完…...

【头歌实训】Spark MLlib ( Python 版 )

文章目录 第1关:基本统计编程要求测试说明答案代码 第2关:回归编程要求测试说明参考资料答案代码 第3关:分类编程要求测试说明参考资料答案代码 第4关:协同过滤编程要求测试说明参考资料答案代码 第5关:聚类编程要求测…...

Java基础进阶(学习笔记)

注:本篇的代码和PPT图片来源于黑马程序员,本篇仅为学习笔记 static static 是静态的意思,可以修饰成员变量,也可以修饰成员方法 修饰成员的特点: 被其修饰的成员, 被该类的所有对象所共享 多了一种调用方式, 可以通过…...

uView NoticeBar 滚动通知

该组件用于滚动通告场景&#xff0c;有多种模式可供选择 #平台差异说明 App&#xff08;vue&#xff09;App&#xff08;nvue&#xff09;H5小程序√√√√ #基本使用 通过text参数设置需要滚动的内容 <template><view><u-notice-bar :text"text1&quo…...

外包干了3个多月,技术退步明显。。。。。

先说一下自己的情况&#xff0c;本科生生&#xff0c;19年通过校招进入广州某软件公司&#xff0c;干了接近4年的功能测试&#xff0c;今年年初&#xff0c;感觉自己不能够在这样下去了&#xff0c;长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测…...

JSON的一些资源

以下是一些推荐的学习资源&#xff1a; 1. **官方网站**: - JSON.org: 这是一个很好的起点&#xff0c;它提供了JSON的基本介绍和语法规则。 2. **在线教程和课程**: - CSDN全方面学习各种资源。 - W3Schools (w3schools.com): 提供了一个关于JSON的教程&#xff0c;涵…...

最优化理论期末复习笔记 Part 1

数学基础线性代数 从行的角度从列的角度行列式的几何解释向量范数和矩阵范数 向量范数矩阵范数的更强的性质的意义 几种向量范数诱导的矩阵范数 1 范数诱导的矩阵范数无穷范数诱导的矩阵范数2 范数诱导的矩阵范数 各种范数之间的等价性向量与矩阵序列的收敛性 函数的可微性与展…...

鸿蒙应用中的通知

目录 1、通知流程 2、发布通知 2.1、发布基础类型通知 2.1.1、接口说明 2.1.2、普通文本类型通知 2.1.3、长文本类型通知 2.1.4、多行文本类型通知 2.1.5、图片类型通知 2.2、发布进度条类型通知 2.2.1、接口说明 2.2.2、示例 2.3、为通知添加行为意图 2.3.1、接…...

如何停止一个运行中的Docker容器

要停止一个运行中的Docker容器&#xff0c;你可以使用以下命令&#xff1a; docker stop <容器ID或容器名> 将 <容器ID或容器名> 替换为你要停止的具体容器的标识符或名称。你可以使用以下命令查看正在运行的容器&#xff1a;docker ps 这将列出所有正在运行的…...

Linux第19步_安装“Ubutun交叉编译工具链”

由于Ubuntu系统使用的GCC编译器&#xff0c;编译结果是X86文件&#xff0c;只能在X86上运行&#xff0c;不能在ARM上直接运行。因此&#xff0c;还要安装一个“Ubutun交叉编译工具链”&#xff0c;才可以在ARM上运行。 arm-none-linux-gnueabi-gcc是 Codesourcery 公司&#x…...

【论文阅读笔记】 Representation Learning with Contrastive Predictive Coding

Representation Learning with Contrastive Predictive Coding 摘要 这段文字是论文的摘要&#xff0c;作者讨论了监督学习在许多应用中取得的巨大进展&#xff0c;然而无监督学习并没有得到如此广泛的应用&#xff0c;仍然是人工智能中一个重要且具有挑战性的任务。在这项工作…...

CNN——LeNet

1.LeNet概述 LeNet是Yann LeCun于1988年提出的用于手写体数字识别的网络结构&#xff0c;它是最早发布的卷积神经网络之一&#xff0c;可以说LeNet是深度CNN网络的基石。 当时&#xff0c;LeNet取得了与支持向量机&#xff08;support vector machines&#xff09;性能相…...

分类模型评估方法

1.数据集划分 1.1 为什么要划分数据集? 思考&#xff1a;我们有以下场景&#xff1a; 将所有的数据都作为训练数据&#xff0c;训练出一个模型直接上线预测 每当得到一个新的数据&#xff0c;则计算新数据到训练数据的距离&#xff0c;预测得到新数据的类别 存在问题&…...

RabbitMQ高级

文章目录 一.消息可靠性1.生产者消息确认 MQ的一些常见问题 1.消息可靠性问题:如何确保发送的消息至少被消费一次 2.延迟消息问题:如何实现消息的延迟投递 3.高可用问题:如何避免单点的MQ故障而导致的不可用问题 4.消息堆积问题:如何解决数百万消息堆积&#xff0c;无法及时…...

SonarQube 漏洞扫描

SonarQube 漏洞扫描 一、部署服务 1.1 docker方式部署 #安装docker curl -L download.beyourself.org.cn/shell-project/os/get-docker-latest.sh | sh yum install -y docker-compose #进去输入:set paste可以保证不穿行 [rootlocalhost sonar]# vim docker-compose.yml v…...

Web前端篇——ElementUI的Backtop 不显示问题

在使用ElementUI的Backtop回到顶部组件时&#xff0c;单独复制这一行代码 <el-backtop :right"100" :bottom"100" /> 发现页面在向下滚动时&#xff0c;并未出现Backtop组件。 可从以下3个方向进行分析&#xff1a; 指定target属性&#xff0c;且…...

MySQL 管理工具

1、MySQL 管理 系统数据库 a. mysql 命令 语法&#xff1a;mysql [options] [database] -u,--username 指定用户名-p,--password[name] 指定密码-h, --hostname 指定服务器IP或域名-P, --portport 指定连接端-e,--executename 执行SQL语句并退出 mysql -h192.168.200.202 -…...

LeetCode 33 搜索旋转排序数组

题目描述 搜索旋转排序数组 整数数组 nums 按升序排列&#xff0c;数组中的值 互不相同 。 在传递给函数之前&#xff0c;nums 在预先未知的某个下标 k&#xff08;0 < k < nums.length&#xff09;上进行了 旋转&#xff0c;使数组变为 [nums[k], nums[k1], ..., num…...

室内在线设计网站/怎么去推广一个app

一、Linux系统文件树状结构 “/” 根目录 “.” 当前目录 .. 父目录&#xff0c;既上一层目录 pwd 显示当前目录路径 ls. ls ls / 显示当前目录下文件夹、文件 tab 自动补全 ls -l 查看详细信息 ls -a 显示隐藏文件 .文件名 表示隐藏文件 ls -l -a ls -la 显示隐藏详细信息 …...

井陉网站建设/常用的seo网站优化排名

SQL Server 2008 R2 跟踪标志 原文:SQL Server 2008 R2 跟踪标志跟踪标志用于临时设置特定服务器的特征或关闭特定行为。例如&#xff0c;如果启动 SQL Server 的一个实例时设置了跟踪标志 3205&#xff0c;将禁用磁带机的硬件压缩。跟踪标志经常用于诊断性能问题&#xff0c;或…...

高端大气网站源码/百度推广的五大优势

Nginx代理规则总结说明一、location二、proxy_pass&#xff08;1&#xff09;proxy_pass包括ip和资源路径&#xff0c;结尾没有/&#xff08;2&#xff09;proxy_pass包括ip和资源路径&#xff0c;结尾有/&#xff08;3&#xff09;proxy_pass只包括ip&#xff0c;结尾有/&…...

哪里有做营销型网站的公司/优化是什么意思?

【题目描述】 给定一个序列&#xff0c;下标从0开始&#xff0c;分别为a0,a1,a2...an−1&#xff0c;有m个询问&#xff0c;每次给出l和r&#xff0c;求满足aiaj且l<i<j<r时j−i的最大值 本题强制在线&#xff0c;l和r均进行了加密&#xff0c;解密过程为 l′min((l…...

企业建设门户网站成本如何/中国企业500强最新排名

整型&#xff1a;可以用十进制、八进制、十六进制指定。十进制就是日常使用的数字&#xff1b;八进制&#xff0c;数字前必须加上“0”(这个0是阿拉伯数字0&#xff0c;可不是英文字母“欧”哦)&#xff1b;十六进制&#xff0c;数字前必须加“0x” (这个0也是阿拉伯数字0&…...

b战网站建设策划书/有什么推广的平台

参考解答见: http://www.cnblogs.com/zhangzujin/p/3527416.html 4.1.1 设 $f(x)$ 在 $[0,1]$ 上连续, 且 $f(x)>0$, 求极限 $\vlm{n}\sqrt[n]{f\sex{\f{1}{n}}f\sex{\f{2}{n}}\cdots f\sex{\f{n-1}{n}}f(1)}$. 4.1.2 考虑积分 $\dps{\int_0^1 (1-x)^n\rd x}$, 证明 $$…...