第34期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
1. Constitutional AI: Harmlessness from AI Feedback
简介:随着人工智能系统能力的增强,研究者希望能够借助其力量来监督其他AI。为了实现这一目标,研究者采用了一种自我改进的方法,试图训练一种无害的AI助手。该过程包括两个阶段:监督学习和强化学习。在监督学习阶段,研究者从初始模型中采样,然后生成自我批评和修订。根据修订后的回复,对原始模型进行微调。在强化学习阶段,研究者从微调后的模型中采样,使用一个模型来评估哪两个样本更好。然后,从AI偏好数据集中训练偏好模型。这些方法使更精确地控制AI行为和减少人类标签成为可能。通过这种训练方法,研究者能够提高AI助手的准确性和效率,同时避免潜在的有害行为。这种方法对于监督和规范AI的发展具有重要意义,有助于确保AI系统的安全性和可靠性。
链接:
https://arxiv.org/abs/2212.08073.pdf
2. Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models
简介:随着大型语言模型(LLMs)在各种下游任务中的快速发展和显著成功,人们对其潜力和能力赞叹不已。然而,这种开放性的技术也带来了新的安全和隐私问题。由于LLMs具有强大的模仿和生成能力,它们可能被用于抄袭或模仿写作,进而侵犯原创内容的版权,或基于某个源文本制造滥用的虚假信息。更为严重的是,LLMs还能分析网络文本,从而推断出个人隐私。面对这一新形势,以往的文本保护措施显得力不从心。为了应对这一挑战,研究者提出了一种名为“沉默守护者”(SG)的文本保护机制。该机制专门针对LLMs设计,旨在从源头上防止恶意使用文本。当LLMs接收到受保护的文本时,“沉默守护者”会发挥作用,使模型拒绝生成响应。这样一来,就能有效地遏制利用LLMs进行的恶意行为,保护原创内容和个人隐私的安全。
链接:
https://arxiv.org/abs/2312.09669.pdf
3. Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs
简介:随着大型语言模型(LLMs)的快速发展,它们展现出了新的、难以预测的能力,其中一些可能带来潜在风险。为了确保LLMs的安全和负责任部署,开发人员需要评估这些“危险能力”并识别相关风险。在这项研究中,研究者首次收集了一个开源数据集,旨在评估LLMs中的保护措施,并促进更安全的开源LLMs的低成本部署。他们选择了六种流行的LLMs,并对这些模型对于特定指示的响应进行了标注和评估。基于这些标注数据,研究者进一步训练了几个BERT式分类器。令人惊喜的是,这些小型分类器在自动安全评估方面表现出了与GPT-4相当的性能。这一发现为低成本、高效地评估LLMs的安全性提供了新的可能。
链接:
https://arxiv.org/abs/2308.13387.pdf
4. Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models
简介:在这项研究中,研究者提出了一种名为ProAttack的新型高效方法,用于执行基于提示的干净标签后门攻击。这种方法利用提示本身作为触发器,无需外部触发器,确保中毒样本的正确标记,从而提高了后门攻击的隐蔽性。为了验证ProAttack在文本后门攻击中的性能,研究者进行了广泛的实验,涵盖了资源丰富和少样本文本分类任务。实验结果表明,ProAttack在文本后门攻击中展现出竞争力,尤其是在资源丰富的设置中。在无需外部触发器的干净标签后门攻击基准测试中,ProAttack实现了最先进的攻击成功率。
链接:
https://arxiv.org/abs/2305.01219.pdf
5. Detecting Language Model Attacks with Perplexity
简介:一种针对大型语言模型(LLMs)的新型黑客攻击技术已经出现。这种攻击利用对抗后缀来欺骗模型,生成具有潜在危险性的响应。攻击者可以利用这种技术诱导LLMs向恶意用户提供复杂的指示,用于制造炸药、策划银行抢劫或协助创建攻击性内容。为了评估这种对抗后缀的威胁,研究者利用开源LLM(GPT-2)来分析具有对抗后缀的查询的困惑度。结果显示,这些具有对抗后缀的查询的困惑度值非常高,这表明它们对于模型具有很大的迷惑性。在研究过程中,研究者还探索了各种常规(非对抗性)提示类型,并发现这些提示类型在纯困惑度过滤中存在假阳性的问题。这意味着使用困惑度作为唯一过滤条件的做法可能会导致误判。为了解决假阳性问题并更准确地检测对抗攻击,研究者采用基于困惑度和令牌长度的Light-GBM训练方法。在测试集中,这种方法能够有效地解决假阳性问题,并正确检测大多数对抗攻击。
链接:
https://arxiv.org/abs/2308.14132v3.pdf
相关文章:
第34期 | GPTSecurity周报
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以…...
2023新版edge浏览器页面加载不出来的解决办法
2023新版edge浏览器页面加载不出来的原因有很多,以下是一些可能的解决方法: - 检查网络连接:确保你的设备连接到稳定的网络,尝试重新启动路由器或调制解调器。 - 清除浏览器缓存:打开edge浏览器,点击右上…...
算法基础之二分与前缀和 day 6
文章目录 二分第一类第二类 前缀和原题链接题目描述输入格式输出格式数据范围输入样例:输出样例: 题目分析示例代码 二分 二分法是我们在高中数学就学习过的一种思想,他也是一种效率较高的查找算法,在编写代码的过程中࿰…...
github短视频去除水印项目Douyin_TikTok_Download_API介绍
当下正值短视频盛行的时代。在我们浏览短视频的同时,经常能发现一些精美的图片、引人入胜的文案以及吸引眼球的视频,想要将它们保存到本地。然而,保存下来的图片或视频通常伴随着不太愉悦的水印,这显著降低了使用体验。因此&#…...
FindMy技术用于键盘
键盘是我们生活中不可或缺的输入工具,是人与计算机之间沟通的桥梁,无论是编写文档、浏览网页、玩游戏、或是进行复杂的数据分析,键盘都在其中发挥着关键的作用。此外,键盘还是各种软件的快捷键操作的关键。通过熟练地运用快捷键&a…...
认识jmeter接口测试工具!
jmeter简介 Apache JMeter是Apache组织开发的基于Java的压力测试工具。用于对软件做压力测试,它最初被设计用于Web应用测试,但后来扩展到其他测试领域。 下载 下载地址:Apache JMeter - Download Apache JMeter 安装 由于Jmeter…...
强大的按钮类CButtonST
转自:哈哈 强大的CButtonST_cbuttonst demo-CSDN博客 这里给大家介绍强大的按钮类CButtonST,可以使您的程序锦上添花。 CButtonST类主要包括BtnST.h、BtnST.cpp、BCMenu.h和BCMenu.cpp四个文件。先将上述4个文件复制到自己的工程,然后在VC开…...
学习ing
记录 1.光圈的大小由一个称为“F值”的数字表示,这个数字越小,光圈就越大,光线也就越多。一般来说,使用较小的F值可以拍摄出更亮的照片,而使用较大的F值可以拍摄出更暗的照片。 2.光圈可以控制相机的曝光时间&#x…...
linux下数据库定时备份
1.编写shell脚本 #!/bin/bash USER"root" PASSWORD"Root.36#336" DATABASE"backup_test" HOSTNAME"127.0.0.1" DATEdate %Y%m%d_%H%M%S #日期格式(作为文件名) BACKUP_DIR/home/mysql/DB_backup/ #备份文件存…...
Qt/QML编程学习之心得:QSocketNotifier(二十一)
QSocketNotifier在Qt中怎么使用? QSocketNotifier使Qt的事件循环与其他基于文件描述符的事件循环集成成为可能。在Qt的主事件循环(QCoreApplication::exec())中检测到文件描述符操作。 使用低级(通常是特定于平台的)API打开设备后,可以创建一个套接字通知程序来监视文…...
【linux】lsblk和df -h显示的磁盘信息不同
【问题分析】 lsblk 查看的是block device,也就是逻辑磁盘大小。 df查看的是file system, 也就是文件系统层的磁盘大小。 这种情况应该是block device容量变大,单还没有反映到file system中。 【问题解决】 如果是ext{2,3,4}文件系统的话,可以用res…...
如何开发属于自己的小程序?
随着移动互联网的快速发展,小程序已成为一种不可忽视的力量。对于许多企业和个人而言,拥有一个属于自己的小程序不仅能提高品牌曝光度,还能带来实实在在的收益。那么,如何开发属于自己的小程序呢?本文将为你揭秘这一过…...
湖仓架构的演进
1.数据仓库架构的历史演进 起初,业界数据处理首选方式是数仓架构。通常数据处理的流程是把一些业务数据库,通过ETL的方式加载到Data Warehouse中,再在前端接入一些报表或者BI的工具去展示。 数据仓库概念是 Inmon 于 1990 年提出并给出了完…...
【头歌实训】Spark MLlib ( Python 版 )
文章目录 第1关:基本统计编程要求测试说明答案代码 第2关:回归编程要求测试说明参考资料答案代码 第3关:分类编程要求测试说明参考资料答案代码 第4关:协同过滤编程要求测试说明参考资料答案代码 第5关:聚类编程要求测…...
Java基础进阶(学习笔记)
注:本篇的代码和PPT图片来源于黑马程序员,本篇仅为学习笔记 static static 是静态的意思,可以修饰成员变量,也可以修饰成员方法 修饰成员的特点: 被其修饰的成员, 被该类的所有对象所共享 多了一种调用方式, 可以通过…...
uView NoticeBar 滚动通知
该组件用于滚动通告场景,有多种模式可供选择 #平台差异说明 App(vue)App(nvue)H5小程序√√√√ #基本使用 通过text参数设置需要滚动的内容 <template><view><u-notice-bar :text"text1&quo…...
外包干了3个多月,技术退步明显。。。。。
先说一下自己的情况,本科生生,19年通过校招进入广州某软件公司,干了接近4年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测…...
JSON的一些资源
以下是一些推荐的学习资源: 1. **官方网站**: - JSON.org: 这是一个很好的起点,它提供了JSON的基本介绍和语法规则。 2. **在线教程和课程**: - CSDN全方面学习各种资源。 - W3Schools (w3schools.com): 提供了一个关于JSON的教程,涵…...
最优化理论期末复习笔记 Part 1
数学基础线性代数 从行的角度从列的角度行列式的几何解释向量范数和矩阵范数 向量范数矩阵范数的更强的性质的意义 几种向量范数诱导的矩阵范数 1 范数诱导的矩阵范数无穷范数诱导的矩阵范数2 范数诱导的矩阵范数 各种范数之间的等价性向量与矩阵序列的收敛性 函数的可微性与展…...
鸿蒙应用中的通知
目录 1、通知流程 2、发布通知 2.1、发布基础类型通知 2.1.1、接口说明 2.1.2、普通文本类型通知 2.1.3、长文本类型通知 2.1.4、多行文本类型通知 2.1.5、图片类型通知 2.2、发布进度条类型通知 2.2.1、接口说明 2.2.2、示例 2.3、为通知添加行为意图 2.3.1、接…...
day52 ResNet18 CBAM
在深度学习的旅程中,我们不断探索如何提升模型的性能。今天,我将分享我在 ResNet18 模型中插入 CBAM(Convolutional Block Attention Module)模块,并采用分阶段微调策略的实践过程。通过这个过程,我不仅提升…...
在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中,手势开发全攻略:
在 HarmonyOS 应用开发中,手势交互是连接用户与设备的核心纽带。ArkTS 框架提供了丰富的手势处理能力,既支持点击、长按、拖拽等基础单一手势的精细控制,也能通过多种绑定策略解决父子组件的手势竞争问题。本文将结合官方开发文档,…...
2024年赣州旅游投资集团社会招聘笔试真
2024年赣州旅游投资集团社会招聘笔试真 题 ( 满 分 1 0 0 分 时 间 1 2 0 分 钟 ) 一、单选题(每题只有一个正确答案,答错、不答或多答均不得分) 1.纪要的特点不包括()。 A.概括重点 B.指导传达 C. 客观纪实 D.有言必录 【答案】: D 2.1864年,()预言了电磁波的存在,并指出…...
oracle与MySQL数据库之间数据同步的技术要点
Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异,它们的数据同步要求既要保持数据的准确性和一致性,又要处理好性能问题。以下是一些主要的技术要点: 数据结构差异 数据类型差异ÿ…...
IT供电系统绝缘监测及故障定位解决方案
随着新能源的快速发展,光伏电站、储能系统及充电设备已广泛应用于现代能源网络。在光伏领域,IT供电系统凭借其持续供电性好、安全性高等优势成为光伏首选,但在长期运行中,例如老化、潮湿、隐裂、机械损伤等问题会影响光伏板绝缘层…...
《C++ 模板》
目录 函数模板 类模板 非类型模板参数 模板特化 函数模板特化 类模板的特化 模板,就像一个模具,里面可以将不同类型的材料做成一个形状,其分为函数模板和类模板。 函数模板 函数模板可以简化函数重载的代码。格式:templa…...
Go 语言并发编程基础:无缓冲与有缓冲通道
在上一章节中,我们了解了 Channel 的基本用法。本章将重点分析 Go 中通道的两种类型 —— 无缓冲通道与有缓冲通道,它们在并发编程中各具特点和应用场景。 一、通道的基本分类 类型定义形式特点无缓冲通道make(chan T)发送和接收都必须准备好࿰…...
招商蛇口 | 执笔CID,启幕低密生活新境
作为中国城市生长的力量,招商蛇口以“美好生活承载者”为使命,深耕全球111座城市,以央企担当匠造时代理想人居。从深圳湾的开拓基因到西安高新CID的战略落子,招商蛇口始终与城市发展同频共振,以建筑诠释对土地与生活的…...
针对药品仓库的效期管理问题,如何利用WMS系统“破局”
案例: 某医药分销企业,主要经营各类药品的批发与零售。由于药品的特殊性,效期管理至关重要,但该企业一直面临效期问题的困扰。在未使用WMS系统之前,其药品入库、存储、出库等环节的效期管理主要依赖人工记录与检查。库…...
SQL注入篇-sqlmap的配置和使用
在之前的皮卡丘靶场第五期SQL注入的内容中我们谈到了sqlmap,但是由于很多朋友看不了解命令行格式,所以是纯手动获取数据库信息的 接下来我们就用sqlmap来进行皮卡丘靶场的sql注入学习,链接:https://wwhc.lanzoue.com/ifJY32ybh6vc…...
