当前位置: 首页 > news >正文

【论文速读】| MoRSE:利用检索增强生成技术填补网络安全专业知识的空白

图片

本次分享论文:MoRSE: Bridging the Gap in Cybersecurity Expertise with Retrieval Augmented Generation

基本信息

原文作者:Marco Simoni, Andrea Saracino, Vinod Puthuvath, Maurco Conti

作者单位:意大利比萨国家研究委员会信息学与电信研究所,圣安娜高等大学TeCIP研究所,意大利帕多瓦大学和荷兰代尔夫特理工大学

关键词:MoRSE, 网络安全, 检索增强生成, 人工智能聊天机器人

原文链接:https://arxiv.org/pdf/2407.15748

开源代码:

https://github.com/Mixture-of-RAGs-Security-Experts/MoRSE

论文要点

论文简介:本文介绍了MoRSE(Mixture of RAGs Security Experts),这是首个专为网络安全设计的AI聊天机器人。MoRSE利用两个并行工作的RAG(检索增强生成)系统,从多维网络安全背景中检索并组织信息。

与依赖固定知识库的传统大语言模型不同,MoRSE实时从非固定知识库中检索文档并生成准确的答案,同时不断更新其知识库。评估结果显示,MoRSE在600个网络安全问题上的回答相关性和正确性比GPT-4和Mixtral 7x8等现有模型高出10%以上,显著提升了网络安全领域的知识覆盖和回答准确性。

研究贡献:

本文的主要贡献可以总结如下:

1. 研究者引入了 MoRSE 这一开源框架,它是首个尝试集成两个 RAG 系统以处理多维网络安全上下文的架构。该架构达成了不同数据源的独特综合,提升了安全见解的深度与相关性。

2. 研究者引入了一个由三部分组成的评估测试套件,用于衡量 RAG 系统与 LLM 相结合在相关性、相似性和正确性方面的表现。此外,研究者还基于LLM作为评判者的方法,使用另外两个测试套件进一步验证了这些结果。据研究者所知,这是首次作出这样的贡献。

3. 研究者展示了 MoRSE 是如何凭借其独特的实时网络安全关键字检测能力,将响应的正确性提高 10%,从而满足及时且准确的安全分析这一关键需求。

4. MoRSE 有别于传统的 RAG,其通过运用并行检索器来检索不同格式和结构的语义相关信息。这在网络安全领域极为重要,因为针对特定威胁,通常存在不同的数据类型(例如漏洞利用代码、TTP 描述、CVE 和白皮书),然而这些数据极少相互关联。MoRSE 借助这些并行检索器和 LLM 来整合相关信息,并提供全面的查询答案。

引言

随着网络威胁的频率和复杂性不断增加,网络安全已成为各行业的关键优先事项。尽管近年来与网络安全相关的信息量激增,为应对这些威胁提供了重要资源,但这种信息的快速增长也导致了数据的杂乱和无结构化,使专业人员难以获得可操作的见解。

大语言模型(LLM)虽然在合成大量信息方面取得了显著进展,但在处理技术话题时存在可靠性问题,尤其是在面对快速演变的网络威胁时。LLM生成错误或不可靠回答的情况并不少见,特别是在代码生成任务中。为了应对这些挑战,MoRSE通过集成两个RAG系统,实现了实时更新知识库的能力,提供了更加准确和全面的网络安全解决方案。

研究背景

MoRSE的开发是为了应对现有大语言模型在网络安全领域的不足。随着网络威胁的不断增加和复杂化,及时、准确和全面地理解漏洞、利用和防御策略变得至关重要。虽然LLM在合成大量信息方面取得了重大进展,但其在处理技术话题时的可靠性差异较大,尤其是在网络威胁快速演变的情况下。MoRSE通过引入检索增强生成技术,将传统RAG系统与实时更新的知识库相结合,有效解决了这一问题。

相关工作

现有研究在网络安全领域中探索了大语言模型(LLMs)和检索增强生成(RAG)系统的应用。传统LLMs如GPT-4在处理技术话题时存在可靠性问题,尤其在动态网络威胁环境中表现不佳。

为解决这些问题,研究者们开发了各种增强模型,如GEMINI、MIXTRAL和HACKERGPT,这些模型在特定任务中显示出一定优势。然而,这些模型仍然面临知识库更新不及时、信息检索效率低等挑战。

MoRSE通过集成双RAG系统和实时更新机制,实现了知识的动态扩展和多维数据的综合检索,显著提升了答案的准确性和覆盖范围,为网络安全问答提供了更为全面和可靠的解决方案。

MORSE架构

MoRSE架构由两个主要组件组成:结构化RAG非结构化RAG。结构化RAG从预处理的结构化数据中快速检索信息,如MITRE、CVE库、Metasploit和ExploitDB等。这个模块通过将文本转换为结构化格式,使检索过程更加高效和准确。非结构化RAG用于处理结构化RAG无法解决的查询,主要从未处理的原始文本中检索信息。它包含多个缓冲区,每个缓冲区专门处理不同类型的数据(如文本、代码、学术论文等)。

当用户提交查询时,系统首先通过结构化RAG进行检索,如果未找到相关信息,则调用非结构化RAG。MoRSE还集成了实时更新机制,允许知识库在无需重新训练的情况下动态扩展。

此外,MoRSE的并行检索器能够同步检索多种格式和结构的信息,确保提供全面且准确的答案。这种双重RAG架构使MoRSE能够有效应对复杂的网络安全查询,显著提升回答的准确性和覆盖范围。

图片

实验与评估

研究者通过600个网络安全特定问题对MoRSE的性能进行了全面评估,并与现有的先进大语言模型(如GPT-4、GEMINI、MIXTRAL和HACKERGPT)进行了比较。这些问题包括150个普通网络安全问题、150个多跳问题和300个CVE问题。

评估结果显示,MoRSE在答案的相关性和正确性方面表现优异,普通问题的相关性和正确性提高了15%以上,多跳问题和CVE问题的正确性提高了10%以上。特别是在处理CVE问题时,MoRSE的回答准确性比GPT-4高出50%。

此外,通过基于LLM的裁判方法,MoRSE在对手模型中的Elo评分也显著领先。这些结果验证了MoRSE在网络安全领域提供高质量回答的能力,表明其在应对复杂和多变的网络安全挑战方面具有显著优势。

图片

论文结论

本文介绍了MoRSE,这是一个创新的网络安全问答框架,通过集成两个RAG系统,MoRSE能够从多维数据源中检索并生成高质量的答案。实验结果表明,MoRSE在处理普通网络安全问题、多跳问题和CVE问题时,表现均优于现有的先进模型,如GPT-4和MIXTRAL,尤其在准确性和相关性方面提升显著。

MoRSE的实时更新机制和并行检索能力确保其在动态变化的网络安全环境中保持领先地位。这一研究展示了RAG系统在提升网络安全问答质量和覆盖范围方面的巨大潜力。

原作者:论文解读智能体

校对:小椰风

图片

相关文章:

【论文速读】| MoRSE:利用检索增强生成技术填补网络安全专业知识的空白

本次分享论文:MoRSE: Bridging the Gap in Cybersecurity Expertise with Retrieval Augmented Generation 基本信息 原文作者:Marco Simoni, Andrea Saracino, Vinod Puthuvath, Maurco Conti 作者单位:意大利比萨国家研究委员会信息学与…...

pip install albumentations安装下载超级细水管

albumentations 是一个用于图像增强的 Python 库,它提供了丰富的图像变换功能,可以用于数据增强,从而提高深度学习模型的泛化能力。 直接安装命令: pip install albumentations但是如果半夜遇到这种19kB/s的下载速度 为头发着想&…...

驱动开发系列07 - 驱动程序如何分配内存

一:概述 Linux 内核提供了丰富的内存分配函数、在本文中,我们将介绍在设备驱动程序中分配和使用内存的方法,以及如何优化系统的内存资源。由于内核为驱动程序提供了统一的内存管理接口。所以我们不会去讨论不同架构是如何管理内存的,文本不涉及分段、分页等问题,此外在本文…...

【Jackson】注解及其使用

Jackson库提供了多种注解(annotations),可以用来控制JSON序列化和反序列化的行为。这些注解允许你灵活地映射Java对象与JSON数据之间的关系。下面将详细介绍一些常用的Jackson注解及其用法。 1. JsonProperty 作用: 用于指定JSON属性与Java…...

LeetCode24 两两交换链表中的节点

前言 题目: 24. 两两交换链表中的节点 文档: 代码随想录——两两交换链表中的节点 编程语言: C 解题状态: 没画图,被绕进去了… 思路 思路还是挺清晰的,就是简单的模拟,但是一定要搞清楚交换的…...

AI OS

一,概念 AI OS, 或AI for OS,也就是近一年来伴随着人工智能的热度而衍生出的一个新的概念 - 人工智能操作系统。 为什么提出AI OS的概念? 这是因为人工智能技术的发展势头太过迅猛,尤其在深度学习、大模型等AI技术的突破后&…...

Dubbo 黑白名单机制详解

在微服务架构中,服务间的安全和流量控制是非常重要的。在众多 Java 微服务框架中,Apache Dubbo 作为一款高性能的 RPC 框架,提供了丰富的功能来管理服务调用。在 Dubbo 中,黑白名单机制是保障服务安全性和可控性的一个重要手段。本…...

配电房智能巡检机器人怎么选?

智能巡检机器人行业发展现状 2022年中国智能巡检机器人市场规模达到了15.66亿元。其中:电力智能巡检机器人规模14.88亿元,其他智能巡检机器人规模为0.78亿元。2023年中国智能巡检机器人市场规模约为19.71亿元。其中:电力智能巡检机器人规模…...

husky引发git commit报错的解决方案

在git commit的时候,有可能会遇到这样的报错,husky - pre-commit hook exited with code 1 (error) 出现这个问题的原因主要是,假如项目中采用 husky和lint-staged结合进行代码校验,那么,只要项目代码中有不规范的地方…...

韩顺平0基础学Java——第37天

p736-758 MySQL三层结构 1.所谓安装Mysql数据库,就是在主机安装一个数据库管理系统(DBMS),这个管理程序可以管理多个数据库。DBMS(database manage system) 2.一个数据库中可以创建多个表,以保存数据(信息)。 3.数据库管理系统(DBMS)、数据库和表的关系…...

Layer2区块链扩容方案(1)——总述

写在前面 这篇文章作为一个简单介绍,很多技术只是大致提及或者引用,之后会在详细学习后逐项解释。 补充知识 在了解扩容方案之前,我们最好了解一些相关的知识概念 EVM “EVM” 是“Ethereum Virtual Machine”(以太坊虚拟机&…...

AWS监控工具,监控性能指标

执行AWS监视是为了跟踪在AWS环境中主动运行的应用程序工作负载和资源,AWS监视器跟踪各种AWS云指标,以帮助提高在其上运行的应用程序的整体性能。 借助阈值突破警报系统,AWS应用程序监控在识别性能瓶颈来源方面起着至关重要的作用&#xff0c…...

义务外贸wordpress独立站主题

健身器材wordpress网站模板 跑步机、椭圆机、划船机、动感单车、健身车、深蹲架、龙门架、健身器材wordpress网站模板。 https://www.jianzhanpress.com/?p4251 农业机械wordpress网站模板 植保机械、畜牧养殖机械、农机配件、土壤耕整机械、农业机械wordpress网站模板。 …...

初等数论精解【4】

文章目录 算术基本定理基础理论整数运算规则1. 加法性质2. 减法性质3. 乘法性质4. 除法性质5. 其他性质 整数运算的性质整数构成域吗 参考文献 算术基本定理 基础 任何一个大于1的整数可以被分解为素因数的连乘积。 a p 1 p 2 . . . . p n ≥ 1 ap_1\times p_2....\times…...

MongoDB教程(二十二):MongoDB固定集合

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 文章目录 引言一、固定集…...

20240724----idea的Java环境卸载与安装

1.删除旧有的jdk https://blog.csdn.net/weixin_42168713/article/details/112162099 (补充:我把用户变量和java有关的都删了) 2.下载新的jdk百度网盘链接 链接:https://pan.baidu.com/s/1gkuLoxBuRAtIB1IzUTmfyQ 提取码&#xf…...

C语言 ——— 函数指针数组的讲解及其用法

目录 前言 函数指针数组的定义 函数指针数组的使用 前言 数组是存放一组相同类型数据的存储空间 关于指针数组的知识请见:C语言 ——— 指针数组 & 指针数组模拟二维整型数组-CSDN博客 那么要将多个函数的地址存储到数组中,这个数组该如何定义…...

鸿蒙仓颉语言【cryptocj 库】(介绍与SHA、MD5、HMAC摘要算法)

cryptocj 库 介绍 cryptocj 是一个安全的密码库,包括常用的密码算法、常用的密钥生成和签名验证。 该库是对 C 语言的 openSSL 封装的仓颉加密算法 1 提供SHA、MD5、HMAC摘要算法。 前置条件:NA 场景: OHOS, Linux&#xff…...

设计App的后端接口分类以及环境依赖包详情

目录 App的后端接口分类 1. 用户登录与注册 2. 设备初始化 3. 广告与推广 4. 应用配置与功能 5. 支付系统 6. 内容分发 7. 资源下载 8. 视频内容 9. 用户行为分析 10. 安全与合规 设计建议 基于Easyswoole,可以在系统中引入需要的一些常见依赖包&#…...

接入百度文心一言API教程

然后,编辑文章。点击AI识别摘要,然后保存即可 COREAIPOWER设置 暂时只支持经典编辑器.古腾堡编辑器等几个版本后支持.在比期间,你可以自己写点摘要 摘要内容 AL识别摘要 清空 若有收获,就点个赞吧 接入文心一言 现在百度文心一言&…...

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务 中文乱码问题: 下面创建一个简单的Flask RESTful API示例。首先,我们需要创建环境,安装必要的依赖,然后…...

python打卡day49

知识点回顾: 通道注意力模块复习空间注意力模块CBAM的定义 作业:尝试对今天的模型检查参数数目,并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...

LeetCode - 394. 字符串解码

题目 394. 字符串解码 - 力扣(LeetCode) 思路 使用两个栈:一个存储重复次数,一个存储字符串 遍历输入字符串: 数字处理:遇到数字时,累积计算重复次数左括号处理:保存当前状态&a…...

Objective-C常用命名规范总结

【OC】常用命名规范总结 文章目录 【OC】常用命名规范总结1.类名(Class Name)2.协议名(Protocol Name)3.方法名(Method Name)4.属性名(Property Name)5.局部变量/实例变量(Local / Instance Variables&…...

Python实现prophet 理论及参数优化

文章目录 Prophet理论及模型参数介绍Python代码完整实现prophet 添加外部数据进行模型优化 之前初步学习prophet的时候,写过一篇简单实现,后期随着对该模型的深入研究,本次记录涉及到prophet 的公式以及参数调优,从公式可以更直观…...

【RockeMQ】第2节|RocketMQ快速实战以及核⼼概念详解(二)

升级Dledger高可用集群 一、主从架构的不足与Dledger的定位 主从架构缺陷 数据备份依赖Slave节点,但无自动故障转移能力,Master宕机后需人工切换,期间消息可能无法读取。Slave仅存储数据,无法主动升级为Master响应请求&#xff…...

安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”(装配)

船舶制造装配管理现状:装配工作依赖人工经验,装配工人凭借长期实践积累的操作技巧完成零部件组装。企业通常制定了装配作业指导书,但在实际执行中,工人对指导书的理解和遵循程度参差不齐。 船舶装配过程中的挑战与需求 挑战 (1…...

【Go语言基础【13】】函数、闭包、方法

文章目录 零、概述一、函数基础1、函数基础概念2、参数传递机制3、返回值特性3.1. 多返回值3.2. 命名返回值3.3. 错误处理 二、函数类型与高阶函数1. 函数类型定义2. 高阶函数(函数作为参数、返回值) 三、匿名函数与闭包1. 匿名函数(Lambda函…...

【 java 虚拟机知识 第一篇 】

目录 1.内存模型 1.1.JVM内存模型的介绍 1.2.堆和栈的区别 1.3.栈的存储细节 1.4.堆的部分 1.5.程序计数器的作用 1.6.方法区的内容 1.7.字符串池 1.8.引用类型 1.9.内存泄漏与内存溢出 1.10.会出现内存溢出的结构 1.内存模型 1.1.JVM内存模型的介绍 内存模型主要分…...

【Linux手册】探秘系统世界:从用户交互到硬件底层的全链路工作之旅

目录 前言 操作系统与驱动程序 是什么,为什么 怎么做 system call 用户操作接口 总结 前言 日常生活中,我们在使用电子设备时,我们所输入执行的每一条指令最终大多都会作用到硬件上,比如下载一款软件最终会下载到硬盘上&am…...