当前位置: 首页 > news >正文

用于异常检测的深度神经网络模型融合

用于异常检测的深度神经网络模型融合

在当今的数字时代,网络安全至关重要,因为全球数十亿台计算机通过网络连接。近年来,网络攻击的数量大幅增加。因此,网络威胁检测旨在通过观察一段时间内的流量数据来检测这些攻击,并将异常行为与正常流量区分开来 [ 1 ]。

网络异常检测 (NAD) 是一种通过基于流量异常模式的威胁检测来促进网络安全的技术。NAD 通过持续监控网络的异常事件或趋势 [ 1 ] 来运作。因此,NAD 通常是网络行为分析 (NBA) 不可或缺的一部分,其中网络安全由防病毒软件、防火墙、间谍软件检测软件和入侵检测系统等反威胁应用程序提供 [ 2 ]。

随着 Internet 技术的进步,网络攻击急剧增加。因此,网络入侵检测成为提高系统检测网络安全攻击能力的重要领域。入侵威胁是蓄意访问和操纵信息以使系统不可靠的尝试。例如,拒绝服务 (DoS) [ 3 ]。

基于异常的入侵检测是用于查找网络流量中与预期的网络正常流量不匹配的不合格模式的过程。这些异常模式是异常、异常值或异常[ 4、5 ]。NAD 已广泛用于许多应用,例如网络安全入侵检测和信用卡欺诈检测 [ 3 ]。

多年来,基于统计算法 [ 6 ]、数据挖掘方法 [ 7 ] 和机器学习 [ 8 ] 开发了异常检测系统。大多数 NAD 方法通常依赖于为正常行为开发模型,因此开发的模型可以检测任何异常模式 [ 8 ]。NAD 系统中有许多类型的模式学习,例如监督学习、半监督学习和无监督学习 [ 9 ]。

近年来,深度学习方法受到了广泛关注,因为深度神经网络能够直接从网络流量数据中学习异常的复杂模式 [ 10 ]。然而,现实世界的交通数据规模庞大、标签嘈杂且类别不平衡。换句话说,交通数据有数以百万计的样本,分布不均匀,很少有异常,而正常的交通数据太多。大多数现有网络数据集不符合现实条件,不适合现代网络。此外,传统数据集如 kddcup99 [ 11 ] 和 UNSW-NB15 [ 12 ]] 已在文献中进行了大量调查。利用这些数据集的方法能够提供高性能。因此,在本文中,我们使用ZYELL的数据集 [ 13、14 ]重点关注大规模(百万级)和高度不平衡的交通数据问题,以训练、验证和测试所提出的解决方案。

本文提出的新解决方案是在 NAD 的混合方法下考虑的。两个深度神经网络 (DNN) 的模型融合用于检测攻击并将其映射到特定类别。第一个端到端 DNN 用于从流量数据中学习模式以进行正常/攻击二元分类。第二个端到端 DNN 用于从流量数据中学习模式,以对四种类型的攻击进行分类,例如 DDOS smurf、探测 IP 扫描、探测端口扫描和探测 NMAP。本文给出的结果表明,所提出的方法在 Fβ 分数和误报率方面优于传统的单一深度神经网络。

将分类数据转换为数字表示

应用程序名称列是分类的,有 45 个唯一的字符串值,如下 [ 13 ]:

['其他', '域', 'https', 'snmp', 'icmp', 'http', 'microsoft-ds', 'ssdp', 'netbios-ssn', 'netbios-dgm', 'ssh' , 'netbios-ns', 'ftp', 'syslog', 'igmp', 'h323', 'real-audio', 'pop3', 'telnet', 'smtp', 'rtsp', 'pptp', ' auth', 'roadrunner', 'bgp', 'isakmp', 'rexec', 'rcmd', 'finger', 'bootps', 'sql-net', 'vdolive', 'irc', 'nntp', '目标'、'rlogin'、'msn'、'新闻'、'bootpc'、'snmp-trap'、'tftp'、'nfs'、'tacacs'、'icq'、'sftp']。

这些唯一值中的每一个都以不同的方式在交通记录中重复。例如,https 重复了 1,577,502 次,而 sftp 只重复了 8 次。图 1显示了应用程序名称列中的 45 个唯一值以及每个值的出现频率。应用程序名称列中的字符串值已转换为数值以供进一步处理。具有 45 个唯一值的列的单热编码导致具有大量零的稀疏矩阵。因此,为避免内存问题,未对该列进行编码。然而,它被重新缩放和裁剪。

图。1

条形图说明应用程序名称列中唯一值的频率

全尺寸图片

标签列也是分类的,具有高度不平衡的五个类别。图 2说明了标签列中的五个唯一值以及每个值的频率。使用一个热编码器对标签列中的值进行编码并转换为二进制形式。

图 2

条形图说明标签类别的频率

全尺寸图片

此数据集中很少有数字列(例如 cnt_src)具有离散数字和几十个唯一值。图 3显示了 cnt_src 列中的值以及每个值的频率。值 1 在此列中重复了超过 600 万次,而值 2 和 10 之间的值重复了 100 到 800 十万次。相反,其他值(例如 20 到 40 之间的值)的频率小于 200。

图 3

cnt_src 列值的频率

全尺寸图片

相关性

本节计算交通样本特征之间的相关性和相关度。每对特征之间的相关矩阵以图形方式表示为带有颜色编码的热图,如图 4所示. 相关系数衡量变量之间关系的强度,值范围在 − 1.0 和 1.0 之间。换句话说,- 1.0 的相关性表示完全负相关,而 1.0 的相关性表示完全正相关(这对特征高度相关)。另一方面,零或接近零的相关值表明这对特征是弱相关的。相关矩阵的意义与特征选择有关,特征选择是分类前的主要阶段。当两个特征高度相关时,可以丢弃这两个特征之一。

图 4

交通特征之间的相关热图

全尺寸图片

从图 4中可以明显看出,应该预测的标签(输出)与流量的任何输入特征都没有高度相关。此外,该功能与其后缀为“_slow”和“_conn”的版本之间只有中等相关性 (0.5–0.8)。例如,cnt_src 与 cnt_src_slow 和 cnt_src_conn 具有中等相关性。因此,没有流量特征被丢弃,因为没有人与其他人具有高相关性。

提出的模型融合

在本节中,描述了所提出的模型融合方法。模型融合包含两个深度神经网络。二元模型 1 包括特征预处理和 DNN。DNN 用作二元分类器,通过将流量数据分为两类来检测任何攻击:正常和攻击。为了组成新的攻击流量集,将包括 DDOS smurf、IP 探测、PORT 探测和 NMAP 探测在内的四种类型的攻击组合为一组,如图 5所示。两组新的攻击流量和正常流量被馈送到二进制 DNN。

图 5

拟议模型的框图

全尺寸图片

多类模型 2 包括特征预处理和 DNN。DNN 被用作多类分类器,在去除正常流量数据后将攻击分为四类,如图 5所示. 只有当模型 1 产生攻击类别时,多类模型 2 才会运行。否则,当模型 1 的输出产生正常流量时,模型 2 不会运行。最后一个密集层在正常/攻击 DNN 中有 2 个类,在多重攻击 DNN 中有 4 个类。另一方面,将提出的模型融合方法与基线模型进行了比较。基线是一个单一的深度神经网络,它已经对包括正常流量和四种攻击流量在内的五类数据进行了训练,将流量数据分为 5 类。基线方法中的 DNN 与建议方法中使用的两个 DNN 中的每一个都具有相同的架构,如表5所示。

结论和未来的工作

在本文中,为了网络安全目的,提出了一种新的异常检测和分类策略。展示了一种模型融合,它结合了二元正常/攻击 DNN 来检测任何攻击的可用性和多重攻击 DNN 来对攻击进行分类。此外,本文解决了百万规模和高度不平衡的交通数据问题。所提出的解决方案已使用真实世界的 ZYELL 数据集进行了训练、验证和测试,结果令人鼓舞。结果发现,我们的解决方案在 Fβ 分数方面优于基准解决方案 17%。此外,所提出的解决方案在将大多数 NAD 系统的误报率降低 5.3% 方面发挥了重要作用。通常,误报会降低 NAD 系统的可靠性。所以,降低误报率可以使 NAD 系统更加健壮和可靠。然而,所提出的解决方案中的低误报率并没有降低检测真实攻击的能力。

对于未来的工作,我们的目标是通过使用其他类型的深度学习模型(例如一维卷积神经网络(CNN)来学习空间特征和长短期记忆(LSTM)来学习时间特征)来提高性能。此外,LSTM 自动编码器的无监督学习也是这个百万级数据集的一个有前途的候选解决方案。

相关文章:

用于异常检测的深度神经网络模型融合

用于异常检测的深度神经网络模型融合 在当今的数字时代,网络安全至关重要,因为全球数十亿台计算机通过网络连接。近年来,网络攻击的数量大幅增加。因此,网络威胁检测旨在通过观察一段时间内的流量数据来检测这些攻击,…...

游戏服务器如何选择合适的服务器配置

游戏服务器如何选择合适的服务器配置 大家好,今天给大家分享一下游戏服务器配置的选择,为什么特别的说明一下服务器呢?服务器是决定服稳定性和安全性最重要的一个程序,如果是服务器配置不够,可能会导致服掉线、卡顿的…...

01-幂等性解释,问题及常用解决方案

目录 1. 幂等性简介 2. 后端如何解决幂等性问题 2.1 数据库层面 -> 2.1.1 防重表 -> 2.1.2 数据库悲观锁(不建议,容易出现死锁情况) -> 2.1.3 数据库乐观锁 -> 2.1.4 乐观锁CAS算法原理 2.2 锁层面 2.3 幂等性token层面 -> 2.3.1 简介文字描述: …...

SpringBoot配置文件

配置文件有两种格式: .properties .yml .properties是老版配置文件,.yml是新版配置文件 一、properties详解 IDEA社区版不支持 properties格式的日志的提示,需要安装相应插件。 3.1properties 基本语法 (ps:小技巧&#xff0…...

基于蜣螂算法改进的DELM分类-附代码

蜣螂算法改进的深度极限学习机DELM的分类 文章目录蜣螂算法改进的深度极限学习机DELM的分类1.ELM原理2.深度极限学习机(DELM)原理3.蜣螂算法4.蜣螂算法改进DELM5.实验结果6.参考文献7.Matlab代码1.ELM原理 ELM基础原理请参考:https://blog.c…...

FPGA纯verilog代码实现图像对数变换,提供工程源码和技术支持

目录1、图像对数变换理论2、log系数的matlab生成3、FPGA实现图像对数变换4、vivado与matlab联合仿真5、vivado工程介绍6、上板调试验证并演示7、福利:工程代码的获取1、图像对数变换理论 对数变换可以将图像的低灰度值部分扩展,显示出低灰度部分更多的细…...

【Python百日进阶-Web开发-Vue3】Day516 - Vue+ts后台项目3:首页

文章目录 一、首页头部1.1 element-plus中找到适合的Container布局容器1.2 头部容器Layout 布局1.3 src/views/HomeView.vue二、侧边菜单栏2.1 element-plus中找到适合的Menu侧栏2.2 src/views/HomeView.vue三、侧边栏的动态路由3.1 src/views/HomeView.vue3.2 src/views/Goods…...

分析了 200 个 DeFi 项目,我发现了这些规律

作者:Ren & Heinrich翻译:dongdong在这篇文章中,我分享了我通过分析当前排名前 200 的 DeFi 加密项目的见解。这不是一项学术研究。尽管如此,这些发现对加密货币投资者来说具有附加值。我使用 https://defillama.com/ 的公共数…...

你领证了吗?各地2022下半年软考纸质证书发放中

不少同学都在关注2022下半年软考证书领取时间,截止至目前,江苏、南京、山东、浙江、贵州、云南、大连、广西地区的纸质证书可以领取了,请大家在证书申领时间内及时预约证书邮寄发放哦~ 江苏 证书领取时间:2023年2月3日起 南京 …...

将群晖NAS变为本地盘

本文介绍一个工具,可以在 Windows 系统下将群晖NAS的目录变为本地盘,好处是在外部访问的时候,能够大大改善体验。可以用本地的应用程序直接打开,速度依赖网络带宽,正常情况下,看视频是没有问题的。当然&…...

以太坊上交易异常Pending的处理方法

交易Pending ETH交易pending的原因: 1.交易GasPrice设置过低,共识节点不打包 2.账户Nonce不连续,一直处于交易池队列当中 只要确认了是哪种原因引起的,就可以做出对应的解决方案。 GasPrice设置过低 由于ETH共识节点是按照Gas价格从高到低打包交易,如果每笔交易的GasPr…...

第三节 第一个内核模块

hellomodule 实验 实验说明 硬件介绍 本节实验使用到STM32MP157 开发板 实验代码讲解 本章的示例代码目录为:linux_driver/module/hellomodule 从前面我们已经知道了内核模块的工作原理,这一小节就开始写代码了,跟hello world 一样&…...

从CNN到Transformer:基于PyTorch的遥感影像、无人机影像的地物分类、目标检测、语义分割和点云分类

我国高分辨率对地观测系统重大专项已全面启动,高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成,将成为保障国家安全的基础性和战略性资源。随着小卫星星座的普及,对地观测已具备多次以上的全球覆盖…...

操作系统的奋斗(三)内存管理

第三章 内存管理3.1内存管理概念3.1.1 内存管理的基本原理和要求(1)内存管理的主要功能3.1.2 覆盖和交换(1)覆盖(2)交换3.1.3 连续分配管理方式(1)单一连续分配(2&#x…...

多选多的一种通用处理逻辑

开发的时候,我们经常会涉及元素的多选多,并且还需要对选中的元素进行拖动排序 通用的设计方案如下 游戏资源集合与游戏资源的绑定关系处理(多选多的一种通用处理逻辑) 可能的情况: 1.之前被选中的资源,现…...

Redis 的安装 + SpringBoot 集成 Redis

1.安装 Redis此处的 Redis 安装是针对 Linux 版本的安装, 因为 Redis 官方没有提供 Windows 版本, 只提供了 Linux 版本. 但是我们可以通过Windows 去远程连接 Redis.1.1 使用 yum 安装 Redis使用如下命令, 将 Redis 安装到 Linux 服务器:yum -y install redis1.2 启动 Redis使…...

为什么在容器中 1 号进程挂不上 arthas?

作者:卜比 本文是《容器中的 Java》系列文章之 4/n ,欢迎关注后续连载 😃 。 系列1:JVM 如何获取当前容器的资源限制? 系列2:Java Agent 踩坑之 appendToSystemClassLoaderSearch 问题 系列3:让…...

23种设计模式之策略模式

一、概念 就是将一系列算法封装起来,并使它们之间相互替换。被封装起来的算法具有独立性外部不可改变其特性。 策略模式属于对象行为模式,它通过对算法进行封装,把使用算法的责任和算法的实现分割开来,并委派给不同的对象对这些算…...

不会做UI自动化测试?一起设计框架再实践吧

目的相信做过测试的同学都听说过自动化测试,而UI自动化无论何时对测试来说都是比较吸引人的存在。相较于接口自动化来说它可以最大程度的模拟真实用户的日常操作与特定业务场景的模拟,那么存在即合理,自动化UI测试自然也是广大测试同学职业道…...

数据分析实战项目3:RFM用户分群

目录1、RFM模型介绍2、Excel实际RFM划分案例3、RFM案例3.1 数据加载和基本信息查看3.2 数据预处理和RFM的初始值计算3.3 RFM区间和划分和分值计算3.4 RFM计算结果保存3.4.1 保存到excel3.4.2 保存到数据库3.5 RFM计算结果可视化3.6 结果分析(营销建议)3.…...

消息中间件概述

目录1.为什么学习消息队列2.什么是消息中间件3.消息队列应用场景3.1 应用解耦3.2 异步处理3.3 流量削峰3.4 什么是QPS,PV3.5 什么是PV,UV,PR4. AMQP 和 JMS4.1 AMQP4.2 JMS4.3. AMQP 与 JMS 区别5. 消息队列产品6. RabbitMQ6.1 RabbitMQ简介6.2 RabbitMQ 中的相关概…...

vue和js给后端接口返回的数据(如以json数据为元素的数组)添加新的json字段

文章目录vue和js给后端接口返回的数据(如以json数据为元素的数组)添加新的json字段1. res为后端接口的响应2. 获取后端接口返回的数据3. 向 tableData 添加字段3.1. 向 tableData 中添加一个新json元素( {"time", "2023-02-09"} )3.…...

负载均衡的方式

在业务初期,我们一般会先使用单台服务器对外提供服务。随着业务流量越来越大,单台服务器无论如何优化,无论采用多好的硬件,总会有性能天花板,当单服务器的性能无法满足业务需求时,就需要把多台服务器组成集…...

python(15)--函数设计

前言 函数是可重用的程序代码块。 函数的作用,不仅可以实现代码的复用,还可以保证修改函数的代码时,所有调用该函数的地方都能得到体现。目前我已知函数的作用是:对代码实现了封装、函数调用、传递参数、返回计算结果等。 正文 …...

手把手教你用Python做可视化数据,还能调节动画丝滑度

数据可视化动画还在用Excel做? 现在一个简单的Python包就能分分钟搞定! 而且生成的动画也足够丝滑,效果是酱紫的: 这是一位专攻Python语言的程序员开发的安装包,名叫Pynimate。 目前可以直接通过PyPI安装使用。 使用…...

湖南中创教育PMP项目管理——变更管理

【变更管理​】包括 一、如何理解需求变更 二、如何控制需求变更 三、项目变更管理流程 四、如何应对“奇葩”变更 一、如何理解需求变更: 1、项目中发生变更是正常现象,变更无法回避 2、哪里都可能出现变更,任何人都有权提出变更 3、…...

IC真题 —— 刷题记录(1)

引言 记录一些 我自己刷的 IC行业招聘真题,不是每题记录,只记录一些值得记录的,写下自己的看法。主要是一些数字IC行业题目,偏前端。 1、有一个逐次逼近型 8位A/D 转换器,若时钟频率为250KHz,完成一次转换…...

【C++入门】命名空间,输出输入,缺省参数,函数重载

文章目录命名空间C输入与输出缺省参数函数重载命名空间 在C/C中,变量、函数和后面要学到的类都是大量存在的,这些变量、函数和类的名称将都存在于全局作用域中,可能会导致很多冲突。使用命名空间的目的是对标 识符的名称进行本地化&#xff0…...

cmu 445 poject 2笔记

2022年的任务 https://15445.courses.cs.cmu.edu/fall2022/project2/ checkpoint 1,实现b树,读,写,删 checkpoint 2, 实现b树,迭代器,并发读写删 本文不写代码,只记录遇到的一些思维盲点 checkp…...

梅开二度的 axios 源码阅读,三千字详细分享功能函数,帮助扩展开发思维

前言 第一遍看 axios 源码,更多的是带着日常开发的习惯,时不时产生出点联想。 第二遍再看 axios 源码,目标明确,就是奔着函数来的。 当有了明确清晰的目标,阅读速度上来了,思绪也转的飞快。 按图索骥&a…...

小型手机网站建设/seo职位描述

阿里云弹性公网IP(EIP)是一种可以独立购买和持有的公网IP地址资源,弹性公网IP具有独立购买持有、弹性绑定和配置灵活等优势,但实际使用中弹性公网IP也是有很多限制的,阿里云惠网分享弹性公网IP(EIP&#xf…...

asp网站应用程序/网络推广的含义

开心的Blue完成了自己的想法,水题dp,两种方法过关! 描述北大信息学院的同学小明毕业之后打算创业开餐馆.现在共有n 个地点可供选择。小明打算从中选择合适的位置开设一些餐馆。这 n 个地点排列在同一条直线上。我们用一个整数序列m1, m2, ...…...

做招聘的网站/贵港seo关键词整站优化

标签:Navicat for MySQL 常规选项Navicat 常规选项主要包括以下内容:窗口在工作列显示:每打开一个新窗口时会自动显示在 Windows 任务栏。停用该选项后,当退出 Navicat 主窗口时,所有窗口(例如:表、查询)将…...

建设集团网站方案设计/百度关键词排行榜

计算两个整型数组元素之和,返回一个数组。规则如下:对应的元素相加,不对应的直接赋值给相应的位置,如 {1,2,4}{2,4,6,8}{3,6,10,8} 下…...

单页面网站好优化吗/网站做seo教程

---- 什么是CAS机制 CAS机制主要是发生于Java中原子操作类(JUC)的底层实现中,其中在CAS机制中包含3个基本参数:内存地址V、旧预期值A、要修改的新值B。 当要更新一个变量的时候,只有当变量的预期值A和内存地址V当中的实…...

wordpress参数/一键清理加速

目录 1 SELECT语法 2 查询多列数据 2.1 field 2.2 table.field 3 AS(使用别名) 4 WHERE(条件查询) 4.1 简介 4.2 WHERE的使用 5 GROUP BY (查询结果分组) 5.1 查询结果分组 5.2 使用 6 HAVING…...