基于重要抽样的主动学习不平衡分类方法ALIS
这篇论文讨论了数据分布不平衡对分类器性能造成的影响,并提出了一种新的有效解决方案 - 主动学习框架ALIS。
1、数据分布不平衡会影响分类器的学习性能。现有的方法主要集中在过采样少数类或欠采样多数类,但往往只采用单一的采样技术,无法有效解决严重的类别不平衡问题。
2、论文提出了ALIS框架,它通过交替进行重要多数类实例选择和有价值少数类实例生成,使得两种采样策略相互影响和改善。
3、ALIS可以在保持采样平衡的同时,选择出更有价值的多数类实例和生成更有代表性的少数类实例,从而大幅提高分类器的性能。
传统方法缺点:
基于采样的技术一直是通过增加少数类实例(过采样)或减少多数类实例(欠采样)来缓解不平衡问题的一种直接而简单的方法。
基于混合采样同时利用欠采样和过采样的联合方法。虽然混合抽样方法同时利用了这两种抽样策略,但它们仍然或多或少地存在着这两种抽样策略分开执行的缺点。
集成学习和代价敏感学习也被用来提高非平衡数据分类器的性能。但集成方法的问题是如何生成准确的集成分量并设计适当的融合函数来组合弱分类器。同样,即使借助领域知识,手动调整成本敏感型学习方法的成本参数也是昂贵的。
一、ALIS算法主要思想
对于主动学习的每次迭代,都做两件事:①、挑选重要的多数类实例;②、生成信息丰富的少数类实例。
基于此,主动学习能够在每个学习阶段产生均衡的训练集!
1.1、挑选重要的多数类实例(欠采样过程)
这个新的主动选择准则捕捉了选定多数类实例的以下两个统计特征:
(1) 一阶统计信息:选定多数类实例到当前决策边界的平均距离。这反映了这些实例与边界的相关性程度。
(2) 二阶统计信息:选定多数类实例到当前决策边界的距离方差。这反映了这些实例的多样性程度。
当这些多数类实例与决策边界的距离差异较小时,意味着这些实例分布比较集中,缺乏多样性。距离方差就会较小。
相反,如果这些多数类实例与决策边界的距离差异较大,意味着它们分布较为分散,体现了较高的多样性。距离方差就会较大。
1.2、生成信息丰富的少数类实例(过采样过程)
与之前简单的过采样方法相比,ALIS通过选择重要的边界实例、计算它们的重要性权重,并采用核密度估计来生成新样本,可以生成更加贴近决策边界、分布更加多样化的少数类合成实例。
二、ALIS基本框架
Pactive 表示主动学习少数类样本个数,Nactive表示主动学习多数类样本个数,其中数字上标j为主动学习的第j次迭代过程
j = 0时,代表初始值,即初始时的训练集由两部分组成:①所有少数类样本(有P个);②随机挑选P个多数类样本(随机欠采样过程)
之后的第j次迭代,进行ALIS算法的重要过采样(生成Pj active个少数类样本)和重要欠采样(从剩余的多数类实例池 Nj-1 pool 中选择重要的多数类实例 Nj active)
当训练集在连续两轮的预测性能差异小于阈值时,主动学习过程终止。最终分类器由原始少数类实例 P、初始随机选择的多数类实例 N0 active、过采样的少数类实例 Pactive 和欠采样的多数类实例 Nactive 组成。
1、重要欠采样
ALIS尝试选择边界周围的重要多数实例。为了实现这一点,它考虑了这些实例的结构信息,例如它们的第一和第二统计信息。
具体步骤:
将距离当前边界最近的m个实例(实验中m取3)作为初始候选集Nj0_active
在每次迭代中,从池中选择最接近边界的t个额外实例(遵循主动学习策略,在实验中将t设置为2),并将其添加到Njk active中。
对于每一次迭代都要计算其边缘分布率ratio j k的值,可以由如下公式计算。其值越小,表示距离平均值小,距离方差大。前者有利于不确定实例的选择,因为它们靠近边界。后者有助于选择不同的实例,因为它们是彼此分散的
因此,如果ratiojk+1 > ratiojk,则选择信息负点的过程结束,其中Nj_active = Njk_active。
2、重要过采样
①识别有价值的边界少数类实例(采样种子):
那些少数类实例的k个最近邻里包含多数类实例,被认为处于边界区域。这些边界少数类实例被选为有价值的集合,记作Pinfo。
②给采样种子分配重要性权重:
对于Pinfo中的每个实例xi,根据它的k个最近邻的分布,给它分配一个权重值ξi。权重ξi计算为xi的k个最近邻中多数类实例的比例。
③使用核密度估计生成新的少数类实例:
使用一个核密度函数Gi(x)来捕捉有价值少数类实例(xi ∈ Pinfo)的分布。核密度函数是一个以xi为中心、带宽为hi的高斯分布。整体概率密度函数p(x)被估计为各个高斯核函数的加权和,权重为ξi。
④通过从估计的概率密度函数p(x)中采样,可以生成新的少数类实例。
相关文章:
![](https://i-blog.csdnimg.cn/direct/18f8a07236b440379e07ee87acd594ea.png)
基于重要抽样的主动学习不平衡分类方法ALIS
这篇论文讨论了数据分布不平衡对分类器性能造成的影响,并提出了一种新的有效解决方案 - 主动学习框架ALIS。 1、数据分布不平衡会影响分类器的学习性能。现有的方法主要集中在过采样少数类或欠采样多数类,但往往只采用单一的采样技术,无法有效解决严重的类别不平衡问题。 2、论…...
![](https://i-blog.csdnimg.cn/direct/c26dc3280af24a7093aeacae092a235d.png)
Python爬虫(基本流程)
1. 确定目标和范围 明确需求:确定你需要从哪些网站抓取哪些数据。合法性:检查目标网站的robots.txt文件,了解哪些内容可以被抓取。数据范围:确定爬取数据的起始和结束点,比如时间范围、页面数量等。 2. 选择合适的工…...
![](https://i-blog.csdnimg.cn/direct/abb0c816e35a45c5abd3488d9526a3e7.png)
primeflex教学笔记20240720, FastAPI+Vue3+PrimeVue前后端分离开发
练习 先实现基本的页面结构: 代码如下: <template><div class"flex p-3 bg-gray-100 gap-3"><div class"w-20rem h-12rem bg-indigo-200 flex justify-content-center align-items-center text-white text-5xl">…...
![](https://img-blog.csdnimg.cn/img_convert/8e58f65b4f4d76a895cfbdd331b43217.png)
移动设备安全革命:应对威胁与解决方案
移动设备已成为我们日常工作和家庭生活中不可或缺的工具,然而,对于它们安全性的关注和投资仍然远远不够。本文深入分析了移动设备安全的发展轨迹、目前面临的威胁态势,以及业界对于这些安全漏洞响应迟缓的深层原因。文中还探讨了人们在心理层…...
![](https://i-blog.csdnimg.cn/direct/aeef3c75d5cf4525bb69c57a17ddc078.png)
【C语言】 链表实现学生管理系统(堆区开辟空间)
总体思路都能写出来,问题是感觉稍微比之前的麻烦一些,在刚开始创建结构体的时候,并没有去按照链表的思路去写,导致写成了顺序表,后面就一直纠结空间怎么开辟。 链表是由一个头节点和其它申请出来的小节点连起来的&…...
![](https://i-blog.csdnimg.cn/direct/d1e7e550002b48b7b90e94bd54139519.jpeg)
STM32实战篇:按键(外部输入信号)触发中断
功能要求 将两个按键分别与引脚PA0、PA1相连接,通过按键按下,能够触发中断响应程序(不需明确功能)。 代码流程如下: 实现代码 #include "stm32f10x.h" // Device headerint main() {//开…...
![](https://i-blog.csdnimg.cn/direct/476e57fa015742e2a69fa5fac7af0bce.png#pic_center)
Android SurfaceView 组件介绍,挖洞原理详解
文章目录 组件介绍基本概念关键特性使用场景 SurfaceHolder介绍主要功能使用示例 SurfaceView 挖洞原理工作机制 使用SurfaceView展示图片示例创建一个自定义的 SurfaceView类在 Activity 中使用 ImageSurfaceView注意事项效果展示 组件介绍 在 Android 开发中,Sur…...
![](https://www.ngui.cc/images/no-images.jpg)
day2加餐 Go 接口型函数的使用场景
文章目录 问题价值使用场景其他语言类似特性 问题 在 动手写分布式缓存 - GeeCache day2 单机并发缓存 这篇文章中,有一个接口型函数的实现: // A Getter loads data for a key. type Getter interface {Get(key string) ([]byte, error) }// A Getter…...
![](https://i-blog.csdnimg.cn/direct/14fca2355454477db7671040afdb67da.png)
摄像头 RN6752v1 视频采集卡
摄像头 AHD倒车摄像头比较好,AHD英文全名Analog High Definition,即模拟高清,拥有比较好的分辨率与画面质感。 RN6752v1 GQW AKKY2 usb 采集卡 FHD(1080p)、HD(720p)和D1(480i&am…...
![](https://i-blog.csdnimg.cn/direct/fe43d3d3a3754b9e8497d4a730b2bc2d.png)
记录vivado自带IP iBert眼图近端回环
记录利用vivado自带IP核工具测试信号质量 ibert是测试眼图的工具,在使用的时候并不用改太多的内容,只需要注意参考时钟及所需要的引脚即可。由于条件的限制,并没有使用光纤和电缆进行连接进行外部回环,仅使用内部回环做测试&…...
![](https://i-blog.csdnimg.cn/direct/c38be68f16624a68a6b0a2d449befddc.png)
js | Core
http://dmitrysoshnikov.com/ecmascript/javascript-the-core/ Object 是什么? 属性[[prototype]]对象。 例如,下面的,son是对象,foo不是对象。打印出来的son,能看到有一个prototype 对象。 prototype vs _proto_ v…...
![](https://www.ngui.cc/images/no-images.jpg)
Log4J reminder
Java JNDI and Log injection https://docs.oracle.com/javase/jndi/tutorial/ See also https://telegra.ph/Log4J-Vulnerability-Explained-07-21...
![](https://i-blog.csdnimg.cn/direct/73bc43b93c0d42f18f6fcab8929bec32.png)
Unity XR Interaction Toolkit(VR、AR交互工具包)记录安装到开发的流程,以及遇到的常见问题(一)!
提示:文章有错误的地方,还望诸位大神不吝指教! 文章目录 前言一、XR Interaction Toolkit是什么?二、跨平台交互三、 AR 功能四、XR Interaction Toolkit的特点五、XR Interaction Toolkit 示例总结 前言 随着VR行业的发展&#…...
![](https://img-blog.csdnimg.cn/img_convert/6d1d1efd8079b07d8d45f6525d494bef.png)
MongoDB文档整理
过往mongodb文档: https://blog.csdn.net/qq_46921028/article/details/123361633https://blog.csdn.net/qq_46921028/article/details/131136935https://blog.csdn.net/qq_46921028/article/details/139247847 1. MongoDB前瞻 1、MongoDB概述: MongoDB是…...
![](https://i-blog.csdnimg.cn/direct/5d09a9e52d3d47bdb7862b26153913d8.png)
【AI学习】关于Scaling Law的相关学习
一、苦涩的教训 首先,学习一段重要话语: The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin. 从70年的人工智能研究中…...
![](https://www.ngui.cc/images/no-images.jpg)
学习小记-Kafka相较于其他MQ有啥优势?
Kafka 相比于 RocketMQ 有以下几个优势: 1. 高吞吐量和低延迟: Kafka 以其出色的 I/O 性能和分布式架构设计,能够实现极高的吞吐量,每秒数百万的消息处理能力,适合大规模数据流处理。同时,Kafka 设计为…...
![](https://i-blog.csdnimg.cn/direct/7d7287928c804e22890f8d55bd6b9f10.png)
技能 | postman接口测试工具安装及使用
哈喽小伙伴们大家好!今天来给大家分享一款轻量级,高效好用的接口测试工具-postman. Postman是一个流行的API开发工具,主要用于测试、开发和文档化API。以下是关于Postman的介绍及其主要使用场景: Postman介绍: 1. 功能丰富的API客户端&#…...
![](https://img-blog.csdnimg.cn/img_convert/7f8429486d07d09ef37e1662599e0d75.jpeg)
移动UI:任务中心的作用,该如何设计更合理?
任务中心是移动应用中用于展示和管理用户待办任务、提醒事项、用户福利、打卡签到等内容的功能模块。合理设计任务中心可以提升用户体验和工作效率。 以下是一些设计任务中心的合理建议: 1. 易于查看和管理: 任务中心的设计应该使用户能够快速、直观地…...
![](https://i-blog.csdnimg.cn/direct/7a9b5e6434504a2992a41653b9d803e2.png)
pytorch学习(十)优化函数
优化函数主要有,SGD, Adam,RMSProp这三种,并且有lr学习率,momentum动量,betas等参数需要设置。 通过这篇文章,可以学到pytorch中的优化函数的使用。 1.代码 代码参考《python深度学习-基于pytorch》&…...
![](https://www.ngui.cc/images/no-images.jpg)
Ubuntu22.04:安装Samba
1.安装Samba服务 $ sudo apt install samba samba-common 2.创建共享目录 $ mkdir /home/xxx/samba $ chmod 777 /home/xxx/samba 3.将用户加入到Samba服务中 $ sudo smbpasswd -a xxx 设置用户xxx访问Samba的密码 4.配置Samba服务 $ sudo vi /etc/samba/smb.conf 在最后加入 …...
![](https://www.ngui.cc/images/no-images.jpg)
Powershell 使用介绍
0 Preface/Foreword 0.1 参考文档 Starting Windows PowerShell - PowerShell | Microsoft Learn 1 Powershell 介绍 2 命令介绍 2.1 新建文件夹 New-Item -Path C:\GitLab-Runner -ItemType Directory 2.2 切换路径 cd C:\GitLab-Runner 2.3 下载文件 Invoke-WebRequ…...
![](https://i-blog.csdnimg.cn/direct/72c06e795aa84725bcf8574f86c055b1.png)
【Langchain大语言模型开发教程】记忆
🔗 LangChain for LLM Application Development - DeepLearning.AI 学习目标 1、Langchain的历史记忆 ConversationBufferMemory 2、基于窗口限制的临时记忆 ConversationBufferWindowMemory 3、基于Token数量的临时记忆 ConversationTokenBufferMemory 4、基于历史…...
![](https://i-blog.csdnimg.cn/direct/46d022bb16da4ec8a90cff31daba787c.png)
最新Qt6的下载与成功安装详细介绍
引言 Qt6 是一款强大的跨平台应用程序开发框架,支持多种编程语言,最常用的是C。Qt6带来了许多改进和新功能,包括对C17的支持、增强的QML和UI技术、新的图形架构,以及构建系统方面的革新。本文将指导你如何在Windows平台上下载和安…...
![](https://i-blog.csdnimg.cn/direct/a66844031ad54a87b30610019318bd87.png)
LeetCode 热题 HOT 100 (001/100)【宇宙最简单版】
【链表】 No. 0160 相交链表 【简单】👉力扣对应题目指路 希望对你有帮助呀!!💜💜 如有更好理解的思路,欢迎大家留言补充 ~ 一起加油叭 💦 欢迎关注、订阅专栏 【力扣详解】谢谢你的支持&#x…...
![](https://i-blog.csdnimg.cn/direct/51b999f9b8fa4e6aab1a6acf065ecfe6.png)
Ubantu 使用 docker 配置 + 远程部署 + 远程开发
大家好我是苏麟 , Ubantu 一些配置 . 视频 : 服务器很贵?搞台虚拟机玩玩!保姆级 Linux 远程开发教程_哔哩哔哩_bilibili Docker安装及配置 安装命令 : sudo apt install docker.io 查看版本号 : docker -v 查看虚拟机地址命令 : ifconfig 虚拟机地址 或…...
![](https://i-blog.csdnimg.cn/direct/599da8fafa014b328060e34bb705a5e4.png)
应用层自定义协议与序列化
个人主页:Lei宝啊 愿所有美好如期而遇 协议 简单来说,就是通信双方约定好的结构化的数据。 序列化与反序列化 我们通过一个问题引入这个概念,假如我们要实现一个网络版的计算器,那么现在有两种方案,第一种&#x…...
![](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2F86156%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image001.png&pos_id=fU7j6cXS)
Python学习笔记—100页Opencv详细讲解教程
目录 1 创建和显示窗口... - 4 - 2 加载显示图片... - 6 - 3 保存图片... - 7 - 4 视频采集... - 8 - 5视频录制... - 11 - 6 控制鼠标... - 12 - 7 TrackBar 控件... - 14 - 8.RGB和BGR颜色空间... - 16 - 9.HSV和HSL和YUV.. - 17 - 10 颜色空间的转化... - 18 - …...
![](https://i-blog.csdnimg.cn/direct/c5f43fde8ba340d0a6fa017a7a2e0279.webp)
C语言·分支和循环语句(超详细系列·全面总结)
前言:Hello大家好😘,我是心跳sy,为了更好地形成一个学习c语言的体系,最近将会更新关于c语言语法基础的知识,今天更新一下分支循环语句的知识点,我们一起来看看吧~ 目录 一、什么是语句…...
![](https://i-blog.csdnimg.cn/direct/d55d1af66768477fbb4f2e0d9e3c6fe7.png)
Gateway源码分析:路由Route、断言Predicate、Filter
文章目录 源码总流程图说明GateWayAutoConfigurationDispatcherHandlergetHandler()handleRequestWith()RouteToRequestUrlFilterReactiveLoadBalancerClientFilterNettyRoutingFilter 补充知识适配器模式 详细流程图 源码总流程图 在线总流程图 说明 Gateway的版本使用的是…...
![](https://i-blog.csdnimg.cn/direct/b9975b73045e48db8f9b1e1050df9a31.png)
ARM体系结构和接口技术(十)按键中断实验①
一、按键中断实验 (一)分析按键电路图 (二)芯片手册 二、按键中断实验分析 注:NVIC----Cortx-M核GIC----Cortx-A核 (一)查看所有外设的总线以及寄存器基地址 注:GIC的总线是A7核的…...
![](http://rescdn.qqmail.com/zh_CN/htmledition/p_w_picpaths/ico_loading2.gif)
商丘网站制作费用/朋友圈信息流广告投放价格
品味电视,品味人生!很少看电视剧的我,最近看了一步名为“闪婚”的电视剧,其情节让人深思。爱情没钱就没幸福吗,一个穷光蛋就找不到爱情吗。现实的社会,现实的电视剧。是谁造就了这个社会风气,很…...
ipad网站开发/如何引流与推广
最近想要同步CSDN和微信公众号的内容,各位看客们可以两边都关注一下,方便获取最新的信息。请扫描下面的的二维码添加关注,谢谢支持。 上一篇已经简单的介绍了时序,本文将会以一个ADC实例简单粗暴的进行分析; 现有一块A…...
![](https://img-blog.csdnimg.cn/img_convert/9521ddbbb056171525eea7a4d8c6f204.png)
网站后台登陆密码忘记/百度百家号注册
今天,有个同事找到我,说他前几天在centos linux系统上安装的mariadb数据库登陆不上去了,问我有没有办法。我登陆系统以后,打了一个用root登陆,密码为空的命令“mysql –u root -p”就直接登陆上去了,而后面…...
![](/images/no-images.jpg)
cms代码做网站/什么是seo教程
目录 环境 文档用途 详细信息 环境 系统平台:Microsoft Windows (64-bit) 10 版本:5.6.4 文档用途 TEMPORARY TABLE和UNLOGGED TABLE 如何正确使用 详细信息 一.TEMPORARY|TEMP TABLE 会话级或事务级的临时表,临时表在会话结束或事…...
![](/images/no-images.jpg)
上海网站建设设计公司哪家好/网络营销方式对比分析
classOf、isInstanceOf、asInstanceOf三个预定义方法分析 Scala的三个预定义(predefined)方法,我们经常用到;它们用来感觉很简单, 但是里面还是隐藏了一些细节东西,不妨花点时间来分析分析。 先上代码 PredefineTest.scala objec…...
![](https://img-blog.csdnimg.cn/20210706133010729.png)
卖软件的网站/排名函数rank怎么用
1:touch指令 创建空文件 可以一次性创建多个文件 2:cp指令 cp指令拷贝文件到指定目录 基本语法 cp [选项] source dest source是源文件路径,dest是目标文件路径。 常用选项 -r 递归复制整个文…...