【西瓜书】剪枝与样本值处理——预剪枝、后剪枝、连续值、缺失值
目录
预剪枝
后剪枝
处理连续值
处理缺失值
剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段。
- 在决策树学习过程中,有时会造成决策树分枝过多,就可能造成过拟合,可通过主动去掉一些分支来降低过离合的风险。
- 决策树剪枝的基本策略有“预剪枝”(prepruning)和“后剪枝”(postpruning)。
预剪枝
- 预剪枝是指在决策树的生成过程中,对每个节点在划分前先进行估计,若当前节点的划分不能带来决策数泛化性能提升,则停止划分,并将当前节点标记为叶节点。
- 后剪枝是先从训练集生成一颗完整的决策树,然后自底向上的对非叶节点进行考察,若将该节点对应的子树替换为叶节点,能带来决策树泛化性能提升,则将该子树替换为叶节点。
- 那么如何判断决策树的泛化性能提升呢?可以使用验证集进行验证。
- 一颗仅有一层划分的决策树,称为“决策树桩”(decision stumb)。
- 预剪枝使得决策树的很多分支都不进行展开,这既降低了过拟合的风险,又显著减少了决策树的训练时间开销和测试时间开销。
- 另一方面,有些分支的当前划分虽不能提升泛化性能,甚至可能导致泛化性能暂时下降,但是在其基础进行的后续划分却有可能导致性能显著提高。这给预剪枝决策树带来了欠拟合的风险。
- 预剪枝的本质是一种“贪心”算法。
后剪枝
- 后剪枝决策树通常比预减值决策树保留了更多的分支,一般情况下后剪纸决策树的欠拟合风险很小,泛化性能往往优于预剪纸的决策树。
- 后剪枝的训练时间开销比未剪枝决策树和预剪枝决策树都要大很多。
处理连续值
- 在处理分类时都是基于离散属性来生成决策树,使用离散值进行分类也比较符合人们的思维习惯。
- 如果输入样本的属性是连续值,就需要用到连续属性离散化的技术。
- 二分法(bi-partition)对连续属性进行处理的最简单的策略。这也是 C4.5决策树 算法中采用的机制。
- 与离散属性不同,若当前节点划分属性为连续属性,该属性还可作为其后代节点的划分属性(离散属性在决策树上只出现一次)。
处理缺失值
- 现实任务中常会遇到不完整样本,即样本的某些属性值缺失。
- 如果在属性值缺失的时候丢弃该样本,则会造成样本变得很小,因此有必要考虑利用缺失属性值的训练样例来进行学习。
- 缺失值的处理需要解决两个问题:
- 问题1:如何在属性值缺失的情况下进行划分属性选择。
- 问题2:给定划分属性,若样本在该属性上的值缺失,如何对样本进行划分。
- 对于问题1:按照属性来,
- 令D~表示D中在属性a上没有缺失值的样本,
- 定义ρ为无缺失值的样本比例,
- 定义pk~为无缺失值样本中第k类所占的比例,
- 定义rv~为无缺失值样本中在属性a上取值为a^v的样本所占的比例;
- 则信息增益为:
- 其中
-
对于问题2:按照概率来,
-
若样本x在划分属性a上的取值已知,则将x划入与其取值对应的子节点,且样本全值在子节点中保持为
。
-
若样本x在划分属性a上的取值未知,则将x同时划入所有的子节点,且样本权值与属性值
对应的子节点中调整为
。也就是说,让同一个样本以不同的概率划入到不同的子节点中去。
-
-
C4.5算法中使用了上述解决方案。
【西瓜书】决策树-CSDN博客
相关文章:
【西瓜书】剪枝与样本值处理——预剪枝、后剪枝、连续值、缺失值
目录 预剪枝 后剪枝 处理连续值 处理缺失值 剪枝(pruning)是决策树学习算法对付“过拟合”的主要手段。 在决策树学习过程中,有时会造成决策树分枝过多,就可能造成过拟合,可通过主动去掉一些分支来降低过离合的风…...
NLP 1、人工智能与NLP简介
人人都不看好你,可偏偏你最争气 —— 24.11.26 一、AI和NLP的基本介绍 1.人工智能发展流程 弱人工智能 ——> 强人工智能 ——> 超人工智能 ① 弱人工智能 人工智能算法只能在限定领域解决特定的问题 eg:特定场景下的文本分类、垂直领域下的对…...
常见线程安全问题之Double Checked Locking
创作内容丰富的干货文章很费心力,感谢点过此文章的读者,点一个关注鼓励一下作者,激励他分享更多的精彩好文,谢谢大家! 双重锁定检查(Double Checked Locking,下称 DCL)是并发下实现懒…...
Redis(非关系型数据库)的作用 详细解读
edis(Remote Dictionary Server)是一个开源的、高性能的、基于内存的数据结构存储系统。它具有极高的读写性能,并且能够支持多种数据结构的存储。Redis 最初的设计目标是作为一个缓存解决方案,但随着其功能的不断扩展,…...
互联网视频推拉流EasyDSS视频直播点播平台视频转码有哪些技术特点和应用?
视频转码本质上是一个先解码再编码的过程。在转码过程中,原始视频码流首先被解码成原始图像数据,然后再根据目标编码标准、分辨率、帧率、码率等参数重新进行编码。这样,转换前后的码流可能遵循相同的视频编码标准,也可能不遵循。…...
python之多元线性回归
目录 前言实战 前言 多元线性回归是回归分析中的一种复杂模型,它考虑了多个输入变量对输出变量的影响。与一元线性回归不同,多元线性回归通过引入多个因素,更全面地建模了系统关系。 多元线性回归模型的表达式为: f ( X ) K T …...
学习threejs,使用设置lightMap光照贴图创建阴影效果
👨⚕️ 主页: gis分享者 👨⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.MeshLambertMaterial…...
一,SQL注入解题(猫舍)
封神台 第一章:为了女神小芳! Tips: 通过sql注入拿到管理员密码! 尤里正在追女神小芳,在得知小芳开了一家公司后,尤里通过whois查询发现了小芳公司网站 学过一点黑客技术的他,想在女神面前炫炫技。于是他…...
海康大华宇视视频平台EasyCVR私有化部署视频平台海康ISUP是什么?如何接入到EasyCVR?
在现代安防领域,随着技术的发展和需求的增加,对于视频监控系统的远程管理和互联互通能力提出了更高的要求。海康威视的ISUP协议(以及功能相似的EHOME协议)因此应运而生,它们为不具备固定IP接入的设备提供了一种有效的中…...
Java ArrayList 与顺序表:在编程海洋中把握数据结构的关键之锚
我的个人主页 我的专栏:Java-数据结构,希望能帮助到大家!!!点赞❤ 收藏❤ 前言:在 Java编程的广袤世界里,数据结构犹如精巧的建筑蓝图,决定着程序在数据处理与存储时的效率、灵活性以…...
windows下安装wsl的ubuntu,同时配置深度学习环境
写在前面,本次文章只是个人学习记录,不具备教程的作用。个别信息是网上的,我会标注,个人是gpt生成的 安装wsl 直接看这个就行;可以不用备份软件源。 https://blog.csdn.net/weixin_44301630/article/details/1223900…...
开展网络安全成熟度评估:业务分析师的工具和技术
想象一下,您坐在飞机驾驶舱内。起飞前,您需要确保所有系统(从发动机到导航工具)均正常运行。现在,将您的业务视为飞机,将网络安全视为飞行前必须检查的系统。就像飞行员依赖检查表一样,业务分析师使用网络安全成熟度评估来评估组织对网络威胁的准备程度。这些评估可帮助…...
Maven Surefire 插件简介
Maven Surefire 插件是 Maven 构建系统中的一个关键组件,专门用于在构建生命周期中执行单元测试。 它通常与 Maven 构建生命周期的测试阶段绑定,确保所有单元测试在项目编译后和打包前被执行。 最新版本 Maven Surefire 插件的最新版本为 3.5.2。 使…...
基于微信小程序的平价药房管理系统+LW参考示例
1.项目介绍 系统角色:管理员、医生、普通用户功能模块:用户管理、医生管理、药品分类管理、药品信息管理、在线问诊管理、生活常识管理、日常提醒管理、过期处理、订单管理等技术选型:SpringBoot,Vue,uniapp等测试环境…...
react 前端最后阶段静态服务器启动命令
这个错误是因为你还没有安装 serve 工具。让我们一步步解决: 首先全局安装 serve: npm install -g serve如果上面的命令报错,可能是因为权限问题,可以尝试: 安装完成后,再运行: Windows 下使用…...
Flink中普通API的使用
本篇文章从Source、Transformation(转换因子)、sink这三个地方进行讲解 Source: 创建DataStream本地文件SocketKafka Transformation(转换因子): mapFlatMapFilterKeyByReduceUnion和connectSide Outpu…...
高性能 ArkUI 应用开发:复杂 UI 场景中的内存管理与 XML 优化
本文旨在深入探讨华为鸿蒙HarmonyOS Next系统(截止目前API12)的技术细节,基于实际开发实践进行总结。 主要作为技术分享与交流载体,难免错漏,欢迎各位同仁提出宝贵意见和问题,以便共同进步。 本文为原创内容,任何形式的转载必须注明出处及原作者。 在开发高性能 ArkUI 应…...
用天翼云搭建一个HivisionIDPhoto证件照处理网站
世人不必记我,我不记世人。 HivisionIDPhoto证件照处理网站 世人不必记我,我不记世人。项目地址项目搭建与修改前端后端遇到的坑 成果图 前段时间工作需要频繁处理证件照,当时同事推荐一个证件照小程序(要看广告)&…...
【算法一周目】滑动窗口(2)
目录 水果成篮 解题思路 代码实现 找到字符串中所有字母异位词 解题思路 代码实现 串联所有单词的子串 解题思路 代码实现 最小覆盖子串 解题思路 代码实现 水果成篮 题目链接:904. 水果成篮 题目描述: 你正在探访一家农场,农场…...
Zustand:一个轻量级的React状态管理库
文章目录 前言一、安装Zustand二、使用Zustand三、实际案例结语 前言 在现代Web开发中,状态管理是一个常见的需求,特别是在构建大型或复杂的单页面应用程序(SPA)时。React等框架虽然提供了基本的状态管理功能,但对于复…...
2024最新AI期刊排名:哪些CCF推荐期刊正在崛起或没落?
2024年AI学术期刊动态图谱:谁在崛起,谁在掉队? 翻开任何一位AI研究者的浏览器书签栏,学术期刊的投稿入口总是占据着显眼位置。选择一本合适的期刊投稿,不仅关乎研究成果的传播效率,更直接影响学术生涯的发展…...
新概念英语第一册037_Making a bookcase
Lesson 37: Making a bookcase. Watch the story and answer the question What is Susan’s favourite colour? Pink.Key words and expressions work 工作hard adv. 努力地make 做bookcase 书橱,书架hammer 锤子paint …...
AI私域获客生产厂家
一、公司概况 上海超客多多智能科技有限公司是一家专注于AI驱动企业增长的科技服务公司。其核心使命是助力中小企业、工厂型企业和实体商家,以更低的成本、更少的人力构建一套可复制、可规模化的线上获客与成交体系。二、核心产品 - AI自运转百倍获客体系整体功能 这…...
破解root密码
如果root密码忘记了,那么我们需要以下操作完成破解1首先需要重启虚拟机,然后在出现的页面中通过上下键选择第二个选项,之后点击e建,然后进入以下页面2将页面上代码下的小横线移到quiet这个单词后,然后打出rd.break,打出…...
Material Theme深度解析:10个提升编程体验的高级定制技巧
Material Theme深度解析:10个提升编程体验的高级定制技巧 【免费下载链接】vsc-material-theme vsc-material-theme: 是一个 Visual Studio Code 的主题,采用了 Google 的 Material Design 设计风格。适合开发者使用 vsc-material-theme 为 Visual Studi…...
Phi-3-mini-128k-instruct实战案例:用Chainlit构建面向工程师的Linux命令解释器
Phi-3-mini-128k-instruct实战案例:用Chainlit构建面向工程师的Linux命令解释器 1. 引言:当大模型遇上Linux命令行 对于很多工程师来说,Linux命令行既是强大的工具,也是偶尔让人头疼的“黑盒子”。特别是当你面对一个陌生的命令…...
英伟达的自动驾驶“双轨制”:在“类人直觉”与“绝对安全”之间寻找平衡
引言:一场彰显信心的试乘与一个深刻的反思 3月12日消息,英伟达自动驾驶负责人吴新宙与公司CEO黄仁勋之间有一个不成文的约定:每隔半年,当吴新宙对系统的安全性有“充分信心”时,他会邀请黄仁勋进行一次“脱手”试乘。最近的一次旅程,二人乘坐梅赛德斯-奔驰CLA轿车,从伍…...
【arcgis进阶】批量提取kml地理坐标并自动化生成Excel报表
1. 从KML到Excel的自动化处理全流程 每次遇到需要处理上百个KML文件里的坐标数据时,手动操作简直让人崩溃。我曾经为了一个城市路灯点位项目,连续三天熬夜复制粘贴坐标数据,直到发现ArcGIS这套自动化方案才彻底解脱。下面就把我摸索出来的完整…...
从零到一:手把手教你用Overleaf驾驭ACM官方模板
1. 为什么选择Overleaf处理ACM模板? 第一次接触学术论文投稿的朋友,最头疼的往往不是研究内容本身,而是格式调整这个"体力活"。我当年写第一篇会议论文时,整整花了三天时间折腾Word排版,最后导师看了一眼就说…...
从‘电子支票’到‘按月合约’:一份电信客户流失分析报告,给运营团队的5条精准干预策略
从‘电子支票’到‘按月合约’:电信客户流失的5大干预策略与商业落地指南 电信行业正面临前所未有的客户留存挑战。随着市场竞争加剧和用户选择多样化,如何精准识别高流失风险客户并采取有效干预措施,成为运营商提升商业价值的关键。本文将基…...
