机器学习实战——决策树:从原理到应用的深度解析
✨个人主页欢迎您的访问 ✨期待您的三连 ✨
✨个人主页欢迎您的访问 ✨期待您的三连 ✨
✨个人主页欢迎您的访问 ✨期待您的三连✨
决策树(Decision Tree)是一种简单而直观的分类与回归模型,在机器学习中广泛应用。它的核心思想是将数据集逐步划分成更小的子集,以此生成一棵树形结构,最终通过树叶(叶节点)做出决策。由于其易于理解、可解释性强、能够处理多种类型的数据,决策树被广泛应用于金融、医疗、市场营销等领域。
本文将深入探讨决策树的原理、实现方式、常用数据集及其应用场景,附带具体代码实例,并推荐几篇优秀的论文。
一、决策树原理✨✨
1.1 决策树的结构
决策树是一种递归分治的模型,它通过对特征空间的划分来进行决策。树的结构通常包括:
- 根节点(Root):代表整个数据集。
- 内部节点(Internal Nodes):每个节点表示对某一特征的条件判断,选择一个特征进行划分。
- 叶节点(Leaf Nodes):最终的分类或回归结果。
- 边(Edges):表示从一个节点到另一个节点的决策路径。
1.2 决策树的构建
构建决策树的目标是通过递归的方式找到最佳的特征分裂点,最终形成一个能够准确预测目标变量的树结构。其核心思想是分裂:通过选择一个最佳的特征(特征值)来将数据集划分成不同的子集。常用的分裂准则有:
- 信息增益(Information Gain):基于熵(Entropy)概念,衡量一个特征对数据集分裂后不确定性的减少程度。常用于ID3算法。
- 基尼指数(Gini Impurity):衡量数据集的不纯度,数值越低代表数据集越纯净。常用于CART(Classification and Regression Trees)算法。
- 卡方检验(Chi-Square):通过统计学的角度来选择最佳特征。
1.3 决策树的剪枝
决策树的构建可能会过度拟合训练数据,导致其泛化能力差。为了避免这种情况,通常需要进行剪枝,也就是删除掉一些无意义的分支,使树的结构更简洁。
- 预剪枝:在树构建过程中限制树的深度或节点数。
- 后剪枝:树构建完成后,通过交叉验证或其他方法剪去不必要的节点。
1.4 决策树的优缺点
优点:
- 易于理解和解释:树形结构易于人类理解,尤其适合需要可解释性的场景。
- 无需特征缩放:与许多算法不同,决策树不需要对数据进行标准化。
- 处理缺失数据:决策树能够处理缺失数据,并且能够处理多种类型的特征(如数值型和类别型数据)。
缺点:
- 易于过拟合:如果没有适当的剪枝,决策树容易在训练数据上表现得非常好,但在测试数据上表现较差。
- 对噪声敏感:决策树对数据中的噪声和异常值较为敏感。
- 计算复杂度高:在数据维度非常高时,决策树的构建可能会变得非常缓慢。
二、使用决策树进行分类:代码示例✨✨
以下是一个使用决策树在 Iris 数据集 上进行分类的 Python 代码示例。我们将使用 sklearn
库来实现决策树分类器,并展示模型的性能。
2.1 数据集介绍
Iris 数据集(鸢尾花数据集)是一个经典的机器学习数据集,常用于分类算法的测试。数据集包含 150 个样本,每个样本有 4 个特征:萼片长度、萼片宽度、花瓣长度和花瓣宽度。目标变量为 3 种鸢尾花的类别:Setosa、Versicolor 和 Virginica。
数据集的来源:Iris Dataset - UCI Repository
2.2 Python 代码实现
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, accuracy_score
from sklearn.tree import plot_tree# 1. 加载 Iris 数据集
iris = load_iris()
X = iris.data
y = iris.target# 2. 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 3. 创建决策树分类器
clf = DecisionTreeClassifier(criterion='gini', max_depth=5, random_state=42)# 4. 训练模型
clf.fit(X_train, y_train)# 5. 预测
y_pred = clf.predict(X_test)# 6. 输出准确率和评估报告
print(f"Accuracy: {accuracy_score(y_test, y_pred):.4f}")
print("Classification Report:\n", classification_report(y_test, y_pred))# 7. 可视化决策树
plt.figure(figsize=(12, 8))
plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=iris.target_names)
plt.title("Decision Tree for Iris Classification")
plt.show()
2.3 代码解析
- 数据加载:使用
load_iris()
加载 Iris 数据集,并提取特征X
和目标变量y
。 - 数据划分:使用
train_test_split()
将数据集分为 70% 的训练集和 30% 的测试集。 - 创建决策树分类器:使用
DecisionTreeClassifier()
创建一个决策树分类器,指定使用基尼指数作为分裂标准,并限制树的深度为 5,以避免过拟合。 - 训练模型并预测:通过
fit()
方法训练模型,使用predict()
对测试集进行预测。 - 性能评估:使用
accuracy_score()
和classification_report()
输出模型的性能。 - 决策树可视化:使用
plot_tree()
可视化决策树,帮助直观理解分类决策过程。
2.4 结果分析
运行代码后,输出将包括决策树模型的准确率和详细的分类报告(包括精确度、召回率、F1 得分等)。同时,通过 plot_tree()
函数生成的决策树图像,可以直观地看到决策树如何基于不同的特征进行划分。
![](https://i-blog.csdnimg.cn/direct/867c429092734ad98e27214a55a5e937.png)
三、决策树的应用场景✨✨
3.1 信用评分
在金融领域,决策树被广泛应用于信用评分模型中。通过对客户的历史信用记录、收入、借款情况等特征的分析,决策树可以帮助银行或金融机构判断是否批准贷款申请。
3.2 医疗诊断
决策树还可以用于医疗领域的疾病预测与诊断。例如,通过对患者的症状、体征和检查结果的分析,决策树可以帮助医生诊断疾病,如是否患有糖尿病或心脏病。
3.3 市场营销
在市场营销中,决策树可以帮助企业进行客户细分,预测客户的购买行为或确定促销活动的效果。通过分析不同客户群体的特征,企业可以制定更精准的营销策略。
四、相关优秀论文与研究✨✨
4.1 Classification and Regression Trees
- 作者:Breiman, L., Friedman, J., Olshen, R., & Stone, C. (1986)
- 论文链接:CART - Springer
- 简介:这是经典的 CART(Classification and Regression Trees)算法的基础论文,详细介绍了决策树的构建方法、剪枝技术等核心概念。
4.2 C4.5: Programs for Machine Learning
- 作者:Quinlan, J. R. (1993)
- 论文链接:C4.5 - Morgan Kaufmann
- 简介:该书介绍了 C4.5 算法,它是决策树算法 ID3 的改进版,提出了信息增益比和剪枝的技术,是决策树领域的另一个重要里程碑。
4.3 A Survey of Decision Tree Classifier Methodology
- 作者:Boulila, W., & Tounsi, N. (2013)
- 论文链接:Survey on Decision Trees
- 简介:该论文对各种决策树分类方法进行了全面的综述,包括 C4.5、ID3、CART 等,并对决策树的优化技术进行了讨论。
五、结语✨✨
决策树是机器学习中非常强大的工具,适用于各种分类和回归任务。虽然它的结构直观,易于理解,但在实际应用中,如何处理过拟合、选择合适的特征等问题仍然是挑战。通过合理的剪枝和优化,决策树能够在众多实际问题中取得出色的表现。
本文不仅介绍了决策树的原理、实现和应用,还提供了实际代码示例,希望能够帮助你更深入地理解和应用这一经典的机器学习算法。在未来,决策树与其他集成学习方法(如随机森林、梯度提升树等)结合,将有望在各类复杂问题中提供更加强大的解决方案。
相关文章:
![](https://i-blog.csdnimg.cn/direct/867c429092734ad98e27214a55a5e937.png)
机器学习实战——决策树:从原理到应用的深度解析
✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ 决策树(Decision Tree)是一种简单而直观的分类与回归模型,在机器学习中广泛应用。它的…...
![](https://csdnimg.cn/release/blog_editor_html/release2.3.7/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=O83A)
开源生成式物理引擎Genesis,可模拟世界万物
这是生成大模型时代 —— 它们能生成文本、图像、音频、视频、3D 对象…… 而如果将所有这些组合到一起,我们可能会得到一个世界! 现在,不管是 LeCun 正在探索的世界模型,还是李飞飞想要攻克的空间智能,又或是其他研究…...
![](https://i-blog.csdnimg.cn/direct/addcb819e7bb4aeea4ce3c6317bd51c5.png)
kubernetes第七天
1.影响pod调度的因素 nodeName 节点名 resources 资源限制 hostNetwork 宿主机网络 污点 污点容忍 Pod亲和性 Pod反亲和性 节点亲和性 2.污点 通常是作用于worker节点上,其可以影响pod的调度 语法:key[value]:effect effect:[ɪˈfek…...
![](https://www.ngui.cc/images/no-images.jpg)
RK3588上CPU和GPU算力以及opencv resize的性能对比测试
RK3588上CPU和GPU算力以及opencv resize的性能对比测试 一.背景二.小结三.相关链接四.操作步骤1.环境搭建A.安装依赖B.设置GPU为高性能模式C.获取GPU信息D.获取CPU信息 2.调用OpenCL SDK获取GPU信息3.使用OpenCL API计算矩阵乘4.使用clpeak测试GPU的性能5.使用OpenBLAS测试CPU的…...
![](https://i-blog.csdnimg.cn/img_convert/bea2bc1461ba494b89af4f62623120e9.png)
基于Centos 7系统的安全加固方案
创作不易,麻烦点个免费的赞和关注吧! 声明! 免责声明:本教程作者及相关参与人员对于任何直接或间接使用本教程内容而导致的任何形式的损失或损害,包括但不限于数据丢失、系统损坏、个人隐私泄露或经济损失等…...
![](https://www.ngui.cc/images/no-images.jpg)
IT行业的发展趋势
一、引言 IT(信息技术)行业自诞生以来,就以惊人的速度发展,不断改变着我们的生活、工作和社会结构。如今,随着技术的持续创新、市场需求的演变以及全球经济格局的变化,IT行业正迈向新的发展阶段࿰…...
![](https://www.ngui.cc/images/no-images.jpg)
《探秘开源多模态神经网络模型:AI 新时代的万能钥匙》
《探秘开源多模态神经网络模型:AI 新时代的万能钥匙》 一、多模态模型的崛起之路(一)从单一到多元:模态的融合演进(二)关键技术突破:解锁多模态潜能 二、开源多模态模型深度剖析(一&…...
![](https://i-blog.csdnimg.cn/img_convert/42514445b57b281e15c9f2244a173419.png)
ROS核心概念解析:从Node到Master,再到roslaunch的全面指南
Node 在ROS中,最小的进程单元就是节点(node)。一个软件包里可以有多个可执行文件,可执行文件在运行之后就成了一个进程(process),这个进程在ROS中就叫做节点。 从程序角度来说,node就是一个可执行文件&…...
![](https://i-blog.csdnimg.cn/img_convert/4b63b57f1bff4549e531b219b2d54ab9.jpeg)
2025广州国际汽车内外饰技术展览会:引领汽车内外饰发展新潮流-Automotive Interiors
随着科技的不断进步和消费者对汽车品质的要求日益提高,汽车内外饰的设计和制造也在不断创新和发展。AUTO TECH China 2025广州国际汽车内外饰技术展览会作为行业内的重要盛会,将于2025年11月20日至22日在广州保利世贸博览馆盛大举办。本次展览会将汇集全…...
![](https://i-blog.csdnimg.cn/direct/30b66128d07846feba3d402e55a891ef.png)
ElasticSearch内存占用率过高怎么办?
文章目录 1,先用top看看各个进程的内存占用情况2,不能简单的杀死进程,然后再重启。3,查看一下ElasticSearch进程的具体启动情况4,修改Elasticsearch 的Java堆内存 1,先用top看看各个进程的内存占用情况 先…...
![](https://www.ngui.cc/images/no-images.jpg)
基于Qt的OFD阅读器开发原理与实践
摘要 本文详细探讨了基于Qt开发OFD阅读器的原理与实践。通过解析OFD文件格式、构建文档结构、实现页面渲染、处理用户交互以及进行性能优化,本文展示了如何使用Qt框架开发一个功能强大、性能优异的OFD阅读器。文章还提供了示例代码和未来发展方向,为开发…...
![](https://www.ngui.cc/images/no-images.jpg)
用 HTML5 Canvas 和 JavaScript 实现流星雨特效
最近在研究前端动画效果时,实现了一个超酷的流星雨特效,今天来和大家分享下具体实现过程。 1,整体实现思路 这个流星雨特效主要由 HTML、CSS 和 JavaScript 协同完成。HTML 搭建基础结构,CSS 负责页面样式设计,JavaScript 实现星星和流星的动态效果。 效果展示: 用 HTM…...
![](https://www.ngui.cc/images/no-images.jpg)
Apifox=Postman+Swagger+Jmeter+Mock
A. 开发人员接口管理使用(Swagger 工具管理接口) B. 后端开发人员通过Postman 工具,一边开发一边测试 C. 前端开发人员需要Mock 工具提供前端调用 D. 测试人员通过(Postman、Jmeter)等工具进行接口测试 为了后台开发、前端开发、测试工程师等不同角色更加便捷管理…...
![](https://www.ngui.cc/images/no-images.jpg)
SpringBoot多数据源架构实现
文章目录 1. 环境准备2. 创建Spring Boot项目3. 添加依赖4. 配置多数据源5. 配置MyBatis-Plus6. 使用多数据源7. 创建Mapper接口8. 实体类定义9. 测试多数据源10. 注意事项10.1 事务导致多数据源失效问题解决方案: 10.2 ClickHouse的事务支持10.3 数据源切换的性能开…...
![](https://www.ngui.cc/images/no-images.jpg)
HarmonyOS开发:传参方式
一、父子组件传参 1、父传子(Prop方式) 父组件代码 Entry Component struct ParentComponent {State parentMessage: string Hello from Parent;build() {Column() {ChildComponent({ message: this.parentMessage });}} } 子组件代码 Component s…...
![](https://i-blog.csdnimg.cn/direct/79e2841b7b104dc1a00cd69d0231469b.png)
OpenCV计算机视觉 07 图像的模块匹配
在做目标检测、图像识别时,我们经常用到模板匹配,以确定模板在输入图像中的可能位置 API函数 cv2.matchTemplate(image, templ, method, resultNone, maskNone) 参数含义: image:待搜索图像 templ:模板图像 method&…...
![](https://i-blog.csdnimg.cn/img_convert/8b21c9ec79fb2590cf688e221a45ce8a.png)
国产游戏崛起,燕云十六移动端1.9上线,ToDesk云电脑先开玩
游戏爱好者的利好消息出新了!网易大型武侠仙游《燕云十六声》正式官宣,移动端要在1月9日正式上线了!你期待手游版的燕云吗?不妨评论区留言说说你的看法。小编分别花了几个小时在台式机电脑和手机上都试了下,欣赏画面还…...
![](https://i-blog.csdnimg.cn/img_convert/5891aba85edd0921675ba6c1da8abec0.png)
企业级PHP异步RabbitMQ协程版客户端 2.0 正式发布
概述 workerman/rabbitmq 是一个异步RabbitMQ客户端,使用AMQP协议。 RabbitMQ是一个基于AMQP(高级消息队列协议)实现的开源消息组件,它主要用于在分布式系统中存储和转发消息。RabbitMQ由高性能、高可用以及高扩展性出名的Erlan…...
![](https://i-blog.csdnimg.cn/direct/c9954aebbbd54b2cb7efebd0b5821f2a.png)
[OPEN SQL] 限定选择行数
本次操作使用的数据库表为SCUSTOM,其字段内容如下所示 航班用户(SCUSTOM) 该数据库表中的部分值如下所示 指定查询多少行数据,我们可以使用语法UP TO n ROWS来实现对数据前n项的查询 语法格式 SELECT * FROM <dbtab> UP TO n ROWS 参数说明 db…...
![](https://i-blog.csdnimg.cn/direct/da08fb3de29d410f97644fddb8ea0c45.png)
Vite源码学习分享(一)
!](https://i-blog.csdnimg.cn/direct/971c35b61c57402b95be91d2b4965d85.png) 同一个项目 vite VS webpack启动速度对比...
![](https://i-blog.csdnimg.cn/direct/87323462f8bb4356a0d5e3cd648b129c.png)
定位,用最通俗易懂的方法2:TDOA与对应的CRLB
二郎就不设置什么VIP可见啥的了,这样大家都能看到。 如果觉得受益,可以给予一些打赏,也算对原创的一些鼓励,谢谢。 钱的用途:1)布施给他人;2)二郎会有更多空闲时间写教程 起因&…...
![](https://i-blog.csdnimg.cn/direct/c1661bfc4e8747028a3d9052fad61bb5.png)
Linux第一课:c语言 学习记录day06
四、数组 冒泡排序 两两比较,第 j 个和 j1 个比较 int a[5] {5, 4, 3, 2, 1}; 第一轮:i 0 n:n个数,比较 n-1-i 次 4 5 3 2 1 // 第一次比较 j 0 4 3 5 2 1 // 第二次比较 j 1 4 3 2 5 1 // 第三次比较 j 2 4 3 2 1 5 // …...
![](https://i-blog.csdnimg.cn/img_convert/5cd21fc9b443868c6c912a43b14e0939.png)
ExplaineR:集成K-means聚类算法的SHAP可解释性分析 | 可视化混淆矩阵、决策曲线、模型评估与各类SHAP图
集成K-means聚类算法的SHAP可解释性分析 加载数据集并训练机器学习模型 SHAP 分析以提取特征对预测的影响 通过混淆矩阵可视化模型性能 决策曲线分析 模型评估(多指标和ROC曲线的目视检查) 带注释阈值的 ROC 曲线 加载 SHAP 结果以进行下游分析 与…...
![](https://www.ngui.cc/images/no-images.jpg)
2025年第三届“华数杯”国际大学生数学建模竞赛A题题目
问题A:他能游得更快吗? 背景介绍 在2024年巴黎奥运会上,中国游泳运动员潘展乐凭借出色的表现成为全球瞩目的焦点。年仅19岁的他在男子100米自由泳比赛中以46秒40 的成绩夺冠,并创造了自己保持的世界纪录。在男子4100米混合泳接力…...
![](https://www.ngui.cc/images/no-images.jpg)
用c实现C++类(八股)
在 C 语言中,虽然没有内建的面向对象编程(OOP)特性(如封装、继承、多态),但通过一些编程技巧,我们仍然可以模拟实现这些概念。下面将用通俗易懂的方式,逐步介绍如何在 C 中实现封装、…...
![](https://www.ngui.cc/images/no-images.jpg)
【C++多线程编程:六种锁】
目录 普通互斥锁: 轻量级锁 独占锁: std::lock_guard: std::unique_lock: 共享锁: 超时的互斥锁 递归锁 普通互斥锁: std::mutex确保任意时刻只有一个线程可以访问共享资源,在多线程中常用于保…...
![](https://i-blog.csdnimg.cn/direct/3211d584df7c4e529006fcf3d61280db.png)
【Javascript Day5】for循环及典型案例
for 循环 // 语法: for( 开始 ; 结束 ; 步长 ){ 循环体 } // for( var i 循环初始值 ; i的循环范围 ; i的增加或减少规则 ){ 循环体 } // 死循环 // for(;;){ // console.log("for循环"); // } // 循环打…...
![](https://i-blog.csdnimg.cn/direct/cfc85783a19d48b4a3f40720d0e0fee7.png)
#渗透测试#网络安全#一文了解什么是shell反弹!!!
免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停…...
![](https://i-blog.csdnimg.cn/direct/4445758e2ef14793bfce52953ccc1c0c.png)
《解锁图像的语言密码:Image Caption 开源神经网络项目全解析》
《解锁图像的语言密码:Image Caption 开源项目全解析》 一、开篇:AI 看图说话时代来临二、走进 Image Caption 开源世界三、核心技术拆解:AI 如何学会看图说话(一)深度学习双雄:CNN 与 RNN(二&a…...
![](https://i-blog.csdnimg.cn/direct/743ffbae896545d3b4b7a82e78842e51.jpeg)
抢占欧洲电商高地,TikTok 运营专线成 “秘密武器”
在当今数字化浪潮席卷全球的时代,社交媒体平台已成为商业拓展的关键阵地,TikTok 更是其中的闪耀新星。近日,一则重磅消息引发行业关注:TikTok 正计划于 2025 年初进军荷兰电商市场。这一战略布局,不仅彰显了 TikTok 对…...
![](https://img2018.cnblogs.com/blog/1507862/201908/1507862-20190821194248398-459089549.gif)
西安营销型网站建设/免费入驻的卖货平台
在现实生活中,有些集合对象中存在多种不同的元素,且每种元素也存在多种不同的访问者和处理方式。例如,公园中存在多个景点,也存在多个游客,不同的游客对同一个景点的评价可能不同;医院医生开的处方单中包含…...
![](/images/no-images.jpg)
网站建设的软件有哪些/免费刷粉网站推广免费
伯克利人工智能实验室博客:http://bair.berkeley.edu/blog/ 下雨天: 有些人能听见下雨的声音,有些事只是在奔跑中淋湿! We are all in the gutter, but some of us are looking at the stars.Oscar Wilde我们都生活在阴沟里&#…...
![](https://img-blog.csdnimg.cn/20210222144654367.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3lpd29rZWppNjY2,size_16,color_FFFFFF,t_70#pic_center)
东莞虎门邮编/seo广州工作好吗
最近有小伙伴问到小编,说他电脑上专门用来存放办公资料的分区已经满了,有没有什么办法可以将其他分区的容量分配一点到该分区呢?这位朋友还强调了一下,他的资料很重要,有没有什么稳妥的方式,可以在不损坏分…...
![](/images/no-images.jpg)
洛米wordpress主题/网站开发软件有哪些
HDFS sink里有个属性hdfs.rollInterval86400,这个属性你设置了24小时滚动一次,它的确就到了24小时才滚动,但是我们的需求往往是到了0点就滚动文件了,因为离线的job因为都会放在夜里执行。 如果flume是早上9点启动的,那…...
![](/images/no-images.jpg)
可上传多个视频的网站建设/怎么找专业的营销团队
1、Struts2是类级别的拦截, 一个类对应一个request上下文,SpringMVC是方法级别的拦截,一个方法对应一个request上下文,而方法同时又跟一个url对应,所以说从架构本身上SpringMVC就容易实现restful url,而struts2的架构实现起来要费…...
广州建设网站是什么/爱站网长尾关键词挖掘
有的人能力不如你,人生阅历不如你,技巧不如你,亲和力不如你,形象不如你,但成绩比你好、收入比你高!是什么限制了你的能力和成就?1、否定性思想比如:不可能、没办法、怎么会ÿ…...