当前位置：首页 > news >正文

【机器学习】机器学习的基本分类-监督学习-决策树-ID3 算法

news 2026/2/8 1:56:36

ID3（Iterative Dichotomiser 3）是决策树的一种构造算法，由 Ross Quinlan 在 1986 年提出。它主要用于分类问题，通过信息增益选择特征来构建决策树。ID3 假设数据是离散型特征，且不支持连续型数据。

1. 核心思想

划分标准：
- 使用 信息增益（Information Gain）作为特征选择的标准。
- 选择信息增益最大的特征进行分裂。
递归构造：
- 从根节点开始，每次根据信息增益选择特征，生成子节点。
- 对每个子节点重复这一过程，直到满足停止条件（例如数据不可再分，或者所有样本类别相同）。

2. 信息增益

信息增益基于**信息熵（Entropy）**的概念：

信息熵的定义

信息熵衡量数据集的不确定性：

$H(D) = - \sum_{i=1}^C p_i \log_2(p_i)$

D：数据集。
C：类别数。
$p_i$ ：数据集中属于第 i 类的概率。

条件熵

划分数据集 D 后的条件熵为：

$H(D|A) = \sum_{v \in \text{Values}(A)} \frac{|D_v|}{|D|} H(D_v)$

A：划分特征。
$D_v$ ：特征 A 的值为 v 时的子数据集。
$|D_v|/|D|$ ：数据划分到 v 类的比例。

信息增益公式

信息增益是划分前后信息熵的减少：

$IG(D, A) = H(D) - H(D|A)$

H(D)：划分前的熵。
H(D|A)：划分后的条件熵。
特征 A 的信息增益越大，说明使用 A 划分后数据集的不确定性降低越多，划分效果越好。

3. ID3 算法步骤

输入：
- 数据集 D（包含样本和对应的类别标签）。
- 特征集 A。
步骤：
1. 计算当前数据集的熵 H(D)。
2. 对于每个特征 A ∈ A：
  - 计算特征 A 的信息增益 IG(D, A)。
3. 选择信息增益最大的特征 $A^*$ ，作为当前节点的分裂特征。
4. 根据特征的每个取值 v，划分数据集：
  - 如果子数据集 $D_v$ 为空，设置叶节点为多数类别。
  - 如果子数据集 $D_v$ 非空，递归构造子树。
5. 当满足停止条件时，停止分裂。
输出：
- 决策树。

4. 算法特点

优点

简单易实现：基于熵和信息增益的数学原理，计算相对直观。
解释性强：生成的决策树规则可以直接解释分类依据。

缺点

对连续特征无直接支持：需要离散化连续特征。
易过拟合：树可能过于复杂，适应训练数据的噪声。
偏好多值特征：特征的可能取值越多，信息增益往往越高，可能导致模型偏向这些特征。

5. 示例

数据示例

假设有以下样本数据：

天气	温度	湿度	风力	是否运动
晴天	高	高	弱	否
晴天	高	高	强	否
阴天	高	高	弱	是
雨天	中	高	弱	是
雨天	低	正常	弱	是

目标：构造决策树判断是否运动。

计算步骤

计算根节点的熵 H(D) 数据集中是否运动的比例为：
- P(是) = 3/5, P(否) = 2/5。
  熵为：
计算每个特征的条件熵 H(D|A) 和信息增益
- 天气（Weather）：
  - $H(D|\text{Sunny}) = -1 \log_2(1) = 0$ 。
  - 对所有天气取值加权计算条件熵，得到 $H(D|\text{Weather})$ 。
  - 信息增益 $IG(D, \text{Weather}) = H(D) - H(D|\text{Weather})$ 。
- 温度（Temperature）：
  - 类似方法计算温度的条件熵和信息增益。
- 湿度、风力：
  - 按相同方法计算。
选择信息增益最大的特征：
- 设 $A^* = \text{Weather}$ ，构造根节点。
递归分裂子数据集：
- 对子数据集重复计算，直到满足停止条件。

6. 代码实现

Python 示例

from math import log2# 计算熵
def entropy(labels):total = len(labels)counts = {}for label in labels:counts[label] = counts.get(label, 0) + 1return -sum((count / total) * log2(count / total) for count in counts.values())# 计算信息增益
def information_gain(data, labels, feature_index):total_entropy = entropy(labels)feature_values = [row[feature_index] for row in data]unique_values = set(feature_values)conditional_entropy = 0for value in unique_values:subset = [labels[i] for i in range(len(data)) if data[i][feature_index] == value]conditional_entropy += (len(subset) / len(data)) * entropy(subset)return total_entropy - conditional_entropy# 示例数据
data = [["晴天", "高", "高", "弱"],["晴天", "高", "高", "强"],["阴天", "高", "高", "弱"],["雨天", "中", "高", "弱"],["雨天", "低", "正常", "弱"]
]
labels = ["否", "否", "是", "是", "是"]# 特征索引（天气、温度、湿度、风力）
for i in range(4):print(f"Feature {i}, Information Gain: {information_gain(data, labels, i):.4f}")

输出结果

Feature 0, Information Gain: 0.9710
Feature 1, Information Gain: 0.4200
Feature 2, Information Gain: 0.1710
Feature 3, Information Gain: 0.3219

7. 扩展

C4.5 算法：
- 使用信息增益比替代信息增益，解决偏好多值特征问题。
- 支持连续型特征。
CART 算法：
- 支持分类与回归，使用基尼指数或均方误差。

ID3 是决策树的早期版本，适用于简单的分类问题，但由于其限制（如无法处理连续型特征、易过拟合），后续算法（如 C4.5 和 CART）进一步改进了 ID3。

【机器学习】机器学习的基本分类-监督学习-决策树-ID3 算法

ID3（Iterative Dichotomiser 3）是决策树的一种构造算法，由 Ross Quinlan 在 1986 年提出。它主要用于分类问题，通过信息增益选择特征来构建决策树。ID3 假设数据是离散型特征，且不支持连续型数据。 1. 核心思想划分标…...

编程日记 2024/12/7 12:00:18

Implicit style-content separation using lora

1.Introduction 图像风格化，这个任务涉及根据某些风格参考改编图像的风格，这些参考可以是基于文本或基于图像的，同时保持其内容不变，内容指的是图像的语义信息和结构，而风格通常指的是视觉特征和模式，例如颜色和纹理。这是一个有挑战的任务，因为风格和内容之间的强关联…...

编程日记 2024/12/7 11:59:17

ROS[aruco_ros+easy_handeye]手眼标定(眼在手外+UR10e+realsense-d435i)

参考链接： https://zhuanlan.zhihu.com/p/576861119 https://blog.csdn.net/qq_32618327/article/details/120730198 本次在Docker中使用打印Aruco码：https://chev.me/arucogen/ 选择Dictionary为 Original ArUco(aruco_ros默认这个，如果…...

编程日记 2024/12/7 11:58:14

第九篇：k8s 通过helm发布应用

什么是helm？ Helm 是 Kubernetes 的包管理器。Helm 是查找、分享和使用软件构建 Kubernetes 的最优方式。在红帽系的Linux中我们使用yum来管理RPM包，类似的，在K8s中我们可以使用helm来管理资源对象（Deployment、Service、Ingress…...

编程日记 2024/12/7 11:57:13

dataTable

在 C# 中，DataTable 是 .NET Framework 中用于处理数据表格的一个类，属于 System.Data 命名空间。它是一种内存中表示数据表的结构，通常用于临时存储和操作数据，类似于数据库中的表。DataTable 的主要特点是行列结构，其…...

编程日记 2024/12/7 11:56:12

json+Tomact项目报错怎么办？

在响应请求的时候，如果http响应没有指定响应数据的content-type，浏览器就不知道按照什么格式解析响应体的数据，因为浏览器只知道怎样解析http的行和头，再从头里获取响应体的字节长度和类型，按照你给的长度去截流&#…...

编程日记 2024/12/7 11:55:11

Flume——sink连接Hive的参数配置（属性参数）

目录配置文件官网属性参数例子配置文件官网可以参考官网的说明属性参数属性名默认值说明type无（必须指定）组件类型名称，必须是"hive"hive.metastore无（必须指定）元数据仓库地址，例如&…...

编程日记 2024/12/7 11:53:09

Netty面试内容整理-Netty 的应用场景

Netty 是一个高性能、异步的事件驱动网络框架，广泛应用于各种需要高并发、高吞吐量的网络通信场景。以下是 Netty 的常见应用场景： RPC 框架 ● 应用描述： ○ 远程过程调用（RPC）框架用于跨网络调用远程服务，就像调用本地方法一样。 ○...

编程日记 2024/12/7 11:52:07

波特图方法

在电路设计中，波特图为最常用的稳定性余量判断方法，波特图的根源是如何来的，却鲜有人知。本章节串联了奈奎斯特和波特图的渊源，给出了其对应关系和波特图相应的稳定性余量。理论贯通，不在于精确绘…...

编程日记 2024/12/7 11:48:02

服务器数据恢复—硬盘掉线导致热备盘同步失败的RAID5阵列数据恢复案例

服务器存储数据恢复环境： 华为S5300存储中有12块FC硬盘，其中11块硬盘作为数据盘组建了一组RAID5阵列，剩下的1块硬盘作为热备盘使用。基于RAID的LUN分配给linux操作系统使用，存放的数据主要是Oracle数据库。服务器存储故障&#…...

编程日记 2024/12/7 11:47:01

在Ubuntu中运行和管理AppImage

文章目录什么是AppImage？如何在Ubuntu中运行AppImage？如何管理AppImage？安装AppImageLauncher如何添加AppImage到系统？如何从系统中移除AppImage？ 总结什么是AppImage？ AppImage是一种将应用程序打包为单…...

编程日记 2024/12/7 11:45:59

如何查看电脑的屏幕刷新率？

1、按一下键盘的 win i 键，打开如下界面，选择【系统】： 2、选择【屏幕】-【高级显示设置】如下位置，显示屏幕的刷新率：60Hz 如果可以更改，则选择更高的刷新率，有助于电脑使用起来界面更加流…...

编程日记 2024/12/7 11:42:56

浏览器数据存储方法深度剖析：LocalStorage、IndexedDB、Cookies、OPFS 与 WASM - SQLite

在当今的 Web 开发领域，选择合适的浏览器数据存储方法对于构建高效、功能丰富的应用程序至关重要。随着 Web 应用的不断演进，从早期的静态 HTML 页面到如今复杂的单页应用和本地优先应用，数据存储需求也日益多样化。本文将深入探讨 LocalStor…...

编程日记 2024/12/7 11:41:55

面向金融场景的大模型 RAG 检索增强解决方案

概述在现代信息检索领域，检索增强生成（Retrieval-Augmented Generation, RAG）模型结合了信息检索与生成式人工智能的优点，从而在特定场景下提供更为精准和相关的答案。在特定场景下，例如金融等领域，用户通…...

编程日记 2024/12/7 11:40:53

经典蓝牙（BT/EDR）蓝牙配对与连接

经典蓝牙的连接过程包括跳频，扫描，配置交换等过程。对ACL链路以及sco的连接过程也做详细的分析。 1. 为什么不配对便无法建立连接？ 任何无线通信技术都存在被监听和破解的可能，蓝牙SIG为了保证蓝牙通信的安全性，采用…...

编程日记 2024/12/7 11:38:51

Flask: flask框架是如何实现非阻塞并发的

写在前面：Flask框架是通过多线程/多进程+阻塞的socket实现非阻塞，其本质是基于python的源库socketserver实现的前言认识WSGI协议认识Werkzeug flask是如何实现非阻塞的本文使用的flask框架为最新的1.1.1版本，所有代码基于python3运行一：前言使用过flask或者其他web框…...

编程日记 2024/12/7 11:36:49

JAVA ｜日常开发中连接Oracle数据库详解

JAVA ｜日常开发中连接Oracle数据库详解前言一、Oracle 数据库概述1.1 定义与特点1.2 适用场景二、Java 连接 Oracle 数据库的准备工作2.1 添加 Oracle JDBC 驱动依赖2.2 了解连接信息三、建立数据库连接3.1 代码示例（使用服务名）3.2 步骤解…...

编程日记 2024/12/7 11:35:47

头歌进程管理之二（wait、exec、system的使用）

第1关：进程等待任务描述通过上一个实训的学习，我们学会了使用fork创建子进程，在使用fork创建子进程的时候，子进程和父进程的执行顺序是无法预知的。本关我们将介绍如何使得fork创建出来的子进程先执行，随后父进程再…...

编程日记 2024/12/7 11:34:46

详解日志格式配置：XML 与 Spring Boot 配置文件格式

详解日志格式配置：XML 与 Spring Boot 配置文件格式日志是现代应用程序中不可或缺的一部分，通过定制化日志格式和颜色，开发人员可以更方便地调试和监控应用。本文将深入讲解如何在 XML 配置文件和 Spring Boot 配置文件中设置日志格式&am…...

编程日记 2024/12/7 11:29:41

JDK21新特性

目录虚拟线程（JEP 444）： 顺序集合（JEP 431）： 字符串模板（JEP 430）： 模式匹配的增强（JEP 440、441以及443）： 结构化并发和作用域值…...

编程日记 2024/12/7 11:26:38

基于Uniapp开发HarmonyOS 5.0旅游应用技术实践

一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架，支持"一次开发，多端部署"，可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务，为旅游应用带来&#xf…...

编程新知 2026/2/5 20:33:43

对WWDC 2025 Keynote 内容的预测

借助我们以往对苹果公司发展路径的深入研究经验，以及大语言模型的分析能力，我们系统梳理了多年来苹果 WWDC 主题演讲的规律。在 WWDC 2025 即将揭幕之际，我们让 ChatGPT 对今年的 Keynote 内容进行了一个初步预测，聊作存档。等到明…...

编程新知 2026/2/6 23:56:39

Psychopy音频的使用

Psychopy音频的使用本文主要解决以下问题： 指定音频引擎与设备；播放音频文件本文所使用的环境： Python3.10 numpy2.2.6 psychopy2025.1.1 psychtoolbox3.0.19.14 一、音频配置 Psychopy文档链接为Sound - for audio playback — Psy…...

编程新知 2026/1/31 15:09:31

06 Deep learning神经网络编程基础激活函数 --吴恩达

深度学习激活函数详解一、核心作用引入非线性：使神经网络可学习复杂模式控制输出范围：如Sigmoid将输出限制在(0,1)梯度传递：影响反向传播的稳定性二、常见类型及数学表达 Sigmoid σ ( x ) = 1 1 +...

编程新知 2025/11/17 21:48:26

动态 Web 开发技术入门篇

一、HTTP 协议核心 1.1 HTTP 基础协议全称 ：HyperText Transfer Protocol（超文本传输协议） 默认端口 ：HTTP 使用 80 端口，HTTPS 使用 443 端口。请求方法 ： GET ：用于获取资源，…...

编程新知 2025/10/3 0:42:17

MySQL 8.0 事务全面讲解

以下是一个结合两次回答的 MySQL 8.0 事务全面讲解，涵盖了事务的核心概念、操作示例、失败回滚、隔离级别、事务性 DDL 和 XA 事务等内容，并修正了查看隔离级别的命令。 MySQL 8.0 事务全面讲解一、事务的核心概念（ACID） 事务是…...

编程新知 2025/9/19 22:12:36

FFmpeg：Windows系统小白安装及其使用

一、安装 1.访问官网 Download FFmpeg 2.点击版本目录 3.选择版本点击安装注意这里选择的是【release buids】，注意左上角标题例如我安装在目录 F:\FFmpeg 4.解压 5.添加环境变量把你解压后的bin目录（即exe所在文件夹）加入系统变量…...

编程新知 2026/1/31 14:34:46

深入理解Optional：处理空指针异常

1. 使用Optional处理可能为空的集合在Java开发中，集合判空是一个常见但容易出错的场景。传统方式虽然可行，但存在一些潜在问题： // 传统判空方式 if (!CollectionUtils.isEmpty(userInfoList)) {for (UserInfo userInfo : userInfoList) {…...

编程新知 2025/12/19 19:15:39

CVPR2025重磅突破：AnomalyAny框架实现单样本生成逼真异常数据，破解视觉检测瓶颈！

本文介绍了一种名为AnomalyAny的创新框架，该方法利用Stable Diffusion的强大生成能力，仅需单个正常样本和文本描述，即可生成逼真且多样化的异常样本，有效解决了视觉异常检测中异常样本稀缺的难题，为工业质检、医疗影像…...

编程新知 2026/2/5 4:18:48

git: early EOF

macOS报错： Initialized empty Git repository in /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core/.git/ remote: Enumerating objects: 2691797, done. remote: Counting objects: 100% (1760/1760), done. remote: Compressing objects: 100% (636/636…...

编程新知 2025/10/12 2:03:36