当前位置：首页 > news >正文

【机器学习】机器学习的基本分类-监督学习（Supervised Learning）

news 2025/7/11 16:11:56

监督学习是一种通过已有的输入数据（特征）和目标输出（标签）对模型进行训练的机器学习方法，旨在学到一个函数，将输入映射到正确的输出。

1. 监督学习概述

监督学习需要：

输入数据（特征）：X，如图片、文本、数值等。
输出标签：y，即目标值，如图片的分类标签、房价等。
目标：通过训练模型，使其能够预测新数据的标签。

公式表示：
从训练数据 (X, y) 中学到一个函数 f(x)，使得对于新输入 x'，预测值 f(x') 与真实值 y' 尽可能接近。

2. 常见任务类型

分类任务

目标：预测离散类别标签。

示例：垃圾邮件检测（垃圾邮件/非垃圾邮件）、图片分类（猫/狗/鸟）。
常见评价指标：准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 分数等。

回归任务

目标：预测连续值。

示例：房价预测、气温预测。
常见评价指标：均方误差（MSE）、平均绝对误差（MAE）、决定系数（R²）等。

3. 数据准备与预处理

3.1 数据收集

数据来源：数据库、日志文件、公开数据集（如 Kaggle）。
注意：确保数据多样性和质量。

3.2 数据清洗

处理缺失值：均值填充、中位数填充或删除缺失数据。
处理异常值：通过箱线图、标准差等方法检测并处理。

3.3 特征工程

标准化/归一化：对数值型特征进行标准化，使其均值为 0，标准差为 1。
编码：对类别型特征用独热编码（One-Hot Encoding）或标签编码（Label Encoding）。
特征选择：删除低相关性或多余的特征，提高模型性能。

3.4 数据划分

划分为训练集、验证集和测试集（例如 60%/20%/20%）。

4. 模型训练与评估

4.1 模型选择

根据任务选择合适的算法，如：

分类：逻辑回归、支持向量机（SVM）、决策树、随机森林等。
回归：线性回归、岭回归、Lasso 回归、梯度提升树（GBDT）等。

4.2 训练模型

通过优化损失函数（如均方误差、交叉熵）调整模型参数。

4.3 模型评估

在验证集上评估性能，通过超参数调优（如学习率、正则化强度）优化模型。
避免过拟合：使用正则化（L1/L2）、Dropout 或限制树深度等手段。

5. 常见算法及实现

以下是分类与回归常用算法的 Python 实现：

5.1 分类算法

逻辑回归（Logistic Regression）

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

支持向量机（SVM）

from sklearn.svm import SVC
model = SVC(kernel='linear')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

5.2 回归算法

线性回归

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

梯度提升树（GBDT）

from sklearn.ensemble import GradientBoostingRegressor
model = GradientBoostingRegressor()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

6. 案例分析

案例 1：分类问题（垃圾邮件检测）

数据：下载带有邮件内容及是否垃圾的标注数据集。
特征提取：对文本数据进行向量化（如 TF-IDF）。
模型训练：使用逻辑回归模型。
评估：计算准确率、F1 分数。

案例 2：回归问题（房价预测）

数据：房屋面积、卧室数量、地理位置等特征。
预处理：标准化数值型特征，编码类别型特征。
模型训练：使用随机森林回归模型。
评估：计算 MSE 和 R²。

7. 监督学习的挑战与改进

过拟合与欠拟合
- 解决过拟合：增加数据量、使用正则化、减少模型复杂度。
- 解决欠拟合：增加特征、使用更复杂模型。
数据不平衡
- 分类问题中类别分布不均。
- 解决方法：采样技术（过采样/下采样）、使用 F1 分数评估。
噪声数据与异常值
- 影响模型性能。
- 解决方法：清洗数据、使用稳健算法。
模型解释性
- 如深度学习模型不易解释。
- 解决方法：使用可解释性工具（如 SHAP、LIME）。

8. 工具与框架

数据预处理：pandas, numpy
机器学习：scikit-learn, xgboost, lightgbm
可视化：matplotlib, seaborn

通过动手实践小项目（如图片分类或简单预测任务），可以快速理解和掌握监督学习的基本原理和应用技巧！如果有具体需求，我可以进一步提供代码和案例指导。

【机器学习】机器学习的基本分类-监督学习（Supervised Learning）

监督学习是一种通过已有的输入数据（特征）和目标输出（标签）对模型进行训练的机器学习方法，旨在学到一个函数，将输入映射到正确的输出。 1. 监督学习概述监督学习需要： 输入数据（特…...

编程日记 2024/11/28 10:19:04

Oracle之提高PLSQL的执行性能

目录 1、SQL解析详解 2、演示示例 3、启用Oracle跟踪事件 4、查看改造后SQL性能对比结果更多技术干货，关注个人博客吧 1、SQL解析详解 SQL解析是数据块处理SQL语句不可缺少的步骤，是在解析器中执行的。将SQL转换成数据库可以执行的低级指令。 SQL解析分为硬解析和软…...

编程日记 2024/11/28 10:18:02

[VSCode] vscode下载安装及安装中文插件详解（附下载文件）

前言 vscode 链接：https://pan.quark.cn/s/3acbb8aed758 提取码：dSyt VSCode 是一款由微软开发且跨平台的免费源代码编辑器；该软件支持语法高亮、代码自动补全、代码重构、查看定义功能，并且内置了命令行工具和Git版本控制系统。 …...

编程日记 2024/11/28 10:15:59

PHP中类名加双冒号的作用

在 PHP 中，类名加双冒号（::） 是一种用于访问类的静态成员和常量的语法。它也可以用来调用类的静态方法和访问 PHP 的类相关关键词（如 parent、self 和 static）。以下是详细的解释和用法。 1. 用途概述 :: 被称为作用域…...

编程日记 2024/11/28 10:12:56

前端编程训练异步编程篇请求接口 vue与react中的异步

文章目录前言代码执行顺序的几个关键点接口请求vue与react中的异步vue中的异步react的state修改异步前言本文是B站三十的前端课的笔记前端编程训练,异步编程篇代码执行顺序的几个关键点我们可以理解为代码就是一行一行，一句一句是执行（定义变量&…...

编程日记 2024/11/28 10:11:55

【kafka03】消息队列与微服务之Kafka 读写数据

Kafka 读写数据参考文档 Apache Kafka 常见命令 kafka-topics.sh #消息的管理命令 kafka-console-producer.sh #生产者的模拟命令 kafka-console-consumer.sh #消费者的模拟命令创建 Topic 创建topic名为 chen，partitions(分区)为3&#xff0…...

编程日记 2024/11/28 10:09:51

【分布式系统】唯一性ID的实现

1、UUID（通用唯一标识符） 1、UUID本身一种用于标识信息的标准化方法。一个128位的数字，常表示为32个十六进制数字，以连字符分隔成五组：8-4-4-4-12。版本： UUID有不同的版本，最常见的是基于时…...

编程日记 2024/11/28 10:08:50

哪里能找到好用的动物视频素材优质网站推荐

想让你的短视频增添些活泼生动的动物元素？无论是搞笑的宠物瞬间，还是野外猛兽的雄姿，这些素材都能让视频更具吸引力。今天就为大家推荐几个超实用的动物视频素材网站，不论你是短视频新手还是老手，都能在这些网站找到心…...

编程日记 2024/11/28 10:06:48

SRAM芯片数据采集解决方案

SRAM芯片数据采集解决方案致力于提供一种高效、稳定且易于操作的方法，以确保从静态随机存取存储器SRAM芯片中准确无误地获取数据。这种解决方案通常包括硬件接口和软件工具，它们协同工作，以实现对SRAM芯片的无缝访问和数据传输。在硬件方…...

编程日记 2024/11/28 10:05:47

【贪心算法第七弹——674.最长连续递增序列(easy)】

目录 1.题目解析题目来源测试用例 2.算法原理 3.实战代码代码分析 1.题目解析题目来源 674.最长递增子序列——力扣测试用例 2.算法原理贪心思路 3.实战代码 class Solution { public:int findLengthOfLCIS(vector<int>& nums) {int n nums.size();in…...

编程日记 2024/11/28 10:04:46

[AI] 知之AI推出3D智能宠物：助力语言学习与口语提升的新选择

Hello! 知之AI官网 [AI] 知之AI推出3D智能宠物：助力语言学习与口语提升的新选择随着人工智能技术的飞速发展，虚拟助手和智能设备不断进入我们的生活。近日，知之AI重磅推出了一款创新产品——3D智能宠物。这一产品不仅具备多国语言交流能力&…...

编程日记 2024/11/28 10:03:45

Android 14之HIDL转AIDL通信

Android 14之HIDL转AIDL通信 1、interface接口1.1 接口变更1.2 生成hidl2aidl工具1.3 执行hidl2aidl指令1.4 修改aidl的Android.bp文件1.5 创建路径1.6 拷贝生成的aidl到1和current1.7 更新与冻结版本1.8 编译模块接口 2、服务端代码适配hal代码修改2.1 修改Android.bp的hidl依…...

编程日记 2024/11/28 10:02:44

【R库包安装】R库包安装总结：conda、CRAN等

【R库包安装】R studio 安装rgdal库/BPST库 R studio 安装rgdal库解决方法 R studio 安装BPST库（github）解决方法方法1：使用devtools安装方法2：下载安装包直接在Rstudio中安装参考基础 R 库包的安装可参见另一博客-【R库包安装】…...

编程日记 2024/11/28 10:01:43

学习PMC要不要去培训班?

在当今快速变化的商业环境中，PMC作为供应链管理的核心环节之一，其重要性日益凸显。PMC不仅关乎产品的物料计划、采购、库存控制及物流协调，还直接影响到企业的生产效率、成本控制以及市场竞争力。面对这一专业领域的学习需求，许多…...

编程日记 2024/11/28 10:00:42

前端用js封装部分数据结构

文章目录 Stack队列链表Setset 用来数组去重set用来取两个数组的并集set用来取两个数组的交集set用来取两个数组的差集字典 Stack 栈，先进后出，后进先出。用数组来进行模拟，通过push存入，通过pop取出。 class Stack {// 带#表示…...

编程日记 2024/11/28 9:57:39

cocoscreator-doc-TS:目录

cocoscreator-doc-TS-脚本开发-访问节点和组件-CSDN博客 cocoscreator-doc-TS-常用节点和组件接口-CSDN博客 cocoscreator-doc-TS-脚本开发-创建和销毁节点-CSDN博客 cocoscreator-doc-TS-脚本开发-加载和切换场景-CSDN博客 cocoscreator-doc-TS-脚本开发-获取和设置资源-CS…...

编程日记 2024/11/28 9:54:36

理解Java集合的基本用法—Collection：List、Set 和 Queue，Map

本博文部分参考博客 ，强烈推荐这篇博客，写得超级全面！！！ 图片来源 Java 集合框架主要包括两种类型的容器，一种是集合（Collection），存储一个元素集合（单列…...

编程日记 2024/11/28 9:53:35

IOC容器实现分层解耦

文章开始之前，先引入软件开发的两个名词：耦合和内聚。耦合是指：衡量软件中各个层（三层架构）/各个模块的依赖关联程度；内聚是指：软件中各个功能模块内部的功能联系。三层架构中Controller、Servi…...

编程日记 2024/11/28 9:52:34

Flutter 共性元素动画

在 Flutter 中，共性元素动画（Shared Element Transitions）用于在页面导航或组件切换时创建视觉上更流畅和连贯的动画效果。这种动画可以使用户感受到两个界面之间的“物理联系”，比如图片从缩略图到全屏的扩大效果。前置知识点整…...

编程日记 2024/11/28 9:42:16

K8s内存溢出问题剖析：排查与解决方案

文章目录一、背景二、排查方案：1. 可能是数据量超出了限制的大小，检查数据目录大小2. 查看是否是内存溢出2.1 排查数据量（查看数据目录大小是否超过limit限制）2.2 查看pod详情发现问题三、解决过程一、背景做redis压测过程中…...

编程日记 2024/11/28 9:41:14

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架，它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用，和丰富的HTTP工具。使用Express可以快速地搭建一个完整功能的网站。 Expre…...

编程新知 2025/7/11 4:02:52

在四层代理中还原真实客户端ngx_stream_realip_module

一、模块原理与价值 PROXY Protocol 回溯第三方负载均衡（如 HAProxy、AWS NLB、阿里 SLB）发起上游连接时，将真实客户端 IP/Port 写入 PROXY Protocol v1/v2 头。Stream 层接收到头部后，ngx_stream_realip_module 从中提取原始信息…...

编程新知 2025/7/6 17:42:11

使用van-uploader 的UI组件，结合vue2如何实现图片上传组件的封装

以下是基于 vant-ui（适配 Vue2 版本 ）实现截图中照片上传预览、删除功能，并封装成可复用组件的完整代码，包含样式和逻辑实现，可直接在 Vue2 项目中使用： 1. 封装的图片上传组件 ImageUploader.vue <te…...

编程新知 2025/6/17 5:20:48

令牌桶滑动窗口-＞限流分布式信号量-＞限并发的原理 lua脚本分析介绍

文章目录前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结： 滑动窗口代码实现结果分析lua脚本原理解析限并发分布式信号量代码实现结果分析lua脚本实现原理双注解去实现限流并发结果分析： 实际业务去理解体会统一注…...

编程新知 2025/7/10 6:26:33

Ascend NPU上适配Step-Audio模型

1 概述 1.1 简述 Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤）&#x…...

编程新知 2025/7/11 1:53:23

云原生玩法三问：构建自定义开发环境

云原生玩法三问：构建自定义开发环境引言临时运维一个古董项目，无文档，无环境，无交接人，俗称三无。运行设备的环境老，本地环境版本高，ssh不过去。正好最近对腾讯出品的云原生 cnb 感兴趣&…...

编程新知 2025/7/9 12:33:23

C++使用 new 来创建动态数组

问题： 不能使用变量定义数组大小原因： 这是因为数组在内存中是连续存储的，编译器需要在编译阶段就确定数组的大小，以便正确地分配内存空间。如果允许使用变量来定义数组的大小，那么编译器就无法在编译时确定数组的大…...

编程新知 2025/7/9 17:19:23

MFE(微前端) Module Federation：Webpack.config.js文件中每个属性的含义解释

以Module Federation 插件详为例，Webpack.config.js它可能的配置和含义如下： 前言 Module Federation 的Webpack.config.js核心配置包括： name filename（定义应用标识） remotes（引用远程模块&#xff0…...

编程新知 2025/7/8 0:08:58

Java求职者面试指南：Spring、Spring Boot、Spring MVC与MyBatis技术解析

Java求职者面试指南：Spring、Spring Boot、Spring MVC与MyBatis技术解析一、第一轮基础概念问题 1. Spring框架的核心容器是什么？它的作用是什么？ Spring框架的核心容器是IoC（控制反转）容器。它的主要作用是管理对…...

编程新知 2025/7/5 22:55:20

rknn toolkit2搭建和推理

安装Miniconda Miniconda - Anaconda Miniconda 选择一个新的版本 ，不用和RKNN的python版本保持一致使用 ./xxx.sh进行安装下面配置一下载源 # 清华大学源（最常用） conda config --add channels https://mirrors.tuna.tsinghua.edu.cn…...

编程新知 2025/7/11 4:53:28