当前位置：首页 > news >正文

L8打卡学习笔记

news 2026/2/8 12:28:33

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊

SVM与集成学习

SVM
- SVM线性模型
- SVM非线性模型
- SVM常用参数
集成学习
随机森林
- 导入数据
- 查看数据信息
- 数据分析
- 随机森林模型
- 预测结果
- 结果分析
个人总结

SVM

超平面：SVM 在特征空间中寻找一个能够最大化类别间隔的超平面，称为最大间隔超平面。这个超平面就是将数据集分成不同类别的边界。
支持向量：支持向量是离分隔超平面最近的样本点，它们决定了超平面的位置和方向。换句话说，只有这些样本对分类结果有影响，其他的样本点则不影响。

SVM线性模型

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score# 加载数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target# 数据预处理
sc = StandardScaler()
X = sc.fit_transform(X)# 训练集和测试集的分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 创建SVM模型
svm = SVC(kernel='linear', C=1.0)# 训练模型
svm.fit(X_train, y_train)# 预测
y_pred = svm.predict(X_test)# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy: %.2f' % (accuracy * 100.0))

SVM非线性模型

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score# 加载数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target# 数据预处理
sc = StandardScaler()
X = sc.fit_transform(X)# 训练集和测试集的分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)# 创建SVM模型
svm = SVC(kernel='rbf', C=1.0, gamma=0.1)# 训练模型
svm.fit(X_train, y_train)# 预测
y_pred = svm.predict(X_test)# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy: %.2f' % (accuracy * 100.0))

SVM常用参数

C（默认值：1.0）
○ 作用：惩罚参数，用于平衡最大化分类间隔和误分类惩罚之间的关系。
○ 解释：较大的 C 值意味着对误分类的惩罚更大，模型会倾向于将更多的训练数据点分类正确，但可能会导致间隔变小，可能出现过拟合；较小的 C 值则会更关注于间隔的大小，而允许更多的误分类，从而提高模型的泛化能力。
○ 常用范围：通常在 0.001 到 1000 之间进行调节。
kernel（默认值：‘rbf’）
○ 作用：指定要使用的核函数，支持不同的非线性映射方法。
○ 可选值：
■ ‘linear’：线性核函数，即不进行任何非线性映射。
■ ‘poly’：多项式核函数，通常用于多项式可分的情况。
■ ‘rbf’：径向基函数（Radial Basis Function），又称高斯核，是最常用的非线性核函数。
■ ‘sigmoid’：类似于神经网络的激活函数，较少使用。
■ 你也可以传递自定义核函数，方法是传递一个函数。
degree （默认值：3）
○ 作用：当 kernel=‘poly’ 时，指定多项式核的多项式次数。
○ 解释：如果使用多项式核函数（poly），degree 参数决定多项式的阶数，通常是 2 或 3。
gamma（默认值：‘scale’）
○ 作用：核函数系数，适用于 ‘rbf’、‘poly’ 和 ‘sigmoid’ 核函数。
○ 可选值：
■ ‘scale’：使用 1 / (n_features * X.var()) 作为默认值。这个值会根据输入特征的数量和方差自动调整。
■ ‘auto’：使用 1 / n_features 作为值。
○ 解释：gamma 值越大，模型越倾向于拟合训练数据，但可能会导致过拟合；gamma 值越小，模型更倾向于平滑。
coef0（默认值：0.0）
○ 作用：核函数中的独立项，仅在 kernel=‘poly’ 或 kernel=‘sigmoid’ 时有意义。
○ 解释：用于控制多项式核函数和 sigmoid 核函数中的偏移量。

集成学习

Bagging在做预测时，对于分类任务，使用简单的投票法。对于回归任务使用简单平均法。若分类预测时出现两个类票数一样时，则随机选择一个。
Boosting 工作原理：

弱学习器：中的弱学习器通常是性能稍微优于随机猜测的模型，通常使用简单的模型（如浅层决策树）。
加权训练：在每一次迭代中，Boosting 会调整每个样本的权重，增加那些前一次模型预测错误样本的权重，使得后续的学习器更关注这些难以分类的样本。
加权投票：最终模型是通过将所有弱学习器的预测结果加权整合而成，通常采用加权投票（分类问题）或加权平均（回归问题）。

随机森林

一种基于集成学习的算法，主要用于分类和回归分析。随机森林通过结合多个决策树来提高模型的准确性和稳健性，步骤如下：

随机抽样：从原始训练数据中随机抽取多个样本集（通常是相同大小），为每棵决策树准备训练数据。
构建决策树：对于每个样本集，根据随机选取的特征构建一棵决策树。树的生长过程中使用信息增益、基尼指数等标准进行节点分裂。
集成预测：
对于分类任务，随机森林通过对所有决策树的预测进行投票，选择票数最多的类别作为最终类别。
对于回归任务，计算所有树的预测值的平均值。

导入数据

import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_reportdata = pd.read_csv(r'C:\Users\11054\Desktop\kLearning\L678_learning\data.csv')
data

查看数据信息

data.info()

import matplotlib.pyplot as pltplt.rcParams['font.family'] = 'SimHei'  # 指定默认字体为黑体
feature_map = {'Temperature': '温度','Humidity': '湿度百分比','Wind Speed': '风速','Precipitation (%)': '降水量百分比','Atmospheric Pressure': '大气压力','UV Index': '紫外线指数','Visibility (km)': '能见度'
}
plt.figure(figsize=(15, 10))for i, (col, col_name) in enumerate(feature_map.items(), 1):plt.subplot(2, 4, i)sns.boxplot(y=data[col])plt.title(f'{col_name}的箱线图', fontsize=14)plt.ylabel('数值', fontsize=12)plt.grid(axis='y', linestyle='--', alpha=0.7)plt.tight_layout()
plt.show()

C:\Users\11054\AppData\Local\Temp\ipykernel_7496\1699620420.py:22: UserWarning: Glyph 8722 (\N{MINUS SIGN}) missing from current font.plt.tight_layout()
C:\Users\11054\.conda\envs\kmate\lib\site-packages\IPython\core\pylabtools.py:152: UserWarning: Glyph 8722 (\N{MINUS SIGN}) missing from current font.fig.canvas.print_figure(bytes_io, **kw)

在这里插入图片描述

print(f"温度超过60°C的数据量：{data[data['Temperature'] > 60].shape[0]}，占比{round(data[data['Temperature'] > 60].shape[0] / data.shape[0] * 100,2)}%。")
print(f"湿度百分比超过100%的数据量：{data[data['Humidity'] > 100].shape[0]}，占比{round(data[data['Humidity'] > 100].shape[0] / data.shape[0] * 100,2)}%。")
print(f"降雨量百分比超过100%的数据量：{data[data['Precipitation (%)'] > 100].shape[0]}，占比{round(data[data['Precipitation (%)'] > 100].shape[0] / data.shape[0] * 100,2)}%。")

温度超过60°C的数据量：207，占比1.57%。
湿度百分比超过100%的数据量：416，占比3.15%。
降雨量百分比超过100%的数据量：392，占比2.97%。

数据分析

data.describe(include='all')

plt.figure(figsize=(20, 15))
plt.subplot(3, 4, 1)
sns.histplot(data['Temperature'], kde=True,bins=20)
plt.title('温度分布')
plt.xlabel('温度')
plt.ylabel('频数')plt.subplot(3, 4, 2)
sns.boxplot(y=data['Humidity'])
plt.title('湿度百分比箱线图')
plt.ylabel('湿度百分比')plt.subplot(3, 4, 3)
sns.histplot(data['Wind Speed'], kde=True,bins=20)
plt.title('风速分布')
plt.xlabel('风速（km/h）')
plt.ylabel('频数')plt.subplot(3, 4, 4)
sns.boxplot(y=data['Precipitation (%)'])
plt.title('降雨量百分比箱线图')
plt.ylabel('降雨量百分比')plt.subplot(3, 4, 5)
sns.countplot(x='Cloud Cover', data=data)
plt.title('云量 (描述)分布')
plt.xlabel('云量 (描述)')
plt.ylabel('频数')plt.subplot(3, 4, 6)
sns.histplot(data['Atmospheric Pressure'], kde=True,bins=10)
plt.title('大气压分布')
plt.xlabel('气压 (hPa)')
plt.ylabel('频数')plt.subplot(3, 4, 7)
sns.histplot(data['UV Index'], kde=True,bins=14)
plt.title('紫外线等级分布')
plt.xlabel('紫外线指数')
plt.ylabel('频数')plt.subplot(3, 4, 8)
Season_counts = data['Season'].value_counts()
plt.pie(Season_counts, labels=Season_counts.index, autopct='%1.1f%%', startangle=140)
plt.title('季节分布')plt.subplot(3, 4, 9)
sns.histplot(data['Visibility (km)'], kde=True,bins=10)
plt.title('能见度分布')
plt.xlabel('能见度（Km）')
plt.ylabel('频数')plt.subplot(3, 4, 10)
sns.countplot(x='Location', data=data)
plt.title('地点分布')
plt.xlabel('地点')
plt.ylabel('频数')plt.subplot(3, 4, (11,12))
sns.countplot(x='Weather Type', data=data)
plt.title('天气类型分布')
plt.xlabel('天气类型')
plt.ylabel('频数')plt.tight_layout()
plt.show()

C:\Users\11054\AppData\Local\Temp\ipykernel_7496\3587563545.py:65: UserWarning: Glyph 8722 (\N{MINUS SIGN}) missing from current font.plt.tight_layout()
C:\Users\11054\.conda\envs\kmate\lib\site-packages\IPython\core\pylabtools.py:152: UserWarning: Glyph 8722 (\N{MINUS SIGN}) missing from current font.fig.canvas.print_figure(bytes_io, **kw)

在这里插入图片描述

随机森林模型

new_data = data.copy()
label_encoders = {}
categorical_features = ['Cloud Cover', 'Season', 'Location', 'Weather Type']
for feature in categorical_features:le = LabelEncoder()new_data[feature] = le.fit_transform(data[feature])label_encoders[feature] = lefor feature in categorical_features:print(f"'{feature}'特征的对应关系：")for index, class_ in enumerate(label_encoders[feature].classes_):print(f"  {index}: {class_}")

'Cloud Cover'特征的对应关系：0: clear1: cloudy2: overcast3: partly cloudy
'Season'特征的对应关系：0: Autumn1: Spring2: Summer3: Winter
'Location'特征的对应关系：0: coastal1: inland2: mountain
'Weather Type'特征的对应关系：0: Cloudy1: Rainy2: Snowy3: Sunny

# 构建x，y
x = new_data.drop(['Weather Type'],axis=1)
y = new_data['Weather Type']# 划分数据集
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=15)# 构建随机森林模型
rf_clf = RandomForestClassifier(random_state=15)
rf_clf.fit(x_train, y_train)

预测结果

y_pred_rf = rf_clf.predict(x_test)
class_report_rf = classification_report(y_test, y_pred_rf)
print(class_report_rf)

              precision    recall  f1-score   support0       0.87      0.93      0.90      10181       0.93      0.91      0.92       9672       0.96      0.92      0.94      10073       0.91      0.91      0.91       968accuracy                           0.92      3960macro avg       0.92      0.91      0.92      3960
weighted avg       0.92      0.92      0.92      3960

结果分析

feature_importances = rf_clf.feature_importances_
features_rf = pd.DataFrame({'特征': x.columns, '重要度': feature_importances})
features_rf.sort_values(by='重要度', ascending=False, inplace=True)
plt.figure(figsize=(10, 8))
sns.barplot(x='重要度', y='特征', data=features_rf)
plt.xlabel('重要度')
plt.ylabel('特征')
plt.title('随机森林特征图')
plt.show()

在这里插入图片描述

个人总结

学习了随机森林模型的使用，理解了SVM和集成学习的基本原理

L8打卡学习笔记

🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者：K同学啊 SVM与集成学习 SVMSVM线性模型SVM非线性模型SVM常用参数集成学习随机森林导入数据查看数据信息数据分析随机森林模型预测结果结果分析个人总结 SVM 超平面&…...

编程日记 2024/9/29 4:52:09

VBA解除Excel工作表保护

Excel工作表保护解除工作表保护后无法编辑内容，可能是密码忘记，不可暴力破解隐私 1 打开需的Excel 2 Alt F11 打开代码编辑，点击任意代码编辑项，将如下代码复制，并运行。 Public Sub GetWorkbookPassword()Dim w1 A…...

编程日记 2024/9/29 4:50:07

bash: unzip: 未找到命令,sudo: nano：找不到命令

在 Ubuntu/Debian 系统上打开终端并运行以下命令： sudo apt update sudo apt install unzip在 CentOS/RHEL 系统上打开终端并运行以下命令： sudo yum install unzip在 macOS 上如果您使用的是 macOS，可以使用 Homebrew 安装 unzip&#…...

编程日记 2024/9/29 4:49:06

文件夹没权限：Unhandled Promise Rejection: path not allowed on the configured scope: /Users/song/Library/Application Support/com.pakeplus.app/assets/default.png 没有文件夹，需要先创建：Unhandled Promise Rejection: path: /Users…...

编程日记 2024/9/29 4:48:05

【web安全】——信息收集

一、收集域名信息 1.1域名注册信息工具：站长之家 whois查询 SEO综合查询 1.2子域名收集原理：字典爆破，通过字典中的各种字符串与主域名拼接，尝试访问。站长之家直接查询子域名 ip138.com https://phpinfo.me/domain/ …...

编程日记 2024/9/29 4:47:04

赵长鹏今日获释，下一步会做什么？币安透露2024年加密货币牛市的投资策略！

中国时间2024年9月28日，加密货币行业的风云人物赵长鹏（Changpeng Zhao，简称CZ）终于从监狱获释。他因在担任币安首席执行官期间未能有效执行反洗钱(AML)计划而被判刑四个月。赵长鹏的获释引发了广泛关注，不仅因为他是全…...

编程日记 2024/9/29 4:46:03

SpringMVC之ContextHolder

员工不必为自己的弱点而太多的忧虑，而是要大大地发挥自己的优点，使自己充满自信，以此来解决自己的压抑问题。我自己就有许多地方是弱项，常被家人取笑小学生水平，若我全力以赴去提升那些弱的方面，也许我就做…...

编程日记 2024/9/29 4:45:02

什么是SQL注入？

SQL注入是一种安全漏洞，攻击者通过在应用程序的输入字段中插入恶意SQL代码，从而操控数据库。此类攻击通常利用应用程序未对用户输入进行适当验证和清理的弱点。工作原理： 输入字段：攻击者在登录表单或搜索框等输入区域插入恶意…...

编程日记 2024/9/29 4:42:59

混合密码系统——用对称密钥提高速度，用公钥密码保护会话密钥

混合密码系统（Hybrid Cryptosystem）是一种结合了多种密码学技术和算法的加密方案，旨在充分利用不同密码算法的优势，以提供更强大的安全性、更高的效率或更好的功能特性。以下是对混合密码系统的详细解释： 组成要素对…...

编程日记 2024/9/29 4:41:59

Three.js粒子系统与特效

目录粒子系统基础常见粒子系统特效粒子系统基础基础的粒子系统使用THREE.ParticleSystem和THREE.ParticleBasicMaterial实现： // 导入Three.js库 import * as THREE from three...

编程日记 2024/9/29 4:38:54

Tableau数据可视化入门

目录一、实验名称二、实验目的三、实验原理四、实验环境五、实验步骤 1、Tableau界面引导 2、数据来源 3、数据预处理操作 4、制作中国各个地区的利润图表 4.1条形图 4.2气泡图 5、制作填充地球图一、实验名称： 实验一：Tableau数据可视…...

编程日记 2024/9/29 4:37:53

Linux云计算 |【第四阶段】RDBMS1-DAY2

主要内容： 常用函数（函数分类1：单行、分组；函数分类2：字符、数学、日期、流程控制）、分组查询group by、连接查询一、常用函数 1. 按使用方式分类 ① 单行函数单行函数（Scalar Functions&…...

编程日记 2024/9/29 4:36:52

后台监控中的云边下控耗时、边缘采集耗时、云边下控量

云边下控耗时：指云端控制边缘设备的时间，从云端下发指令到边缘设备响应完成的时间。该指标反映了云端控制边缘设备的效率和响应速度。边缘采集耗时：指边缘设备采集数据到云端处理完成的时间，包括数据采集、传输、处理等环节。该…...

编程日记 2024/9/29 4:34:50

【学习笔记】手写 Tomcat 四

目录一、Read 方法返回 -1 的问题二、JDBC 优化 1. 创建配置文件 2. 创建工具类 3. 简化 JDBC 的步骤三、修改密码优化返回数据创建修改密码的页面注意测试四、优化响应动态资源 1. 创建 LoginServlet 类 2. 把登录功能的代码放到 LoginServlet 类 3. 创…...

编程日记 2024/9/29 4:33:49

探索基因奥秘：汇智生物如何利用组蛋白甲基化修饰测序技术革新农业植物基因组研究？

引言： 随着生物医学技术的不断进步，我们对生命奥秘的探索越来越深入。在众多的生物技术中，表观组学分析技术逐渐成为研究的热点。本文将带您走进汇智生物，了解他们如何利用DNA亲和纯化测序技术（DAP-seq）推…...

编程日记 2024/9/29 4:31:48

二叉搜索树的介绍、模拟实现二叉搜索树、leetcode---根据二叉树创建字符串、leetcode---二叉树的最近公共祖先等的介绍

文章目录前言一、二叉搜索树的介绍二、模拟实现二叉搜索树三、leetcode---根据二叉树创建字符串四、leetcode---二叉树的最近公共祖先总结前言二叉搜索树的介绍、模拟实现二叉搜索树、leetcode—根据二叉树创建字符串、leetcode—二叉树的最近公共祖先等的介绍一、二叉搜索…...

编程日记 2024/9/29 4:30:46

人工智能的基本概念与发展历程

一、人工智能的基本概念与发展历程人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。它涵盖了机器人技术、语言识别、图像识别、自然语言处理和专家系统等众多领域。自20世纪30年代数理逻辑的形式化和智能可计算思想开始构建计…...

编程日记 2024/9/29 4:29:45

【IPV6从入门到起飞】5-6 IPV6+Home Assistant(ESPHome+ESP-cam)实时监控

5-6 IPV6Home Assistant[ESPHomeESP-cam]实时监控 1、背景2、ESPHome 安装2-1 ESPHome 简述2-2 安装 3、创建ESP32-CAM设备4、编辑yaml配置4-1 找到合适的配置4-2 修改配置4-3 验证配置4-4 编译项目 5、烧录固件6、绑定设备7、效果实现 1、背景在前面我们已经实现了数据采集与…...

编程日记 2024/9/29 4:28:44

生成式AI的未来

随着生成式AI技术的不断进步，关于其未来发展方向的讨论也愈发激烈。究竟生成式AI的未来是在对话系统（Chat）中展现智慧，还是在自主代理（Agent）中体现能力？这一问题不仅涉及技术实现的可能性&…...

编程日记 2024/9/29 4:25:41

实用好软-----电脑端从视频中导出音频的方便工具

最近想从一个视频中导出个音乐，百度找很多没有合适的工具。最终找到了一款很方便而且操作超级简单的工具。打开这个工具后只需要把需要导出音乐的视频拖进窗口里就会自动导出音乐mp3。方便小巧，而且音频效果还是不错的。一些视频转换成音频文件&#x…...

编程日记 2024/9/29 4:24:40

RocketMQ延迟消息机制

两种延迟消息 RocketMQ中提供了两种延迟消息机制指定固定的延迟级别通过在Message中设定一个MessageDelayLevel参数，对应18个预设的延迟级别指定时间点的延迟级别通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后&#xf…...

编程新知 2026/2/5 5:03:16

条件运算符

C中的三目运算符（也称条件运算符，英文：ternary operator）是一种简洁的条件选择语句，语法如下： 条件表达式 ? 表达式1 : 表达式2• 如果“条件表达式”为true，则整个表达式的结果为“表达式1”…...

编程新知 2025/12/6 22:50:48

智能在线客服平台：数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展，消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁，不仅优化了客户体验，还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用，并…...

编程新知 2026/2/4 17:51:19

【论文笔记】若干矿井粉尘检测算法概述

总的来说，传统机器学习、传统机器学习与深度学习的结合、LSTM等算法所需要的数据集来源于矿井传感器测量的粉尘浓度，通过建立回归模型来预测未来矿井的粉尘浓度。传统机器学习算法性能易受数据中极端值的影响。YOLO等计算机视觉算法所需要的数据集来源于…...

编程新知 2025/10/14 10:52:24

TRS收益互换：跨境资本流动的金融创新工具与系统化解决方案

一、TRS收益互换的本质与业务逻辑 （一）概念解析 TRS（Total Return Swap）收益互换是一种金融衍生工具，指交易双方约定在未来一定期限内，基于特定资产或指数的表现进行现金流交换的协议。其核心特征包括&am…...

编程新知 2025/11/2 0:31:23

css的定位（position）详解：相对定位绝对定位固定定位

在 CSS 中，元素的定位通过 position 属性控制，共有 5 种定位模式：static（静态定位）、relative（相对定位）、absolute（绝对定位）、fixed（固定定位）和…...

编程新知 2026/2/6 6:35:29

uniapp微信小程序视频实时流+pc端预览方案

方案类型技术实现是否免费优点缺点适用场景延迟范围开发复杂度WebSocket图片帧定时拍照Base64传输✅ 完全免费无需服务器纯前端实现高延迟高流量帧率极低个人demo测试超低频监控500ms-2s⭐⭐RTMP推流TRTC/即构SDK推流❌ 付费方案 （部分有免费额度&#x…...

编程新知 2026/1/31 6:12:33

微信小程序云开发平台MySQL的连接方式

注：微信小程序云开发平台指的是腾讯云开发先给结论：微信小程序云开发平台的MySQL，无法通过获取数据库连接信息的方式进行连接，连接只能通过云开发的SDK连接，具体要参考官方文档： 为什么？ 因为…...

编程新知 2026/2/1 5:24:17

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

目录一、目的二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结一、目的当前市场上有很多目标检测智能识别的相关算法，当前调用一个医疗行业的AI识别算法后返回…...

编程新知 2026/1/20 22:45:38

JavaScript 数据类型详解

JavaScript 数据类型详解 JavaScript 数据类型分为原始类型（Primitive） 和对象类型（Object） 两大类，共 8 种（ES11）： 一、原始类型（7种） 1. undefined 定…...

编程新知 2025/12/25 4:05:41

SVM与集成学习

SVM

SVM线性模型

SVM非线性模型

SVM常用参数

集成学习

随机森林

导入数据

查看数据信息

数据分析

随机森林模型

预测结果

结果分析

个人总结

相关文章：