当前位置：首页 > news >正文

【python】sklearn基础教程及示例

news 文章来源：https://blog.csdn.net/weixin_44502754/article/details/140683201 2024/9/19 10:52:49

【python】sklearn基础教程及示例

Scikit-learn（简称sklearn）是一个非常流行的Python机器学习库，提供了许多常用的机器学习算法和工具。以下是一个基础教程的概述：

1. 安装scikit-learn

首先，确保你已经安装了Python和pip，然后使用以下命令安装scikit-learn：

pip install -U scikit-learn

2. 导入库

在你的Python脚本或Jupyter Notebook中，首先导入scikit-learn库：

import sklearn

3. 加载数据

你可以加载各种数据集，包括样本数据集和真实世界数据集。例如，加载经典的鸢尾花数据集：

from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data  # 特征矩阵
y = iris.target  # 目标向量

4. 数据预处理

在应用机器学习算法之前，通常需要进行一些数据预处理，例如特征缩放、特征选择、数据清洗等。以下是一些常用的数据预处理方法：

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

5. 数据拆分

将数据集拆分为训练集和测试集：

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

6. 建立模型

使用各种机器学习算法来建立模型，例如逻辑回归：

from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X_train, y_train)

7. 模型评估

在训练模型之后，评估模型的性能，例如使用准确度评估：

from sklearn.metrics import accuracy_score
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

8. 交叉验证

使用交叉验证来评估模型的稳定性和泛化能力：

from sklearn.model_selection import cross_validate
result = cross_validate(model, X, y, cv=5)
print(result['test_score'])

sklearn示例

1.简单例子：鸢尾花分类

这是一个经典的机器学习任务，用于分类鸢尾花的种类。

load_iris 是一个经典的机器学习数据集，通常用于分类和聚类任务。这个数据集包含了三种不同种类的鸢尾花（Iris Setosa、Iris Versicolour 和 Iris Virginica）的信息，每种鸢尾花有四个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。

具体来说，load_iris 数据集包含以下内容：

150个样本：每种鸢尾花各50个样本。
4个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。
目标标签：每个样本的目标类别标签，分别为0（Setosa）、1（Versicolour）和2（Virginica）。
StandardScaler 是 scikit-learn 库中的一个类，用于对数据进行标准化处理。标准化的目的是将数据的特征缩放到相同的尺度，通常是均值为0，标准差为1。这对于许多机器学习算法来说是非常重要的，特别是那些基于距离的算法（如K-近邻、支持向量机等）和需要计算协方差矩阵的算法（如PCA、线性回归等）。

# 导入必要的库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target# 数据预处理
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)# 建立和训练模型
model = LogisticRegression()
model.fit(X_train, y_train)# 预测和评估
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")

2.复杂例子：手写数字识别

这个例子使用手写数字数据集，并应用支持向量机（SVM）进行分类。

load_digits 是 scikit-learn 提供的一个经典数据集，用于手写数字识别任务。这个数据集包含了 0 到 9 共 10 个数字的手写图像，每个图像是一个 8x8 的灰度图像。

数据集内容样本数量：1797 个手写数字图像。
特征维度：每个图像有 64 个特征（8x8 像素）。
特征值：每个特征值是一个整数，范围从 0 到 16，表示像素的灰度值。
目标标签：每个样本对应一个目标标签，表示数字 0 到 9。

# 导入必要的库
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report# 加载数据集
digits = load_digits()
X = digits.data
y = digits.target# 数据预处理
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)# 使用网格搜索进行超参数调优
param_grid = {'C': [0.1, 1, 10, 100], 'gamma': [1, 0.1, 0.01, 0.001]}
grid = GridSearchCV(SVC(), param_grid, refit=True, verbose=2)
grid.fit(X_train, y_train)# 最佳参数和模型评估
print(f"Best Parameters: {grid.best_params_}")
y_pred = grid.predict(X_test)
print(classification_report(y_test, y_pred))

在这个复杂的例子中，我们使用了网格搜索（GridSearchCV）来找到支持向量机（SVM）的最佳超参数，并使用分类报告（classification_report）来评估模型的性能。

param_grid：这是一个字典，定义了要搜索的参数范围。在这个例子中，我们要调整两个参数：
- C：正则化参数，控制模型的复杂度。较小的 C 值会使模型更简单，但可能欠拟合；较大的 C 值会使模型更复杂，但可能过拟合。
- gamma：核函数系数，控制单个训练样本的影响范围。较大的 gamma 值会使模型更复杂，但可能过拟合；较小的 gamma 值会使模型更简单，但可能欠拟合。

GridSearchCV：这是 scikit-learn 提供的一个工具，用于通过交叉验证来搜索最佳参数组合。
- SVC()：支持向量机分类器。
- param_grid：要搜索的参数网格。
- refit=True：在找到最佳参数组合后，使用整个训练集重新训练模型。
- verbose=2：设置详细程度，输出更多的搜索过程信息。

【python】sklearn基础教程及示例

【python】sklearn基础教程及示例 Scikit-learn（简称sklearn）是一个非常流行的Python机器学习库，提供了许多常用的机器学习算法和工具。以下是一个基础教程的概述： 1. 安装scikit-learn 首先，确保你已经安装了Python和…...

编程日记 2024/7/28 19:11:10

Linux：传输层(2) -- TCP协议(2)

目录 1. 流量控制 2. 滑动窗口 3. 拥塞控制 4. 延迟应答 5. 捎带应答 6. 面向字节流 7. 粘包问题 8. TCP异常情况 1. 流量控制接收端处理数据的速度是有限的. 如果发送端发的太快 , 导致接收端的缓冲区被打满 , 这个时候如果发送端继续发送 , 就会造成丢包, 继而引…...

编程日记 2024/7/28 19:10:09

AcWing 802. 区间和

var说明add存储了插入操作，在指定 x x x下标所在位置 a [ x ] c a[x]c a[x]cquery是求 [ L , R ] [L,R] [L,R]区间和用到的数组,最后才用到alls 是存储离散化之后的值 , 对于会访问到的每个下标，统统丢到 a l l s 里面 ，会把 x 和 [ L , R …...

编程日记 2024/7/28 19:09:07

实验2-2-1 温度转换

#include<stdio.h> #include <math.h> int main(){int c,f150;c5*(f-32)/9;printf("fahr 150, celsius %d",c); }...

编程日记 2024/7/28 19:07:05

Spark实时（六）：Output Sinks案例演示

文章目录 Output Sinks案例演示一、File sink 二、Memory Sink 三、Foreach Sink 1、foreachBatch 2、foreach Output Sinks案例演示当我们对流式…...

编程日记 2024/7/28 19:06:04

在SQL编程中DROP、DELETE和TRUNCATE的区别

在SQL编程中，DROP、DELETE和TRUNCATE都是用于删除数据的命令，但它们之间有着显著的区别，主要体现在它们删除数据的范围、操作的不可逆性、对表结构的影响、性能以及事务日志的影响上。 DROP: 作用：DROP命令用于删除整个表及其所有…...

编程日记 2024/7/28 19:04:02

【AI大模型】Prompt 提示词工程使用详解

目录一、前言二、Prompt 提示词工程介绍 2.1 Prompt提示词工程是什么 2.1.1 Prompt 构成要素 2.2 Prompt 提示词工程有什么作用 2.2.1 Prompt 提示词工程使用场景 2.3 为什么要学习Prompt 提示词工程三、Prompt 提示词工程元素构成与操作实践 3.1 前置准备 3.2 Pro…...

编程日记 2024/7/28 19:03:01

学习记录day18——数据结构算法

算法的相关概念程序数据结构算法算法是程序设计的灵魂，结构式程序设计的肉体算法：计算机解决问题的方法护额步骤算法的特性 1、确定性：算法中每一条语句都有确定的含义，不能模棱两可 2、有穷性：程序执行一…...

编程日记 2024/7/28 19:00:59

一篇文章带你学完Java所有的时间与日期类

目录一、传统时间与日期类 1.Date类构造方法获取日期和时间信息的方法设置日期和时间信息的方法 2.Calendar类主要特点和功能常用方法 1. 获取当前日历对象 2. 获取日历中的某个信息 3. 获取日期对象 4. 获取时间毫秒值 5. 修改日历的某个信息 6. 为某个信息增…...

编程日记 2024/7/28 18:56:56

利用GPT4o Captcha工具和AI技术全面识别验证码

利用GPT4o Captcha工具和AI技术全面识别验证码 🧠🚀 摘要 GPT4o Captcha工具是一款命令行工具，通过Python和Selenium测试各种类型的验证码，包括拼图、文本、复杂文本和reCAPTCHA，并使用OpenAI GPT-4帮助解决验证码问…...

编程日记 2024/7/28 18:55:54

大学生算法高等数学学习平台设计方案 (第一版)

目录目标用户群体的精准定位初阶探索者进阶学习者资深研究者功能需求的深度拓展个性化学习路径定制概念图谱构建公式推导展示交互式问题解决系统新功能和创新点的引入虚拟教室环境数学建模工具集成算法可视化平台学术论文资源库技术实现的前瞻性…...

编程日记 2024/7/28 18:53:52

机器学习算法与Python实战 | 两行代码即可应用 40 个机器学习模型--lazypredict 库！

本文来源公众号“机器学习算法与Python实战”，仅用于学术分享，侵权删，干货满满。原文链接：两行代码即可应用 40 个机器学习模型今天和大家一起学习使用 lazypredict 库，我们可以用一行代码在我们的数据集上实现许多…...

编程日记 2024/7/28 18:50:49

使用WebSocket协议调用群发方法将消息返回客户端页面

目录一.C/S架构： 二.Http协议与WebSocket协议的区别： 1.Http协议与WebSocket协议的区别： 2.WebSocket协议的使用场景： 三.项目实际操作： 1.导入依赖： 2.通过WebSocket实现页面与服务端保持长连接&a…...

编程日记 2024/7/28 18:48:48

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第三篇嵌入式Linux驱动开发篇-第五十七章 Linux中断实验

i.MX8MM处理器采用了先进的14LPCFinFET工艺，提供更快的速度和更高的电源效率;四核Cortex-A53，单核Cortex-M4，多达五个内核 ，主频高达1.8GHz，2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…...

编程日记 2024/7/28 18:47:47

每日一题~961div2A+B+C(阅读题，思维，数学log)

A 题意：给你 n*n 的表格和k 个筹码。每个格子上至多放一个问至少占据多少对角线。显然，要先格数的多的格子去放。 n n-1 n-2 …1 只有n 的是一个（主对角线），其他的是两个。 #include <bits/stdc.h> using na…...

编程日记 2024/7/28 18:45:45

Fireflyrk3288 ubuntu18.04添加Qt开发环境、安装mysql-server

1、创建一台同版本的ubuntu18.04的虚拟机 2、下载rk3288_ubuntu_18.04_armhf_ext4_v2.04_20201125-1538_DESKTOP.img 3、创建空img镜像容器 dd if/dev/zero ofubuntu_rootfs.img bs1M count102404、将该容器格式化成ext4文件系统 mkfs.ext4 ubuntu_rootfs.img5、将该镜像文件…...

编程日记 2024/7/28 18:43:43

简化mybatis @Select IN条件的编写

最近从JPA切换到Mybatis，使用无XML配置，Select注解直接写到interface上，发现IN条件的编写相当麻烦。一般得写成这样： Select({"<script>","SELECT *", "FROM blog","WHERE id IN&quo…...

编程日记 2024/7/28 18:41:41

Windows图形界面(GUI)-MFC-C/C++ - Control

公开视频 -> 链接点击跳转公开课程博客首页 -> 链接点击跳转博客主页目录 Control 资源编辑器添加控件设置控件属性添加控件变量添加消息处理处理控件事件控件焦点顺序 Control 资源编辑器资源编辑器：用于可视化地编辑对话框和控件。…...

编程日记 2024/7/28 18:40:40

SQL Server数据库安全：策略制定与实践指南

SQL Server数据库安全：策略制定与实践指南在当今数字化时代，数据安全是每个组织的核心关注点。SQL Server作为广泛使用的关系型数据库管理系统，提供了一套强大的安全特性来保护存储的数据。制定有效的数据库安全策略是确保数据完整性、可用…...

编程日记 2024/7/28 18:37:36

Spring Boot入门指南：留言板

一.留言板 1.输⼊留⾔信息,点击提交.后端把数据存储起来. 2.⻚⾯展⽰输⼊的表⽩墙的信息规范： 1.写一个类MessageInfo对象，添加构造方法虽然有快捷键，但是还是不够偷懒项目添加Lombok。 Lombok是⼀个Java⼯具库，通过添加注…...

编程日记 2024/7/28 18:35:35

Docker 中安装和配置带用户名和密码保护的 Elasticsearch

在 Docker 中安装和配置带用户名和密码保护的 Elasticsearch 需要以下步骤。Elasticsearch 的安全功能（包括基本身份验证）在默认情况下是启用的，但在某些版本中可能需要手动配置。以下是详细步骤，包括如何设置用户名和密码。 1. …...

编程日记 2024/7/28 18:33:33

面试官：说说JVM内存调优及内存结构

1. JVM简介 JVM（Java虚拟机）是运行Java程序的平台，它使得Java能够跨平台运行。JVM负责内存的自动分配和回收，减轻了程序员的负担。 2. JVM内存结构运行时数据区是JVM中最重要的部分，包含多个内存区域： …...

编程日记 2024/7/28 18:32:32

Ansible的脚本-----playbook剧本【下】

目录实战演练六：tags 模块实战演练七：Templates 模块实战演练六：tags 模块可以在一个playbook中为某个或某些任务定义“标签”，在执行此playbook时通过ansible-playbook命令使用--tags选项能实现仅运行指定的tasks。 playboo…...

编程日记 2024/7/28 18:31:31

Mysql开启远程控制简化版，亲测有效

首先关闭防火墙改表法打开上图的CMD，输入密码进入，然后输入一下指令 1.use mysql; 2.update user set host % where user root;//更新root用户的权限，允许任何主机连接 3.FLUSH PRIVILEGES;//刷新权限，使更改生效具体参考…...

编程日记 2024/7/28 18:30:30

【MQTT协议与IoT通信】MQTT协议的使用和管理

MQTT协议与IoT通信：MQTT协议的使用和管理目录引言MQTT协议概述什么是MQTTMQTT的工作原理 MQTT协议的关键特性轻量级与高效性发布/订阅模式质量服务等级(QoS)持久会话安全性 MQTT协议的使用方法设置MQTT Broker连接MQTT Client发布消息订阅主题断开连接 MQTT协…...

编程日记 2024/7/28 18:28:28

根据题意写出完整的css,html和js代码【购物车模块页面及功能实现】

🏆本文收录于《CSDN问答解惑-专业版》专栏，主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由🚀；同时，欢迎大家关注&&收…...

编程日记 2024/7/28 18:27:27

AWS免费层之后：了解和管理您的云服务成本

Amazon Web Services (AWS) 为新用户提供了12个月的免费层服务，这是许多人开始使用云服务的绝佳方式。但是，当这一年结束后，您的AWS使用会如何变化？我们九河云通过本文将探讨免费层结束后的AWS成本情况，以及如何有效管…...

编程日记 2024/7/28 18:24:24

Linux定时同步系统时间到硬件时间

Linux定时同步系统时间到硬件时间 1. 系统时间、软件时间系统时间 （System Time）： 一般说来就是我们执行 date命令看到的时间，linux系统下所有的时间调用（除了直接访问硬件时间的命令）都是使用的这个时…...

编程日记 2024/7/28 18:23:23

网络编程——wireshark抓包、tcp粘包

目录一、前言 1.1 什么是粘包 1.2 为什么UDP不会粘包二、编写程序文件树客户端程序服务器程序 tcp程序头文件 makefile 三、实验现象四、改进实验五、小作业一、前言最近在做网络芯片的驱动，验证功能的时候需要借助wireshark这个工具&…...

编程日记 2024/7/28 18:22:22

el-table合计行更新问题

说明：在使用el-table自带的底部合计功能时，初始界面不会显示合计内容解决方案：使用 doLayout()方法 updated() {this.$nextTick(() > {this.$refs[inventorySumTable].doLayout();});},完整代码： // show-summary&#xff1a…...

编程日记 2024/7/28 18:16:16

ChatGPT：数据库不符合第二范式示例

ChatGPT：数据库不符合第二范式示例这张图片为什么不符合数据库第二范式这个表格不符合数据库第二范式（2NF）的原因如下： 1. 数据库第二范式（2NF）定义第二范式要求一个数据库表格在满足第一范式&#xf…...

编程日记 2024/7/28 18:15:14

27、美国国家冰雪中心（NSIDC）海冰密集度月数据下载与处理

文章目录一、前言二、数据下载三、使用Ponply查看数据结构四、代码一、前言处理美国国家冰雪中心（NSIDC）的海冰密集度月度数据时,坐标转换是一个重要的步骤。NSIDC提供的数据通常采用极地球面坐标系,需要将其转换为常用的地理坐标系（如经纬度）以便进行分析和可视化。坐…...

编程日记 2024/7/28 18:14:13

vite环境下使用bootstrap

环境 nodejs 18 pnpm 初始化 pnpm init pnpm add -D vite --registry http://registry.npm.taobao.org pnpm add bootstrap popperjs/core --registry http://registry.npm.taobao.org pnpm add -D sass --registry http://registry.npm.taobao.org新建vite.config.js cons…...

编程日记 2024/7/28 18:13:12

Laravel视图渲染封装

第一种 app/Helpers/ViewHelper.php 创建一个辅助函数，用于动态确定视图路径： <?php if (!function_exists(fetchView)) {function fetchView($data []){$currentAction \Route::currentRouteAction();list($controller, $method) explode(, $c…...

编程日记 2024/7/28 18:12:11

C++学习补充2：MySQL select 查询

MySQL select 查询 MySQL 查询 select时， 不区分大小写的。 MySQL 在默认情况下是区分大小写的，但是它的行为可能因配置和使用的字符集而有所不同。以下是一些可能导致查询在 SELECT 语句中不区分大小写的原因： 字符集设置：如果…...

编程日记 2024/7/28 18:11:09

uni-app声生命周期

应用的生命周期函数在App.vue页面 onLaunch:当uni-app初始化完成时触发（全局触发一次） onShow:当uni-app启动，或从后台进入前台时显示 onHide:当uni-app从前台进入后台 onError:当uni-app报错时触发,异常信息为err 页面的生命周期 onLoad…...

编程日记 2024/7/28 18:07:06

排序算法--堆排序

基本思想堆排序的基本思想是，将待排序的元素构建成一个最大堆或最小堆。对于最大堆来说，堆顶是整个堆中的最大元素；对于最小堆来说，堆顶是整个堆中的最小元素。然后，将堆顶元素与堆中最后一个元素交换，并…...

编程日记 2024/7/28 18:04:02

iPhone 在 App Store 中推出的 PC 模拟器 UTM SE

PC 模拟器是什么？PC 模拟器是一种软件工具，它模拟不同硬件或操作系统环境，使得用户可以在一台 PC 上运行其他平台的应用程序或操作系统。通过 PC 模拟器，用户可以在 Windows 电脑上体验 Android 应用、在 Mac 电脑上运行 Windows …...

编程日记 2024/7/28 18:00:58

FastAPI删除mongodb重复数据（数据清洗）

在 FastAPI 中删除 MongoDB 重复数据，你需要结合使用 MongoDB 查询和 FastAPI 的路由功能。以下是一个通用的例子，演示如何删除特定字段上的重复数据： 1. 定义数据模型: from pydantic import BaseModel, Field from bson import ObjectId …...

编程日记 2024/7/28 17:58:56

移动UI：排行榜单页面如何设计，从这五点入手，附示例。

移动UI的排行榜单页面设计需要考虑以下几个方面： 1. 页面布局： 排行榜单页面的布局应该清晰明了，可以采用列表的形式展示排行榜内容，同时考虑到移动设备的屏幕大小，应该设计合理的滚动和分页机制，确保用户…...

编程日记 2024/7/28 17:55:51

如何解决 uni-app 项目中 “文件查找失败：‘crypto-js‘“ 的问题

在开发使用 uni-app 框架的项目时，遇到依赖问题是常见的。本文将介绍如何解决编译过程中出现的 “文件查找失败：‘crypto-js’” 错误，并说明这种错误为什么会发生以及如何避免。问题背景在对 uni-app 项目进行编译时，我们可能…...

编程日记 2024/7/28 17:54:50

Apache DolphinScheduler 3.2.2 版本正式发布！

Apache DolphinScheduler 3.2.2 版本正式发布！ 近日，Apache DolphinScheduler 发布了 3.2.2 版本。此版本主要基于 3.2.1 版本进行了 bug 修复，新增若干特性，并进行了众多改进和 Bug 修复，以及文档修复等。 &#x1…...

编程日记 2024/7/28 17:48:44

汇川CodeSysPLC教程03-2-6 ModBus TCP

什么是ModBus TCP？ ModBus TCP是一种基于TCP/IP协议的工业网络通信协议，常用于工业自动化和控制系统。它是ModBus协议的一个变种，ModBus协议最初由Modicon（现在是施耐德电气的一部分）在1979年开发。以下是ModBus TC…...

编程日记 2024/7/28 17:45:39

【Python机器学习】决策树的构造——划分数据集

分类算法除了需要测量信息熵，还需要划分数据集，度量划分数据集的熵，以便判断当前是否正确划分了数据集。我们将对每个特征划分数据集的结果计算一次信息熵，然后判断按照哪个特征划分数据集是最好的划分方式。想象一个分部在二…...

编程日记 2024/7/28 17:44:38

Pip换源使用帮助

PyPI 镜像使用帮助 PyPI 镜像帮助提高包安装的速度，特别是当默认源访问较慢时。镜像每次同步成功后，每隔 5 分钟进行更新，确保镜像内容尽量与官方源保持一致。 pip 临时使用如果您只想在一次安装中使用镜像，可以使用以下命令&…...

编程日记 2024/7/28 17:41:35

力扣1089复写0

1089. 复写零 - 力扣（LeetCode） 我们的思路是利用类似双指针的方式去解答，来看下代码 class Solution { public:void duplicateZeros(vector<int>& arr){int cur 0, dest -1, n arr.size();while (cur < n){if (arr[cur])d…...

编程日记 2024/7/28 17:40:34

10 VUE Element

文章目录 VUE1、概述2、快速入门3、Vue 指令4、生命周期5、案例 Elemant1、快速入门2、Element 布局3、常用组件-案例 VUE 1、概述 Vue 是一套前端框架，免除原生JavaScript中的DOM操作，简化书写基于MVVM(Model-View-ViewModel)思想，实现数据…...

编程日记 2024/7/28 17:38:32