当前位置：首页 > news >正文

使用Scikit Learn 进行识别手写数字

news 文章来源：https://blog.csdn.net/AOAIYI/article/details/135453033 2025/4/27 0:45:48

在这里插入图片描述

使用Scikit Learn 进行识别手写数字

作者：i阿极

作者简介：数据分析领域优质创作者、多项比赛获奖者：博主个人首页

😊😊😊如果觉得文章不错或能帮助到你学习，可以点赞👍收藏📁评论📒+关注哦！👍👍👍

📜📜📜如果有小伙伴需要数据集和学习交流，文章下方有交流学习区！一起学习进步！💪

大家好，我i阿极。喜欢本专栏的小伙伴，请多多支持

专栏案例：机器学习案例
机器学习(一)：线性回归之最小二乘法
机器学习(二)：线性回归之梯度下降法
机器学习(三)：基于线性回归对波士顿房价预测
机器学习(四)：基于KNN算法对鸢尾花类别进行分类预测
机器学习(五)：基于KNN模型对高炉发电量进行回归预测分析
机器学习(六)：基于高斯贝叶斯对面部皮肤进行预测分析
机器学习(七)：基于多项式贝叶斯对蘑菇毒性分类预测分析
机器学习(八)：基于PCA对人脸识别数据降维并建立KNN模型检验
机器学习(十四)：基于逻辑回归对超市销售活动预测分析
机器学习(十五)：基于神经网络对用户评论情感分析预测
机器学习(十六)：线性回归分析女性身高与体重之间的关系
机器学习(十七)：基于支持向量机（SVM）进行人脸识别预测
机器学习(十八)：基于逻辑回归对优惠券使用情况预测分析
机器学习(十九）：基于逻辑回归对某银行客户违约预测分析
机器学习(二十)：LightGBM算法原理（附案例实战）
机器学习(二十一)：基于朴素贝叶斯对花瓣花萼的宽度和长度分类预测
机器学习(二十二)：基于逻辑回归（Logistic Regression）对股票客户流失预测分析

文章目录

使用Scikit Learn 进行识别手写数字
1、前言
2、导入库和数据集
3、打印一组图像的功能
4、使用数据集训练神经网络
5、用于训练和测试的数据分割
6、模型评估

1、前言

Scikit learn 是机器学习社区中使用最广泛的机器学习库之一，其背后的原因是代码的简便性以及机器学习开发人员构建机器学习模型所需的几乎所有功能的可用性。在本文中，我们将学习如何使用 sklearn 在手写数字数据集上训练 MLP 模型。其他一些好处是：

1、它提供分类、回归和聚类算法，例如SVM算法、随机森林、梯度提升和k 均值。
2、它还设计用于与Python 的科学和数值库NumPy和SciPy一起运行。

2、导入库和数据集

首先，让我们导入模型所需的库并加载数据集数字。

# importing the hand written digit dataset
from sklearn import datasets# digit contain the dataset
digits = datasets.load_digits()# dir function use to display the attributes of the dataset
dir(digits)

结果：

['DESCR', 'data', 'feature_names', 'frame', 'images', 'target', 'target_names']

3、打印一组图像的功能

将图片值输出为一系列数字

print(digits.images[0])

在这里插入图片描述

原始数字具有更高的分辨率，并且在为 scikit-learn 准备数据集时降低了分辨率，以便训练机器学习系统更轻松、更快地识别这些数字。因为在如此低的分辨率下，即使是人类也很难识别某些数字。输入照片的低质量也会限制我们在这些设置中的神经网络。

# importing the matplotlib libraries pyplot function
import matplotlib.pyplot as plt
# defining the function plot_multidef plot_multi(i):nplots = 16fig = plt.figure(figsize=(15, 15))for j in range(nplots):plt.subplot(4, 4, j+1)plt.imshow(digits.images[i+j], cmap='binary')plt.title(digits.target[i+j])plt.axis('off')# printing the each digits in the dataset.plt.show()
plot_multi(0)

在这里插入图片描述

4、使用数据集训练神经网络

神经网络是一组算法，尝试使用类似于人脑工作方式的技术来识别一批数据中的潜在关系。在这种情况下，神经网络是神经元系统，本质上可能是有机的或人造的。

输入层由 64 个节点组成，每个节点对应输入图片中的每个像素。它们只是将输入值发送到下一层的神经元。
这是一个密集的神经网络，这意味着每层中的每个节点都链接到前一层和后一层中的所有节点。

输入层需要一维数组，而图像数据集是二维的。结果，发生了扁平化所有图像的过程：


# converting the 2 dimensional array to one dimensional array
y = digits.target
x = digits.images.reshape((len(digits.images), -1))# gives the  shape of the data
x.shape

输出：

(1797, 64)

# printing the one-dimensional array's values
x[0]

在这里插入图片描述

5、用于训练和测试的数据分割

当机器学习算法用于根据未用于训练模型的数据进行预测时，将使用训练-测试分割过程来衡量其性能。

这是一种快速而简单的技术，可让您针对预测建模挑战比较机器学习算法的性能。

# Very first 1000 photographs and
# labels will be used in training.
x_train = x[:1000]
y_train = y[:1000]# The leftover dataset will be utilised to
# test the network's performance later on.
x_test = x[1000:]
y_test = y[1000:]

多层感知器分类器的使用

# importing the MLP classifier from sklearn
from sklearn.neural_network import MLPClassifier# calling the MLP classifier with specific parameters
mlp = MLPClassifier(hidden_layer_sizes=(15,),activation='logistic',alpha=1e-4, solver='sgd',tol=1e-4, random_state=1,learning_rate_init=.1,verbose=True)

现在是时候在训练数据上训练我们的 MLP 模型了。

mlp.fit(x_train, y_train)

在这里插入图片描述
上图显示了 MLPClassifier 及其各自配置的最后 5 个 epoch 的损失。

将结果可视化

fig, axes = plt.subplots(1, 1)
axes.plot(mlp.loss_curve_, 'o-')
axes.set_xlabel("number of iteration")
axes.set_ylabel("loss")
plt.show()

在这里插入图片描述

6、模型评估

现在让我们使用识别数据集或它刚刚记住的数据集来检查模型的性能。我们将使用剩余的测试数据来完成此操作，以便我们可以检查模型是否已经学习了数字中的实际模式。

predictions = mlp.predict(x_test)
predictions[:50]

在这里插入图片描述
但真实标签或者我们可以说真实标签如下所示。

y_test[:50]

在这里插入图片描述

因此，通过使用预测标签和真实标签，我们可以找到模型的准确性。

# importing the accuracy_score from the sklearn
from sklearn.metrics import accuracy_score# calculating the accuracy with y_test and predictions
accuracy_score(y_test, predictions)

输出：

0.9146800501882058

📢文章下方有交流学习区！一起学习进步！💪💪💪
📢首发CSDN博客，创作不易，如果觉得文章不错，可以点赞👍收藏📁评论📒
📢你的支持和鼓励是我创作的动力❗❗❗

使用Scikit Learn 进行识别手写数字

使用Scikit Learn 进行识别手写数字作者：i阿极作者简介：数据分析领域优质创作者、多项比赛获奖者：博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习，可以点赞👍收藏&#x1f…...

编程日记 2024/1/11 2:27:21

GB/T 15036-2018 实木地板检测

实木地板是指未经拼接、覆贴的单块木材直接加工而成的地板，实木地板具有脚感舒适，环保等优良的性能，在家庭装修中被广泛使用，尤其是在国内很受欢迎。 GB/T 15036-2018 实木地板测试介绍： 测试项目测试方法外观 G…...

编程日记 2024/1/11 2:25:17

基于ElementUI封装的下拉树选择可搜索单选多选清空功能

效果： 组件代码 /*** 树形下拉选择组件，下拉框展示树形结构，提供选择某节点功能，方便其他模块调用* author wy* date 2024-01-03 * 调用示例：* <tree-select * :height"400" // 下拉框中树形高度* …...

编程日记 2024/1/11 2:24:15

计算机网络-各层协议

大家在搞嵌入式开发的时候基本都了解过七层网络协议、五层网络协议、四层网络协议，那么今天让我们更加的深入了解一下： 历史发展介绍 OSI七层模型由ISO国际标准化组织提出的通信标准。TCP/IP四层模型是OSI七层模型的简化版，OSI在它被官方完…...

编程日记 2024/1/11 2:23:14

LeetCode 84：柱状图中的最大矩形

一、题目描述给定 n 个非负整数，用来表示柱状图中各个柱子的高度。每个柱子彼此相邻，且宽度为 1 。求在该柱状图中，能够勾勒出来的矩形的最大面积。示例 1: 输入：heights [2,1,5,6,2,3] 输出：10 解释&#xff1a…...

编程日记 2024/1/11 2:22:13

老生重谈：大模型的「幻觉」问题

一、什么是大模型「幻觉」大模型的幻觉问题通常指的是模型在处理输入时可能会产生一些看似合理但实际上是错误的输出，这可能是因为模型在训练时过度拟合了训练数据，导致对噪声或特定样本的过度敏感。 "大数据幻觉"指的是在处理大规模数据时…...

编程日记 2024/1/11 2:19:09

golang实现skiplist 跳表

跳表 package mainimport ("errors""math""math/rand" )func main() {// 双向链表///**先理解查找过程Level 3: 1 6Level 2: 1 3 6Level 1: 1 2 3 4 6比如查找2 ; 从高层往下找;如果查找的值比当前值小说明没有可查找的值2比1大往当前…...

编程日记 2024/1/11 2:18:07

尝试OmniverseFarm的最基础操作

目标尝试OmniverseFarm的最基础操作。本地机器作为Queue和Agent，同时在本地提交任务。主要参考了官方文档： Farm Queue — Omniverse Farm latest documentation Farm Agent — Omniverse Farm latest documentation Farm Examples — Omniverse Far…...

编程日记 2024/1/11 2:17:06

第28关 k8s监控实战之Prometheus(二)

------> 课程视频同步分享在今日头条和B站大家好，我是博哥爱运维。这节课我们用prometheus-operator来安装整套prometheus服务 https://github.com/prometheus-operator/kube-prometheus/releases 开始安装 1. 解压下载的代码包 wget https://github.com/…...

编程日记 2024/1/11 2:16:04

基于 SpringBoot + magic-api + Vue3 + Element Plus + amis3.0 快速开发管理系统

Tansci-Boot 基于 SpringBoot2 magic-api Vue3 Element Plus amis3.0 快速开发管理系统 Tansci-Boot 是一个前后端分离后台管理系统， 前端集成 amis 低代码前端框架，后端集成 magic-api 的接口快速开发框架。包含基础权限、安全认证、以及常用的一…...

编程日记 2024/1/11 2:15:03

目录 1 配置Broker1.1 Broker的配置broker.id0listererszookeeper.connectlog.dirslog.dir/tmp/kafka-logsnum.recovery.threads.per.data.dir1auto.create.topics.enabletrueauto.leader.rebalance.enabletrue, leader.imbalance.check.interval.seconds300, leader.imbalance…...

编程日记 2024/1/11 2:14:03

代码随想录第五十二天——最长递增子序列，最长连续递增序列，最长重复子数组

leetcode 300. 最长递增子序列题目链接：最长递增子序列 dp数组及下标的含义 dp[i]表示i之前包括i的以nums[i]结尾的最长递增子序列的长度递推公式位置i的最长升序子序列等于j从0到i-1各个位置的最长升序子序列 1 的最大值所以if (nums[i] > nums[j]) dp[i]…...

编程日记 2024/1/11 2:11:00

【大数据架构】OLAP实时分析引擎选型

OLAP引擎面临的挑战常见OLAP引擎对比 OLAP分析场景中，一般认为QPS达到1000就算高并发，而不是像电商、抢红包等业务场景中，10W以上才算高并发，毕竟数据分析场景，数据海量，计算复杂，QPS能够达到1…...

编程日记 2024/1/11 2:08:58

代码随想录刷题题Day29

刷题的第二十九天，希望自己能够不断坚持下去，迎来蜕变。😀😀😀 刷题语言：C Day29 任务 ● 01背包问题，你该了解这些！ ● 01背包问题，你该了解这些！ 滚动数组 …...

编程日记 2024/1/11 2:07:57

CVE-2023-51385 OpenSSH ProxyCommand命令注入漏洞

一、背景介绍 ProxyCommand 是 OpenSSH ssh_config 文件中的一个配置选项，它允许通过代理服务器建立 SSH 连接，从而在没有直接网络访问权限的情况下访问目标服务器。这对于需要经过跳板机、堡垒机或代理服务器才能访问的目标主机非常有用。二、漏洞简…...

编程日记 2024/1/11 2:05:55

如何寻找到相对完整的真正的游戏的源码用来学习？

在游戏开发的学习之路上，理论与实践是并重的两个方面。对于许多热衷于游戏开发的学习者来说，能够接触到真实的、完整的游戏源码无疑是一个极好的学习机会。但问题来了：我们该如何寻找到这些珍贵的资源呢？ 开源游戏项目 GitHub:地…...

编程日记 2024/1/11 2:00:51

数模学习day11-系统聚类法

本文参考辽宁石油化工大学于晶贤教授的演示文档聚类分析之系统聚类法及其SPSS实现。目录 1.样品与样品间的距离 2.指标和指标间的“距离” 相关系数夹角余弦 3.类与类间的距离 （1）类间距离 （2）类间距离定义方式 1.最短…...

编程日记 2024/1/11 1:59:50

SpringBoot+Redis实现接口防刷功能

场景描述： 在实际开发中，当前端请求后台时，如果后端处理比较慢，但是用户是不知情的，此时后端仍在处理，但是前端用户以为没点到，那么再次点击又发起请求，就会导致在短时间内有很多请求…...

编程日记 2024/1/11 1:56:47

TensorRT加速推理入门-1：Pytorch转ONNX

这篇文章，用于记录将TransReID的pytorch模型转换为onnx的学习过程，期间参考和学习了许多大佬编写的博客，在参考文章这一章节中都已列出，非常感谢。 1. 在pytorch下使用ONNX主要步骤 1.1. 环境准备安装onnxruntime包安装教程可…...

编程日记 2024/1/11 1:53:44

springboot常用扩展点

当涉及到Spring Boot的扩展和自定义时，Spring Boot提供了一些扩展点，使开发人员可以根据自己的需求轻松地扩展和定制Spring Boot的行为。本篇博客将介绍几个常用的Spring Boot扩展点，并提供相应的代码示例。 1. 自定义Starter(面试常问) Sp…...

编程日记 2024/1/11 1:51:41

19道ElasticSearch面试题（很全）

点击下载《19道ElasticSearch面试题（很全）》 1. elasticsearch的一些调优手段 1、设计阶段调优 （1）根据业务增量需求，采取基于日期模板创建索引，通过 roll over API 滚动索引； （…...

编程日记 2024/1/11 1:48:37

向爬虫而生---Redis 拓宽篇3 ＜GEO模块＞

前言: 继上一章: 向爬虫而生---Redis 拓宽篇2 ＜Pub/Sub发布订阅＞-CSDN博客这一章的用处其实不是特别大,主要是针对一些地图和距离业务的;就是Redis的GEO模块。 GEO模块是Redis提供的一种高效的地理位置数据管理方案，它允许我们存储和查询…...

编程日记 2024/1/11 1:45:35

Vue项目里实现json对象转formData数据

平常调用后端接口传参都是json对象，当提交表单遇到有附件需要传递时，通常是把附件上传单独做个接口，也有遇到后端让提交接口一并把附件传递到后端，这种情况需要把参数转成formData的数据，需要用到new FormData()。json…...

编程日记 2024/1/11 1:42:33

leetcode刷题记录

栈 2696. 删除子串后的字符串最小长度哈希表 1. 两数之和用map来保存每个数和他的索引 383. 赎金信用map来存储字符的个数链表 2. 两数相加指针的移动动态规划 53. 最大子数组和 2707. 字符串中的额外字符递归 101. 对称二叉树数学 1276. 不浪费原料的汉堡…...

编程日记 2024/1/11 1:40:31

SpringMVC通用后台管理系统源码

整体的SSM后台管理框架功能已经初具雏形，前端界面风格采用了结构简单、性能优良、页面美观大的Layui页面展示框架数据库支持了SQLserver,只需修改配置文件即可实现数据库之间的转换。系统工具中加入了定时任务管理和cron生成器，轻松实现系统调度问…...

编程日记 2024/1/11 1:39:30

深度解析Dubbo的基本应用与高级应用：负载均衡、服务超时、集群容错、服务降级、本地存根、本地伪装、参数回调等关键技术详解

负载均衡官网地址： http://dubbo.apache.org/zh/docs/v2.7/user/examples/loadbalance/ 如果在消费端和服务端都配置了负载均衡策略， 以消费端为准。这其中比较难理解的就是最少活跃调用数是如何进行统计的？ 讲道理， 最少活跃数…...

编程日记 2024/1/11 1:38:29

备战2024美赛数学建模，文末获取历史优秀论文

总说（历年美赛优秀论文可获取） 数模的题型千变万化，我今天想讲的主要是一些「画图」、「建模」、「写作」和「论文结构」的思路，这些往往是美赛阅卷官最看重的点，突破了这些点，才能真正让你的美赛论文更上…...

编程日记 2024/1/11 1:36:27

Java加密解密大全（MD5、RSA）

目录一、MD5加密二、RSA加解密(公加私解，私加公解)三、RSA私钥加密四、RSA私钥加密PKCS1Padding模式一、MD5加密密文形式：5eb63bbbe01eeed093cb22bb8f5acdc3 import java.math.BigInteger; import java.security.MessageDigest; import java.security…...

编程日记 2024/1/11 1:34:26

C语言程序设计考试掌握这些题妥妥拿绩点（写给即将C语言考试的小猿猴们）

目录开篇说两句1. 水仙花数题目描述分析代码示例 2. 斐波那契数列题目描述分析代码示例 3. 猴子吃桃问题题目描述分析代码示例 4. 物体自由落地题目描述分析代码示例 5. 矩阵对角线元素之和题目描述分析代码示例 6. 求素数题目描述分析代码示例 7. 最大公约数和最小公倍数题目…...

编程日记 2024/1/11 1:33:24

编译ZLMediaKit（win10+msvc2019_x64)

前言因工作需要，需要ZLMediaKit，为方便抓包分析，最好在windows系统上测试，但使用自己编译的第三方库一直出问题，无法编译通过。本文档记录下win10上的编译过程，供有需要的小伙伴使用一、需要安装的软件…...

编程日记 2024/1/11 1:30:20

使用Scikit Learn 进行识别手写数字

使用Scikit Learn 进行识别手写数字

文章目录

1、前言

2、导入库和数据集

3、打印一组图像的功能

4、使用数据集训练神经网络

5、用于训练和测试的数据分割

6、模型评估

相关文章：

使用Scikit Learn 进行识别手写数字

GB/T 15036-2018 实木地板检测

基于ElementUI封装的下拉树选择可搜索单选多选清空功能

计算机网络-各层协议

LeetCode 84：柱状图中的最大矩形

老生重谈：大模型的「幻觉」问题

golang实现skiplist 跳表

尝试OmniverseFarm的最基础操作

第28关 k8s监控实战之Prometheus(二)

基于 SpringBoot + magic-api + Vue3 + Element Plus + amis3.0 快速开发管理系统

Kafka（四）Broker

代码随想录第五十二天——最长递增子序列，最长连续递增序列，最长重复子数组

【大数据架构】OLAP实时分析引擎选型

代码随想录刷题题Day29

CVE-2023-51385 OpenSSH ProxyCommand命令注入漏洞

如何寻找到相对完整的真正的游戏的源码用来学习？

数模学习day11-系统聚类法

SpringBoot+Redis实现接口防刷功能

TensorRT加速推理入门-1：Pytorch转ONNX

springboot常用扩展点

19道ElasticSearch面试题（很全）

向爬虫而生---Redis 拓宽篇3 ＜GEO模块＞

Vue项目里实现json对象转formData数据

leetcode刷题记录

SpringMVC通用后台管理系统源码

深度解析Dubbo的基本应用与高级应用：负载均衡、服务超时、集群容错、服务降级、本地存根、本地伪装、参数回调等关键技术详解

备战2024美赛数学建模，文末获取历史优秀论文

Java加密解密大全（MD5、RSA）

C语言程序设计考试掌握这些题妥妥拿绩点（写给即将C语言考试的小猿猴们）

编译ZLMediaKit（win10+msvc2019_x64)