勇闯机器学习(第二关-数据集使用)
以下内容,皆为原创,重在无私分享高质量知识,制作实属不易,请点点关注。
好戏开场了~~~(这关涉及到了加载数据集的代码,下一关,教你们安装机器学习库)
一.数据集
- 这一关的目标
- 知道数据集被分为训练集和测试集
- 会使用sklearn的数据集
1.可用数据集
scikit-learn网址:scikit-learn: machine learning in Python — scikit-learn 1.5.1 documentation
UCI网址:UCI Machine Learning Repository
Kaggle网址:Bohrium
- scikit-learn 数据量小,方便学习
- UCI 收录360个数据集,覆盖科技、生活、经济等领域,数据量几十万。
- Kaggle 大数据竞赛平台,真实数据,数据量巨大
如以下图所示,这个就是UCI机器学习的网站和scikit-learn机器学习的网站。
二.使用sclearn数据集
1.scikit-learn数据集API介绍
# 用sklearn中的datasets方法(sklearn.datasets)1.加载获取流行数据集2.datasets.load_*()获取小规模数据集,数据包含在datasets中3.datasets。fetch_*(data_home=None)获取大规模数据集,需要从网上下载,函数第一个参数是data_home,表示数据集下载的目录。你可以自己定义位置。C盘D盘都行
2.sklearn小数据集
加载并返回鸢尾花数据集。当然还有一个常见的波士顿房价数据集,但是
`load_boston` has been removed from scikit-learn since version 1.2.这个是我在加载波士顿房价数据集,出现的报错,所以要注意好自己的版本。
import sklearn
from sklearn.datasets import load_iris# Load the iris dataset
print(sklearn.datasets.load_iris())
这个就是我在jupyter notebook里,打印出来鸢尾花的数据集。
名称 | 数量 |
类别 | 3 |
特征 | 4 |
样本数量 | 150 |
每个类别数量 | 5 |
3.sklearn大数据集
加载大数据集,我们就要用fetch_*,用于加载大数据集。那个*指的是加载的数据集的名称。
3.1 sklearn数据集返回值介绍
load和fetch返回的数据类型datasets.base.Bunch(字典格式)
- data:特征数据数组
- target:目标数组(标签数组)
- DESCR:数据描述
- feature_names:特征名
- target_names:目标名(标签名)
from sklearn.datasets import load_iris
# 将加载的数据集传给iris变量
iris = load_iris()
print("鸢尾花的数据集:\n", iris)
print("查看鸢尾花的特征值:\n", iris["data"])
print("查看鸢尾花的目标值:\n", iris.target)
print("查看鸢尾花特征的名字:\n", iris.feature_names)
print("查看鸢尾花目标值的名字:\n", iris.target_names)
print("查看数据集描述:\n", iris["DESCR"])
字典的元素是键值对的形式,所以获取值的方式有两种:
dict['key'] = value
bunch.key = value
三.训练模型
思考:要不要用全部数据来训练一个模型??
内心独白:肯定不行啊,你要一部分来进行模型评估啊,看你的模型好不好。
所以数据集,分为训练集(用于训练,构建模型)和测试集(在模型核验时,用于评估模型是否有效)。
划分的标准(上下组合):
1.训练数据:70% 80% 75%
2.测试数据:30% 20% 30%
我们希望训练的模型好一点,所以让训练集多一点。
# 导入加载鸢尾花数据集的方法
from sklearn.datasets import load_iris
# 导入划分数据集的方法
from sklearn.model_selection import train_test_split# 加载鸢尾花数据
iris = load_iris()# 有了加载数据,才能划分数据集
# 这四个分别对应后面方法的四个返回值(训练集的特征值,测试集的特征值,训练集的目标值, 测试集的目标值)
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
print("训练集的特征值", x_train, x_train.shape)
四.懵笔时刻
在划分数据集时,那四个变量为什么这么命名?
不错,问得好。举个例子,在数学中,我们都是有X值去求Y值,那么Y就是我们的目标值。所以X就是数据集的特征值,Y就是数据集的目标值。后面方法里的参数test_size是测试集的大小,一般为float类型(20%,0.2,以此类推)。random_state是随机数种子,不同的种子造成不同的随机采样结果,相同的种子采样结果相同。
为什么要用四个变量,而不是三个或者五个变量?
因为那个方法就是返回的四个值啊,我能有什么办法!!what can I say?!!
return 训练集的特征值,测试集的特征值。训练集的目标值,测试集的目标值。
五.谢谢大家的观看,后续持续分享高质量内容~~~~
相关文章:
![](https://i-blog.csdnimg.cn/direct/ec33eaf8a0b248fc9cea77835cf9f344.jpeg)
勇闯机器学习(第二关-数据集使用)
以下内容,皆为原创,重在无私分享高质量知识,制作实属不易,请点点关注。 好戏开场了~~~(这关涉及到了加载数据集的代码,下一关,教你们安装机器学习库) 一.数据集 这一关的目标 知道数据集被分为训练集和测…...
![](https://i-blog.csdnimg.cn/direct/1ec3df83882747a0a450865c8f7665f8.jpeg#pic_center)
数据库学习(进阶)
数据库学习(进阶) Mysql结构:连接层:服务层(核心层):存储引擎层:系统文件层: 存储引擎(概述):存储引擎特点:InnoDB存储引擎:(为并发条…...
![](https://www.ngui.cc/images/no-images.jpg)
redis的数据结构——跳表(Skiplist)
跳表(Skiplist)是一种用于有序数据存储的高效数据结构,它在Redis中用于实现有序集合(Sorted Set,zset)的底层存储。当有序集合中的数据较多时,Redis会选择使用跳表来存储元素,以便在保持数据有序的同时提供高效的插入、删除、查找操作。 跳表的基本结构 跳表是一种多…...
![](https://www.ngui.cc/images/no-images.jpg)
Docker服务迁移
1 备份当前服务器上的 Docker 数据 1.1 停止 Docker 服务 为了确保数据一致性,在备份之前先停止 Docker 服务: sudo systemctl stop docker1.2 备份 Docker 数据 Docker 的数据通常位于 /var/lib/docker 目录。你可以使用 tar 命令将该目录压缩成一个…...
![](https://i-blog.csdnimg.cn/direct/1fd013dd677b41cda4a03df81c7de58b.jpeg)
机器学习:逻辑回归实现下采样和过采样
1、概述 逻辑回归本身是一种分类算法,它并不涉及下采样或过采样操作。然而,在处理不平衡数据集时,这些技术经常被用来改善模型的性能。下采样和过采样是两种常用的处理不平衡数据集的方法。 2、下采样 1、概念 下采样是通过减少数量较多的类…...
![](https://i-blog.csdnimg.cn/direct/6030a516e40f437b9ef057ff1bd7cdfc.png)
React原理之Fiber双缓冲
前置文章: React原理之 React 整体架构解读React原理之整体渲染流程React原理之Fiber详解 -----读懂这一篇需要对 React 整体架构和渲染流程有大致的概念 😊----- 在前面的文章中,简单介绍了 Fiber 架构,也了解了 Fiber 节点的…...
![](https://www.ngui.cc/images/no-images.jpg)
机器学习笔记三-检测异常值
检测异常值是数据预处理中非常重要的一步,因为异常值可能会影响模型的训练效果,甚至导致错误的结论。以下是几种常见的检测异常值的方法: 1. 箱线图(Box Plot): 箱线图是一种简单的统计图形,可…...
![](https://www.ngui.cc/images/no-images.jpg)
如何评估Redis的性能
导语 Redis是一款高性能的内存数据库,被广泛用于缓存、持久化、消息队列等各种场景。为了确保Redis的高性能运行,评估Redis的性能是非常重要的。本文将介绍如何评估Redis的性能,并从问题解决的角度探讨如何优化Redis的性能。 1. 性能评估指…...
![](https://i-blog.csdnimg.cn/direct/06a65db9bc6e4dc5a888dcda99cda190.png)
RabbitMQ发布订阅模式Publish/Subscribe详解
订阅模式Publish/Subscribe 基于API的方式1.使用AmqpAdmin定制消息发送组件2.消息发送者发送消息3.消息消费者接收消息 基于配置类的方式基于注解的方式总结 SpringBoot整合RabbitMQ中间件实现消息服务,主要围绕3个部分的工作进行展开:定制中间件、消息发…...
![](https://www.ngui.cc/images/no-images.jpg)
Android8.1源码下对APK进行系统签名
在Android8.1上面对APK进行Android系统源码环境下的签名,发现签名时出现如下错误: Exception in thread "main" java.lang.ExceptionInInitializerError at org.conscrypt.OpenSSLBIOInputStream.(OpenSSLBIOInputStream. at org.conscrypt.OpenSSLX509Certificat…...
![](https://www.ngui.cc/images/no-images.jpg)
2024年城市客运安全员考试题库及答案
一、单选题 376.根据《机动车运行安全技术条件》(GB7258---2017),每个应急出口应在其附近设有"应急出口"字样,字体高度应大于或等于()mm。 A.20 B.30 C.40 D.50 答案:C 377.根…...
![](https://i-blog.csdnimg.cn/direct/ade168f886de4e7eb41d58ec5fcd1b31.png)
全网最全面的Nginx内容(理论与实践相结合)
一、Web服务 1.1 web服务访问流程 1.2 Web服务 1.2.1 Web服务器分类 Web服务分为Apache和Nginx 1.2.2 Apache经典的Web服务器 1.2.2.1 Apache介绍 Apache HTTP Server(简称Apache)是Apache软件基金会的一个开放源码的网页服务器,可以…...
![](https://www.ngui.cc/images/no-images.jpg)
(七)Flink Watermark
Flink 的 Watermark 是用来标识数据流中的一个时间点。Watermark 的设计是为了解决乱序数据处理的问题,尤其是涉及到多个分区的 Kafka 消费者时。在 Watermark 的作用下,即使某些数据出现了延迟到达的情况,也不会导致整个处理流程的中断。此外,Watermark 还能防止过期的数据…...
![](https://www.ngui.cc/images/no-images.jpg)
springboot 上传文件失败:The temporary upload location
Caused by: java.io.IOException: The temporary upload location [/tmp/tomcat.379776875189163783.8081/work/Tomcat/localhost/jcys-core] is not valid 原因: Linux下会自动清除tmp目录下10天没有使用过的文件,SpringBoot启动的时候会在/tmp目录下生…...
![](https://i-blog.csdnimg.cn/direct/02da319aac394ee6895e40f3d5a2f085.png)
UNiapp之微信小程序导出Excel
效果如下 参考小程序:日常记一记 ---账单页面 主要功能是根据筛选条件导出账单明细列表,实现该功能主要借助一个工具(excel.js),可在文章顶部下载或者一下网盘下载 https://pan.baidu.com/s/1RLisuG4_7FGD0Cnwewyabg?pwdpd2a 提取码: pd2a…...
![](https://www.ngui.cc/images/no-images.jpg)
fsadsadsad
adsadsafsada...
![](https://i-blog.csdnimg.cn/direct/16ff564a63964d0daef603bd6a248a92.png)
高效录制新选择:2024年Windows录屏软件
录屏能帮助我们捕捉屏幕上的精彩瞬间,作为老师可以用来录制课程,作为会议记录员可以用来录制远程会议。那么有什么软件是适合windows录屏的呢?这次我们一起来探讨一下吧。 1.福昕录屏大师 链接:www.foxitsoftware.cn/REC/ 这款软…...
![](https://www.ngui.cc/images/no-images.jpg)
Java技术面试(一面)
1、相面对象 1、面相对象语言/Java三大特性是什么? 引出 封装、继承和多态。 2、多态有哪些形式?多态使用过吗? 重载、重写,接口和抽象类的多个实现。考察工作经验、代码重构经验、习惯。 3、Java接口和抽象类有什么区别?你是如何选择使用的? 考察OOP的理解和工作…...
![](https://www.ngui.cc/images/no-images.jpg)
docker修改数据目录
新建docker数据目录 mkdir /data/docker-data停止docker服务 systemctl stop docker把docker数据迁移到新目录 cp -r /var/lib/docker/* /data/docker-data/修改docker配置 vi /etc/docker/daemon.json #添加data-root参数 {"data-root":"/data/docker-dat...
![](https://www.ngui.cc/images/no-images.jpg)
Appium学习
一、基础配置 import unittest from appium import webdriver from appium.options.android import UiAutomator2Options from appium.webdriver.common.appiumby import AppiumBy from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support …...
![](https://img-blog.csdnimg.cn/img_convert/6afa128dc174faa15172370f5484b508.jpeg)
回顾 | 瑞云科技亮相ICIC2024,虚拟仿真实训云平台引关注
2024年8月7日,天津市虚拟仿真学会主办的第二十届智能计算国际会议(ICIC2024)——虚拟仿真技术交流平行会议暨天津市虚拟仿真学会2024年暑期技术交流会在天津盛大召开。本次大会汇聚来自全国的顶尖专家、学者和行业领袖,共同探讨虚…...
![](https://i-blog.csdnimg.cn/direct/c66c00ebd89f4e08af86d8338edbcfaa.png)
libLZMA库iOS18平台编译
1.下载xz源码: 使用autogen.sh生成configure文件 2.生成makefile rm -rf ./build/iOS && mkdir -p ./build/iOS && cd ./build/iOS && ../../configure --host=arm-apple-darwin64 --prefix=`pwd`/Frameworks/lzma CC="xcrun -sdk iphoneos cl…...
![](https://www.ngui.cc/images/no-images.jpg)
《AI办公类工具PPT系列之二——iSlide AI》
一.简介 官网:iSlide- 让PPT设计简单起来 | PPT模板下载平台 iSlide AI是一款基于人工智能技术的PPT制作工具,它可以帮助用户快速高效地创建演示文稿 二.功能介绍 1. AI一键生成PPT 文档导入与解析:用户可以直接上传本地文档(如Word、Markdown、思维导图等),iSlide A…...
![](https://i-blog.csdnimg.cn/direct/507ace58965143bbb936d439dbddfabb.png)
C语言基础(六)
一维数组: C语言中的数组是一种基本的数据结构,用于在计算机内存中连续存储相同类型的数据。 数组中的每个元素可以通过索引(或下标)来访问,索引通常是从0开始的。 数组的大小在声明时确定,并且之后不能改…...
![](https://img-blog.csdnimg.cn/direct/59b4a9db64e44ea781bfdc2774f1c0ba.png)
什么是词向量?如何得到词向量?Embedding 快速解读
我第一次接触 Embedding 是在 Word2Vec 时期,那时候还没有 Transformer 和 BERT 。Embedding 给我的印象是,可以将词映射成一个数值向量,而且语义相近的词,在向量空间上具有相似的位置。 有了 Embedding ,就可以对词进…...
![](https://i-blog.csdnimg.cn/direct/6ef47933e8cb440cac71e9e020238af0.png)
AI视频创作应用
重磅推荐专栏: 《大模型AIGC》 《课程大纲》 《知识星球》 本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深入的技术解析和实践经…...
![](https://www.ngui.cc/images/no-images.jpg)
JAVA常见的工具类之Object类(超详细)
1、Java API简介 Java API(Java Application Programming Interface)是Java应用程序编程接口的缩写。Java中的API,就是JDK提供的具有各种功能的Java类,灵活使用Java API能够大大提高使用Java语言编写程序的效率。 Java API的帮助文档可到 http://docs.or…...
![](https://i-blog.csdnimg.cn/direct/bdd7bb5edbb3490cac82740bad960027.png)
深度学习(YOLO、DETR) 十折交叉验证
二:交叉验证 在 K 折验证之前最常用的验证方法就是交叉验证,即把数据划分为训练集、验证集和测试集。一般的划分比例为 7:1:2。但如何合理的抽取样本就成为了使用交叉验证的难点,不同的抽取方法会导致截然不同的训练性…...
![](https://i-blog.csdnimg.cn/direct/bc7ba96475e1494da15faa06cd887b8b.png)
基于php网上差旅费报销系统设计与实现
网上报销系统以LAMP(LinuxApacheMySQLPHP)作为平台,涉及到PHP语言、MySQL数据库、JavaScript语言、HTML语言。 2.1 PHP语言简介 PHP,一个嵌套的缩写名称,是英文 “超级文本预处理语言”(PHP: Hypertext Preprocessor)的缩写。P…...
![](https://i-blog.csdnimg.cn/direct/12d9dcb04dad43aea9ba1ff0e9fa3f77.png)
微服务及安全
一、微服务的原理 1.什么是微服务架构 微服务架构区别于传统的单体软件架构,是一种为了适应当前互联网后台服务的「三高需求:高并发、高性能、高可用」而产生的的软件架构。 单体式应用程序 与微服务相对的另一个概念是传统的单体式应用程序( Monolithic application ),…...
![](/images/no-images.jpg)
郑州响应式网站制作/百度首页百度一下
Xamarin基础命名空间Microsoft.SqlServer.Server 该命名空间包含大量的类、接口和枚举,用于操作微软SQL Server数据库。该空间支持Xamarin.iOS和Xamarin.Android,不支持WinPhone和Forms。在使用的时候,需要先引入System.Data.dll。转载于:htt…...
![](/images/no-images.jpg)
做拍福利爱福利视频网站/百度短链接在线生成
SRC parquet是apache的开源项目,一个压缩格式。 parquet的数据自带表结构,所以需要创建schema对象。schema对象可以是spark中df的StructType,也可以是parquet官方提供的api usage 可以通过sql的形式读取parquet文件创建df al df ss.sql(…...
![](https://images.cnblogs.com/cnblogs_com/gnielee/WindowsLiveWriter/Office2007_D316/regedit_thumb.png)
如何在服务器上搭建网站/免费网页制作网站
当点击邮件中附件时,Outlook可以对附件进行预览(如下图),如果将“Always warn before previewing this type of file”选项点掉后,每次预览该类型文件时则不再提示,大大方便了预览效果。 可是有时又需要Out…...
![](https://img-blog.csdnimg.cn/img_convert/5b691368bf41a9ad8284bbbf01d6d4a6.png)
徐州网站关键词排名/广州网站快速优化排名
“最遥远的距离,也抵挡不了听同一首歌。”还记得之前给大家分享的网易云音乐7.1.8内测嘛?想必大家对网易云音乐7.1.8里面的我的耳机分你一半情有独钟,那么前几天正式版也更新了,但是好像内有加入一起听的功能!近日&…...
![](/images/no-images.jpg)
网站如何做搜索/西安网络seo公司
随着软件开发日趋国际化,对软件的质量要求和管理也随之增高。微软看到了应用程序生命周期管理在业界逐渐被接受认可的趋势。在微软VS2010(Visual Studio 2010 Ultimate)中,可以利用各种工具辅助每个关键环节进行管理(A…...
大学生做网站兼职/免费seo快速排名工具
一、问题: cmd输入javac显示不是内部或外部文件,如下图 二、解决方法: 我搜了网上的方法,重启cmd,并无卵用。 然后有说环境变量里系统变量的JAVA_HOME,CLASSPATH设置错误的。我检查了一遍也没有问题。 还有说什…...