当前位置: 首页 > news >正文

sklearn中常用数据集简介

scikit-learn库中提供了包括分类、回归、聚类、降维等多种机器学习任务所需的常用数据集,方便进行实验和研究,它们主要被封装在sklearn.datasets中,本文对其中一些常用的数据集进行简单的介绍。

1.Iris(鸢尾花)数据集

该数据集包含150个鸢尾花样本,分为3个品种,每个品种50个样本。每个样本包含4个特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度。目的是使用这4个特征来对鸢尾花进行分类。scikit-learn中该数据集主要封装在sklearn.datasets.load_iris()中,使用方法如下:

from sklearn.datasets import load_iris# 加载数据集
iris = load_iris()# 打印数据集的描述
print(iris.DESCR)# 打印特征名
print(iris.feature_names)# 打印标签类别
print(iris.target_names)# 获取特征矩阵和目标向量
X = iris.data
y = iris.target

在上面的代码中,load_iris() 方法返回一个包含Iris数据集的对象 iris 。可以通过 iris.DESCR、iris.feature_names、iris.target_names 属性打印出数据集的描述、特征名、标签类别。然后,我们可以使用 iris.data 属性获取特征矩阵,使用 iris.target 属性获取标签向量。特征矩阵 X 是一个包含150个样本和4个特征的二维数组,目标向量 y 是一个包含150个元素的一维数组,每个元素表示对应样本的类别。

2.Wine(葡萄酒)数据集

Wine数据集也是一个分类问题的数据集,包含了三个葡萄酒品种(class)的13种化学特征,一共有178个样本。这个数据集是由美国加州大学欧文分校(UCI)提供的,最初是为了研究酒的化学成分和葡萄酒品种之间的关系而构建的。

Wine数据集中的三个葡萄酒品种分别是:

  • Class 1: 59个样本

  • Class 2: 71个样本

  • Class 3: 48个样本

13个化学特征分别是:

  • Alcohol(酒精)

  • Malic acid(苹果酸)

  • Ash(灰分)

  • Alcalinity of ash(灰的碱度)

  • Magnesium(镁)

  • Total phenols(总酚类化合物)

  • Flavanoids(类黄酮)

  • Nonflavanoid phenols(非类黄酮酚)

  • Proanthocyanins(原花青素)

  • Color intensity(颜色强度)

  • Hue(色调)

  • OD280/OD315 of diluted wines(稀释葡萄酒的OD280/OD315比值)

  • Proline(脯氨酸)

Wine数据集使用方法和鸢尾花数据集是类似的:

from sklearn.datasets import load_winewine = load_wine()
X, y = wine.data, wine.target

其中,X代表数据集中的13个特征,y代表数据集中的三个葡萄酒品种(class)。

3.Boston(波士顿房价)数据集

Boston数据集则是一个回归问题的经典数据集,包含了美国波士顿地区房屋的14个特征,一共有506个样本。这个数据集同样是由美国加州大学欧文分校(UCI)提供的,我们通常用来研究房屋价格和房屋特征之间的关系。

Boston数据集中的14个特征分别是:

  • CRIM:城镇人均犯罪率

  • ZN:占地面积超过25000平方英尺的住宅用地比例

  • INDUS:城镇非零售业务占地面积的比例

  • CHAS:查尔斯河虚拟变量(如果河流边界,则为1;否则为0)

  • NOX:一氧化氮浓度(每千万分之一)

  • RM:住宅平均房间数

  • AGE:1940年之前建造的自用房屋的比例

  • DIS:到波士顿五个就业中心的加权距离

  • RAD:放射性公路的可达性指数

  • TAX:每10,000美元的全值财产税率

  • PTRATIO:城镇师生比例

  • B:1000(Bk - 0.63)^ 2其中Bk是城镇黑人的比例

  • LSTAT:人口中地位低下者的百分比

  • MEDV:自住房屋房价中位数,以千美元计

该数据集使用方法如下:

from sklearn.datasets import load_bostonboston = load_boston()
X, y = boston.data, boston.target

其中,X代表数据集中的14个特征,y代表数据集中的自住房屋房价中位数的目标变量。

4.digits(手写数字)数据集

Digits数据集是一个手写数字识别数据集,它包含了1797张8x8像素的数字图像。每张图像都被转换为64维的特征向量,每个特征表示图像中的一个像素点。每张图像都被标记为0到9中的一个数字,表示图像所代表的数字。这个数据集非常适合用于机器学习中的图像分类问题。

在sklearn中,Digits数据集可以通过以下代码进行加载:

from sklearn.datasets import load_digitsdigits = load_digits()

按上述步骤执行完之后,digits对象同样包含两个主要属性:data和target。digits.data保存的是特征矩阵,它是一个1797x64的数组,每一行代表一张图像的特征向量。标签保存在digits.target中,它是一个长度为1797的一维数组,每个元素代表相应图像的数字标签。我们使用类似的方法可以导出特征和标签:

X, y = boston.data, boston.target

相关文章:

sklearn中常用数据集简介

scikit-learn库中提供了包括分类、回归、聚类、降维等多种机器学习任务所需的常用数据集,方便进行实验和研究,它们主要被封装在sklearn.datasets中,本文对其中一些常用的数据集进行简单的介绍。 1.Iris(鸢尾花)数据集…...

机器学习在教育方面的应用文献综述

引言 随着大数据时代的到来,机器学习作为人工智能的一个重要分支,在教育领域展现出广泛的应用前景。本文综述了机器学习技术在教育领域的应用,包括个性化学习、智能评估、知识图谱构建等多个方面。 个性化学习 个性化学习是机器学习…...

滑动窗口最大值(java)

题目描述 给你一个整数数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回 滑动窗口中的最大值 。 示例 1: 输入:nums [1,3,-1,-3,5,3,6,7]…...

sklearn学习

介绍:scaler:换算的意思 1. 归一化MinMaxScaler() 归一化的意思是将一堆数,如果比较离散,为了让数据更适合模型训练,将离散的数据压缩到0到1之间,以方便模型更高效优质的学习,而对数据的预处理…...

Ubuntu下手动设置Nvidia显卡风扇转速

在Ubuntu下,您可以使用 NVIDIA显卡驱动程序提供的工具手动调整风扇转速。以下是详细步骤: 1. 确保已安装NVIDIA显卡驱动 确保系统已经安装了正确的NVIDIA驱动: nvidia-smi如果没有输出驱动信息,请先安装驱动: sudo…...

Java-06 深入浅出 MyBatis - 一对一模型 SqlMapConfig 与 Mapper 详细讲解测试

点一下关注吧!!!非常感谢!!持续更新!!! 大数据篇正在更新!https://blog.csdn.net/w776341482/category_12713819.html 目前已经更新到了: MyBatis&#xff…...

ES 和Kibana-v2 带用户登录验证

1. 前言 ElasticSearch、可视化操作工具Kibana。如果你是Linux centos系统的话,下面的指令可以一路CV完成服务的部署。 2. 服务搭建 2.1. 部署ElasticSearch 拉取docker镜像 docker pull elasticsearch:7.17.21 创建挂载卷目录 mkdir /**/es-data -p mkdir /**/…...

CodeIgniter如何手动将模型连接到数据库

在CodeIgniter中,模型通常是自动与数据库连接的,因为模型类(CI_Model)已经内置了对数据库操作的支持。但是,如果你需要手动指定数据库连接或者进行一些特殊的数据库配置,你可以通过几种方式来实现。 1. 使…...

商用密码应用安全性评估,密评整体方案,密评管理测评要求和指南,运维文档,软件项目安全设计相关文档合集(Word原件)

一、 密码应用安全性评估方案 (一) 密码应用测评工作思路 1.1.1. 测评准备活动的主要任务 1.1.2. 测评准备活动的输出文档 1.2. 方案编制活动 1.2.1. 方案编制活动的主要任务 1.2.2. 方案编制活动的输出文档 1.3. 现场预评估活动 1.3.1. 现场测评…...

AI赋能电商:构建高效、智能化的新零售生态

随着人工智能(AI)技术的不断进步,其在电商领域的应用日益广泛,从购物推荐到供应链管理,再到商品定价,AI正在全面改变传统电商的运营模式,并推动行业向智能化和精细化方向发展。本文将探讨如何利…...

【GAMES101笔记速查——Lecture 19 Cameras,Lenses and Light Fields】

本章节内容:相机、棱镜、光场 计算机图形学的两种成像方法: 1.合成方法:光栅化、光线追踪(展示出现实没有的东西) 2.捕捉方法:相机(捕捉现实已有的东西) 目录 1 相机 1.1 针孔相…...

虚拟机上搭建达梦DSC简略步骤

vmware 17 centos 7.6 达梦 dm8_20240920_x86_rh7_64.iso cd /d C:\Program Files (x86)\VMware\VMware Workstation\.\vmware-vdiskmanager.exe -c -s 100MB -a lsilogic -t 2 "F:\vm\dmdsc\sharedisk\share-dcr.vmdk" .\vmware-vdiskmanager.exe -c -s 100MB -a l…...

Python和R荧光分光光度法

🌵Python片段 Python在处理荧光分光光度法数据方面非常强大,得益于其丰富的数据处理和可视化库,可以轻松实现从数据读取到分析的完整流程。荧光分光光度法用于测量物质在激发光照射下发出的荧光强度,常用于定量分析和特性研究。 …...

电子学习中的关键游戏化元素

游戏化彻底改变了电子学习领域,提供了一种使学习具有吸引力、互动性和有效性的方法。通过将类似游戏的功能集成到教育平台中,教育工作者可以增强动力,提高知识记忆,并创造动态的学习体验。游戏化的关键要素为设计与学习者产生共鸣…...

算法日记 33 day 动态规划(打家劫舍,股票买卖)

今天来看看动态规划的打家劫舍和买卖股票的问题。 上题目!!!! 题目:打家劫舍 198. 打家劫舍 - 力扣(LeetCode) 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金…...

JavaScript的let、var、const

这张图片主要介绍了JavaScript中的三种变量声明方式:let、var和const。 1. let 含义:let是现在实际开发中常用的变量声明方式。特点: 块级作用域:let声明的变量只在其所在的块级作用域内有效。例如:{let x 10; } co…...

C语言-数学基础问题

一.奇数、偶数问题 1.从键盘上输入一个整数,判断并输出它是奇数还是偶数。 //从键盘上输入一个整数,判断并输出它是奇数还是偶数。 main() {int i;printf("输入一个整数:\n");scanf("%d",&i);if(i%20)printf("它是偶数\n…...

解决单元测试时找不到类名

场景: springboot单元测试mockito对mapper进行mock时: tk.mybatis.mapper.mapperexception: 无法获取实体类 XX.xx 对应的表名 分析: 使用了一个方法:Example examplenew Example(User.class); 进入源码后发现Entityhelper没…...

从零开始-VitePress 构建个人博客上传GitHub自动构建访问

从零开始-VitePress 构建个人博客上传GitHub自动构建访问 序言 VitePress 官网:VitePress 中文版 1. 什么是 VitePress VitePress 是一个静态站点生成器 (SSG),专为构建快速、以内容为中心的站点而设计。简而言之,VitePress 获取用 Markdown…...

【案例学习】如何使用Minitab实现包装过程的自动化和改进

Masimo 是一家全球性的医疗技术公司,致力于开发和生产各种行业领先的监控技术,包括创新的测量、传感器和患者监护仪。在 Masimo Hospital Automation 平台的助力下,Masimo 的连接、自动化、远程医疗和远程监控解决方案正在改善医院内外的护理…...

【ArcGISPro】使用AI提取要素-土地分类(sentinel2)

Sentinel2数据处理 【ArcGISPro】Sentinel-2数据处理-CSDN博客 土地覆盖类型分类 处理结果...

深度解析:Nginx模块架构与工作机制的奥秘

文章目录 前言Nginx是什么?Ngnix特点: 一、Nginx模块与工作原理1.Nginx的模块1.1 Nginx模块常规的HTTP请求和响应的流程图:1.2 Nginx的模块从结构上分为如下三类:1.3 Nginx的模块从功能上分为如下三类: 2.Nginx的进程模型2.1 Nginx进程结构2.2 nginx进程…...

分布式kettle调度平台v6.4.0新功能介绍

介绍 Kettle(也称为Pentaho Data Integration)是一款开源的ETL(Extract, Transform, Load)工具,由Pentaho(现为Hitachi Vantara)开发和维护。它提供了一套强大的数据集成和转换功能&#xff0c…...

企业数字化转型现状

国家数字经济战略背景 2018年以来,国家政府不断出台政策规范我国企业数字化治理市场。2018年9月颁布《关于发展数字经济稳定并扩大就业的指导意见》,支持建设一批数字经济创新创业孵化机构。积极推进供应链创新与应用,支持构建以企业为主导。…...

极客大挑战2024wp

极客大挑战2024wp web 和misc 都没咋做出来&#xff0c;全靠pwn✌带飞 排名 密码学和re没做出几个&#xff0c;就不发了 web ez_pop 源代码 <?php Class SYC{public $starven;public function __call($name, $arguments){if(preg_match(/%|iconv|UCS|UTF|rot|quoted…...

将django+vue项目发布部署到服务器

1.部署django后端服务 部署架构 1.1 下载依赖插件 pip3.8 freeze > requirements.txt1.2 安装依赖插件 pip3 install -r requirements.txt1.3 安装mysql数据库 apt install mysql-server初始化数据库 CREATE USER admin% IDENTIFIED WITH mysql_native_password BY 123…...

函数类型注释和Union联合类型注释

函数类型注释格式&#xff08;调用时提示输入参数的类型&#xff09;: )def 函数名(形参名:类型&#xff0c;形参名:类型&#xff09;->函数返回值类型: 函数体 Union联合类型注释&#xff08;可注释多种类型混合的变量&#xff09;格式: #先导入模块 from typing import…...

python画图|无坐标轴自由划线操作fig.add_artist(lines.Line2D()函数

【1】引言 新发现了一种自由划线操作函数&#xff0c;和大家共享。 【2】官网教程 点击下述代码&#xff0c;直达官网&#xff1a; https://matplotlib.org/stable/gallery/misc/fig_x.html#sphx-glr-gallery-misc-fig-x-py 官网代码非常简洁&#xff0c;我进行了解读。 …...

MacOS系统上Jmeter 录制脚本遇到的证书坑位

一、JMeter介绍与安装 1&#xff0c;下载及安装 jmeter官网地址 二、录制百度链接https请求时&#xff0c;需要导入jmeter相关证书到macos系统的更目录中. 导入方式&#xff0c;直接拖入mac的系统中&#xff0c;始终新人就可以&#xff1b; 三、jmeter 创建相关的录制组件…...

网络层协议IP

对于网络层我们直接通过IP协议来了解其内容 一.IP协议 首先我们先来了解几个概念&#xff1a; 主机&#xff1a;配有IP地址&#xff0c;但是不进行路由控制的设备 路由器&#xff1a;配有IP地址&#xff0c;同时进行路由控制的设备 节点&#xff1a;主机和路由器的统称 所以现在…...

衢州网站建设有限公司/公司网络营销实施计划

转自&#xff1a;https://x264-settings.wikispaces.com/x264settings 264参数设置 本页面介绍x264参数的用法与目的。参数解释的顺序对应以下帮助内容中的参数出现顺序。x264 --fullhelp 参见 x264 Stats Output , x264_Stats_File , x264 Encoding Suggestions .Table of C…...

在线平面设计网站哪个好/制作网页教程

当系统初始化完毕后会进入homeactivity&#xff1a;具体代码流程&#xff1a;ActivityManagerService.java --public void systemReady(final Runnable goingCallback) {...mMainStack当系统初始化完毕后会进入homeactivity&#xff1a;具体代码流程&#xff1a;ActivityManage…...

个人网站建立步骤/站长工具网站查询

Dispatch Queues简述Dispatch Queues是基于C语言的&#xff0c;执行自定义任务的技术&#xff0c;从字面意思理解其实就是执行任务的队列&#xff0c;使用GCD执行的任务都是放在这个队列中执行的&#xff0c;当然队列的数量可以有多个&#xff0c;类型也不止一种。一个Dispatch…...

论文中引用网站怎么写/seo优化的方法有哪些

Seata 是什么 Seata 是阿里近期开源的分布式事务框架&#xff0c;地址&#xff1a;github.com/seata/seata。框架包括了集团的 TXC&#xff08;云版本叫 GTS&#xff09;和蚂蚁金服的 TCC 两种模式&#xff0c;短短数月 Github 上的 star 数已经接近一万&#xff0c;算是目前唯…...

介绍网页设计/seo网络排名优化哪家好

通过前面四天&#xff0c;我们其实已经基本实现了docker的最核心的功能&#xff0c;后面几天&#xff0c;我将带大家实现一些docker的其他命令&#xff0c;今天我们主要是来实现一下 docker logs 功能&#xff0c;也就是查看docker内部日志 写日志 说下总体思路&#xff0c;这个…...

怎么样做短视频/日喀则网站seo

精确是指重复测量的结果非常聚合&#xff0c;离散度很小。 准确则是指测量值非常接近实际值。精确的测量未必准确&#xff0c;准确的测量 也未必精确。项目管理团队必须确定适当的准确与精确度。 转载于:https://www.cnblogs.com/peter9/archive/2010/06/10/2362185.html...