当前位置：首页 > news >正文

【机器学习数据集】如何获得机器学习的练习数据？

news 2026/2/8 11:36:55

一、scikit-learn自带数据集

Scikit-learn内置了很多可以用于机器学习的数据，可以用两行代码就可以使用这些数据。

自带的小的数据集为：sklearn.datasets.load_<name>

load_boston	Boston房屋价格	回归	506*13
fetch_california_housing	加州住房	回归	20640*9
load_diabetes	糖尿病	回归	442*10
load_digits	手写字	分类	1797*64
load_breast_cancer	乳腺癌	分类、聚类	(357+212)*30
load_iris	鸢尾花	分类、聚类	(503)4
load_wine	葡萄酒	分类	(59+71+48)*13
load_linnerud	体能训练	多分类	20

怎么用：

数据集的信息关键字：

DESCR：

数据集的描述信息

data：

内部数据（即：X）

feature_names：

数据字段名

target：

数据标签（即：y）

target_names：

标签字段名(回归数据集无此项）

使用方法

（以load_iris为例）

数据介绍：

一般用于做分类测试

有150个数据集，共分为3类，每类50个样本。每个样本有4个特征。

每条记录都有 4 项特征：包含4个特征（Sepal.Length（花萼长度）、Sepal.Width（花萼宽度）、Petal.Length（花瓣长度）、Petal.Width（花瓣宽度）），特征值都为正浮点数，单位为厘米。

可以通过这4个特征预测鸢尾花卉属于（iris-setosa（山鸢尾）, iris-versicolour（杂色鸢尾）, iris-virginica（维吉尼亚鸢尾））中的哪一品种。

第一步：导入数据

from sklearn.datasets import load_iris
iris = load_iris()

第二步：定义X和y

X, y = iris.data, iris.target

此外，可以看下数据的维度：

X.shape,y.shape

输出为：

((150, 4), (150,))

查看特征名：

iris.feature_names输出为：
['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width (cm)']

查看标签名：

iris.target_names输出为：array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

第三步：划分训练集和测试集:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

接下来就可以用机器学习算法进行训练和测试了。

小技巧：将数据转换为Dataframe格式（两种方法都可以）：

import pandas as pd
df_X = pd.DataFrame(iris.data, columns=iris.feature_names)
#这个是X
df_y = pd.DataFrame(iris.target, columns=["target"])
#这个是y
df=pd.concat([df_X,df2],axis=1)#横向合并
df.head()

或者：

import numpy as np
import pandas as pd
col_names = iris['feature_names'] + ['target']
df = pd.DataFrame(data= np.c_[iris['data'], iris['target']], columns=col_names)
df.head()

输出结果一致：

二、可在线下载的数据集（需要下载）

下载的数据集为：sklearn.datasets.fetch_<name>

fetch_20newsgroups	用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档，均匀分为20个不同主题的新闻组集合。返回一个可以被文本特征提取器
fetch_20newsgroups_vectorized	这是上面这个文本数据的向量化后的数据，返回一个已提取特征的文本序列，即不需要使用特征提取器
fetch_california_housing	加利福尼亚的房价数据，总计20640个样本，每个样本8个属性表示，以及房价作为target，所有属性值均为number，详情可调用fetch_california_housing()['DESCR']了解每个属性的具体含义；
fetch_covtype	森林植被类型，总计581012个样本，每个样本由54个维度表示（12个属性，其中2个分别是onehot4维和onehot40维），以及target表示植被类型1-7，所有属性值均为number，详情可调用fetch_covtype()['DESCR']了解每个属性的具体含义
fetch_kddcup99	KDD竞赛在1999年举行时采用的数据集，KDD99数据集仍然是网络入侵检测领域的事实Benckmark，为基于计算智能的网络入侵检测研究奠定基础，包含41项特征
fetch_lfw_pairs	该任务称为人脸验证：给定一对两张图片，二分类器必须预测这两个图片是否来自同一个人。
fetch_lfw_people	打好标签的人脸数据集
fetch_mldata	从 mldata.org 中下载数据集
fetch_olivetti_faces	Olivetti 脸部图片数据集
fetch_rcv1	路透社新闻语聊数据集
fetch_species_distributions	物种分布数据集

使用方法与自带数据集一致，只是多了下载过程（示例：fetch_20newsgroups）

from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups(subset='all') #本次使用的数据需要到互联网上下载
from sklearn.model_selection import train_test_split
#对数据训练集和测试件进行划分
X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)

三、生成数据集

可以用来分类任务，可以用来回归任务，可以用来聚类任务，用于流形学习的，用于因子分解任务的，用于分类任务和聚类任务的：这些函数产生样本特征向量矩阵以及对应的类别标签集合

make_blobs：多类单标签数据集，为每个类分配一个或多个正态分布的点集

make_classification：多类单标签数据集，为每个类分配一个或多个正态分布的点集，提供了为数据添加噪声的方式，包括维度相关性，无效特征以及冗余特征等

make_gaussian-quantiles：将一个单高斯分布的点集划分为两个数量均等的点集，作为两类

make_hastie-10-2：产生一个相似的二元分类数据集，有10个维度

make_circle和make_moons：产生二维二元分类数据集来测试某些算法的性能，可以为数据集添加噪声，可以为二元分类器产生一些球形判决界面的数据

举例：

import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
X, y = make_moons(n_samples=100, noise=0.15, random_state=42)
plt.title('make_moons function example')
plt.scatter(X[:,0],X[:,1],marker='o',c=y)
plt.show()

四、网页下载数据集

深度学习数据集

MS-COCO

COCO是一个可用于object detection, segmentation and caption的大型数据集。

http://cocodataset.org/#home

ImageNet

图像总数约1,500,000; 每个都有多个边界框和相应的类标签。

大小：约150GB

http://www.image-net.org

Yelp Reviews

它由数百万用户评论、商业类型和来自多个大型城市的超过20万张照片组成。这在全球都是一个非常常用的NLP挑战级数据集。

大小：2.66 GB JSON，2.9 GB SQL and 7.5 GB Photos（全部已压缩）

数量：5,200,000条评论，174,000条商业类型，20万张图片和11个大型城市

https://www.yelp.com/dataset

其它数据集

kaggle：

https://www.kaggle.com

天池：

https://tianchi.aliyun.com/dataset

搜狗实验室：

http://www.sogou.com/labs/resource/list_pingce.php

DC竞赛：

https://www.pkbigdata.com/common/cmptIndex.html

DF竞赛：

https://www.datafountain.cn/datasets

Google数据集

[需要科学上网]

https://toolbox.google.com/datasetsearch

科赛网

https://www.kesci.com/home/dataset

微软数据集

https://msropendata.com/

UCI机器学习数据库

大名鼎鼎的数据集网站，现在包含了557个数据集，其中绝大多数可以直接下载并且很多的论文中benchmark也来源于此。

https://archive.ics.uci.edu/ml/datasets.php

多类别分类数据集

里面包含了很多了多分类的数据集，有时序的和非时序的。

http://www.uco.es/kdis/mllresources/

参考资料：

https://mp.weixin.qq.com/s/VR6HDh89wNAUsZWGkoCKow

https://scikit-learn.org/stable/datasets/index.html

https://blog.csdn.net/fendouaini/article/details/79871922

本文主要参考以上资料整理，如果对您有帮助，希望您点赞+收藏+评论，您的支持是我更新的动力~

【机器学习数据集】如何获得机器学习的练习数据？

一、scikit-learn自带数据集Scikit-learn内置了很多可以用于机器学习的数据，可以用两行代码就可以使用这些数据。自带的小的数据集为：sklearn.datasets.load_<name>load_bostonBoston房屋价格回归506*13fetch_california_housing加州住房回归20640…...

编程日记 2023/2/16 17:15:11

【编程实践】使用 Kotlin HTTP 框架 Fuel 实现 GET，POST 接口 kittinunf.fuel【极简教程】

目录 Fuel 简介实现代码 GET网络请求用法(有三种写法࿰...

编程日记 2023/2/16 17:14:03

大数据DataX（一）：DataX的框架设计和插件体系

文章目录 DataX的框架设计和插件体系一、DataX是什么...

编程日记 2023/2/16 17:12:51

软考高级信息系统项目管理师系列之十一：项目进度管理

软考高级信息系统项目管理师系列之十一：项目进度管理一、进度管理领域输入、输出、工具和技术表二、项目进度管理1.项目进度管理过程2.项目进度管理三、项目进度管理过程1.项目进度管理2.工作包和活动3.活动清单4.活动属性5.项目进度网络图6.资源日历7.活动资源需求8.资源分解…...

编程日记 2023/2/16 17:11:44

vue2版本《后台管理模式》（下）

文章目录前言一、home 页以下都属于home子组件二、header 头部组件二、Menu 页面三、Bread 面包屑四、Footer五、分页器： Pageing![在这里插入图片描述](https://img-blog.csdnimg.cn/fbe9bb7e84a04ccda4d3fc9f4ab9c36b.png#pic_center)六、权限管理总结前言这章…...

编程日记 2023/2/16 17:10:33

软考中级-程序设计语言

（1）解释器解释源程序时不生成独立的目标代码，源程序和解释程序都参与到程序执行中。（2）编译器编译时生成独立的目标代码，运行时是运行与源程序等价的目标程序，源程序不参与执行。阶段补充&#…...

编程日记 2023/2/16 17:09:28

Sphinx : 高性能SQL全文检索引擎

Sphinx是一款基于SQL的高性能全文检索引擎，Sphinx的性能在众多全文检索引擎中也是数一数二的，利用Sphinx，我们可以完成比数据库本身更专业的搜索功能，而且可以有很多针对性的性能优化。 Sphinx的特点快速创建索引：3分…...

编程日记 2023/2/16 17:08:21

ansbile实战应用系列教程6：管理ansible变量 Ansible VariablesNaming VariablesDefining Variables在playbook中定义变量Defining Variables in Playbooks在playbooks中使用VariablesHost Variables and Group Variables使用group_vars和host_vars目录命令行定义全局变量Varia…...

编程日记 2023/2/16 17:07:13

java8新特性Stream流中anyMatch和allMatch和noneMatch的区别详解

1、anyMatch 判断数据列表中是否存在任意一个元素符合设置的predicate条件，如果是就返回true，否则返回false。接口定义： boolean anyMatch(Predicate<? super T> predicate); 方法描述： 在anyMatch 接口定义中是接收 Pr…...

编程日记 2023/2/16 17:06:07

双网卡（有线和wifi）同时连接内网和外网

双网卡（有线和wifi）同时连接内网和外网 Win10技巧：如何修改有线/WiFi网络优先级：https://www.ithome.com/html/win10/253612.htm双网卡实现两个网络的自由访问：https://blog.51cto.com/ghostlan/1299090Linux服务器安…...

编程日记 2023/2/16 17:05:02

如何赋能智能运维，迈出数字化黑匣子第一步？

在当下大数据时代，诸多行业专家为企业智能运维绘出美好蓝图。在该蓝图中，互联网、云计算、大数据分析联合发力，企业在能“攻”能“守”中快速、可持续发展。何为“攻”？对支撑企业产品研发、生产、管理、营销等各业务链条的IT基础…...

编程日记 2023/2/16 17:03:57

消息称索尼计划为PS5推出两款蓝牙耳机，Find My蓝牙耳机用途广

根据国外科技媒体 Insider Gaming 报道，索尼计划进一步丰富 PlayStation 5 的配件生态，将会推出两款耳机，一款采用类似于 AirPods 的 TWS 设计，另一款则是无线头戴式耳机。消息称 TWS 耳机的内部代号为“Project Nomad”&#…...

编程日记 2023/2/16 17:02:50

状态管理VueX

哈喽~大家好，这篇来看看状态管理VueX。 🥇个人主页：个人主页 🥈 系列专栏：【专栏】 🥉与这篇相关的文章： SpringCloud Sentinel 使用SpringClou…...

编程日记 2023/2/16 17:01:43

i.MX8MP平台开发分享（clock篇）- PLL14xx驱动

专栏目录：专栏目录传送门平台内核i.MX8MP5.15.71文章目录 clk_pll14xx_prepareclk_pll14xx_is_preparedclk_pll1443x_set_rateclk_pll14xx_round_rateclk_pll1443x_recalc_rate在前面的文章i.MX8MP平台开发分享（clock篇）- 各类clock的注册，我们提到VIDEO_PLL1，GPU_PLL等P…...

编程日记 2023/2/16 17:00:36

课程规范性要求

课程制作规范图片规范允许范围：CC协议 / 作者授权 / 网站代理授权书图片大小要求：1600 x 1200 dpi 图片长宽比：4：3 每章节格式要求 Week number 本周目标 1.通过背景学习，了解四足机器狗mini pupper上的微型控…...

编程日记 2023/2/16 16:59:27

华为OD机试 - 优秀学员统计（Python）| 真题+思路+考点+代码+岗位

优秀学员统计题目公司某部门软件教导团正在组织新员工每日打卡学习活动，他们开展这项学习活动已经一个月了，所以想统计下这个月优秀的打卡员工。每个员工会对应一个 id，每天的打卡记录记录当天打卡员工的 id 集合，一共 30 天。请你实现代码帮助统计出打卡次数 top5 的…...

编程日记 2023/2/16 16:58:21

布林线(BOLL)计算公式详解，开口收口代表什么

布林带，英文名称BOLL，是John Bollinger在上世纪八十年代创建的，由中轨、上轨、下轨三条线组成。一、布林线计算公式详解布林线中轨是简单移动平均线，一般软件上自带的布林带中轨是20日均线，上轨是中轨加上2个标准差…...

编程日记 2023/2/16 16:57:13

模糊的照片能修复吗?

用照片记录生活，虽然不一定拍得好，但这也是生活应该有的样子。而我们拍得不好，常见就是拍出了模糊的照片，这可能是因为没有对焦或者是手抖了一下，就成了模糊的照片。更多时候未能及时发现，等到想分享一下才…...

编程日记 2023/2/16 16:56:06

【Java|多线程与高并发】详解start()方法和run()方法的区别

文章目录前言1.start()方法和run()方法2.不能两次调用start()方法3.线程的执行是随机的start()方法和run()方法的执行顺序不一定相同4.run()方法由JVM调用public Thread(Runnable target)中的target前言本篇文章主要讲解以下几个问题: start()方法和run()方法的区别与联系为…...

编程日记 2023/2/16 16:54:59

mysql 一些有意思的sql语句，备忘

### 批量插入 INSERT INTO 表名 （字段列表） VALUES （字段对应的值）,（字段对应的值）,（字段对应的值）,（字段对应的值）, js 代码示例: function batchAddOrde…...

编程日记 2023/2/16 16:53:54

Chapter03-Authentication vulnerabilities

文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...

编程新知 2026/2/7 4:57:53

React hook之useRef

React useRef 详解 useRef 是 React 提供的一个 Hook，用于在函数组件中创建可变的引用对象。它在 React 开发中有多种重要用途，下面我将全面详细地介绍它的特性和用法。基本概念 1. 创建 ref const refContainer useRef(initialValue);initialValu…...

编程新知 2025/6/11 15:21:26

Admin.Net中的消息通信SignalR解释

定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...

编程新知 2025/9/10 5:36:56