当前位置: 首页 > news >正文

机器学习实战六步法之数据收集方法(四)

要落地一个机器学习的项目,是有章可循的,通过这六个步骤,小白也能搞定机器学习。

看我闪电六连鞭!🤣

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8fokt0Mq-1686313603676)(image/image-20230604123237459.png)]

数据收集

数据是机器学习的基础,没有数据一切都是空谈!数据集的数据量和数据的质量往往决定了“事情的成败”。所以现在国内(比如百度的文言一心)搞大模型的公司,他们往往拥有“庞大的”数据资产。

数据到底从何而来?

数据的收集通常是比较费力的工作!我们通常通过开源的数据集、数据埋点、数据爬取来获取数据集。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-juDDEbbZ-1686313671457)(image/image-20230608210425924.png)]
下面介绍一些开源的数据集:

  1. Kaggle:这是一个知名的数据科学社区,提供了大量的免费开源数据集,涵盖了多个领域和任务。网站地址:https://www.kaggle.com/datasets

  2. UCI机器学习数据仓库:这是一个包含多个数据集的数据仓库,涵盖了多个领域和任务,如计算机科学、医学、金融等。网站地址:https://archive.ics.uci.edu/ml/index.php

  3. Google Dataset Search:这是一个由Google提供的免费开源数据集搜索引擎,可用于搜索各种数据集,如图像、文本、音频等。网站地址:https://datasetsearch.research.google.com/

  4. AWS数据集:这是由亚马逊AWS提供的免费开源数据集,包括天气数据、气象数据、医学数据等,可用于机器学习和数据科学。网站地址:https://registry.opendata.aws/

  5. OpenML:这是一个由欧洲机器学习研究中心提供的免费开源数据集平台,包括多个数据集和任务,可用于机器学习和数据挖掘。网站地址:https://www.openml.org/

  6. Data.gov:这是由美国政府提供的免费开源数据集平台,包括各种政府数据和公共数据,可用于统计分析和数据科学。网站地址:https://www.data.gov/

以下是一些医药行业的开源数据集

  1. DrugBank:这是一个包含药物化合物、药品剂量、药理学数据等的数据库,用于药物研究和开发。网站地址:https://www.drugbank.ca/

  2. PubChem:这是一个包含化学物质、化合物、生物分子等的数据库,用于生物化学和药物研究。网站地址:https://pubchem.ncbi.nlm.nih.gov/

  3. TCGA:这是一个包含多种癌症数据的数据库,包括基因表达、突变、临床信息等,用于癌症研究和治疗。网站地址:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

  4. GTEX:这是一个包含多个组织和器官的基因表达数据集,用于研究人类基因表达的变化和差异。网站地址:https://www.gtexportal.org/home/

  5. MIMIC:这是一个包含多个重症监护患者的临床数据集,包括生理信号、诊断数据、药物治疗数据等,用于疾病预测和治疗。网站地址:https://mimic.mit.edu/

  6. PhysioNet:这是一个包含多个生理信号数据集的数据库,包括心电图、脑电图、呼吸信号等,用于生理信号分析和诊断。网站地址:https://physionet.org/

相关文章:

机器学习实战六步法之数据收集方法(四)

要落地一个机器学习的项目,是有章可循的,通过这六个步骤,小白也能搞定机器学习。 看我闪电六连鞭!🤣 数据收集 数据是机器学习的基础,没有数据一切都是空谈!数据集的数据量和数据的质量往往决…...

神经网络:CNN中的filter,kernel_size,strides,padding对输出形状的影响

输入数据在经过卷积层后,形状一般会发生改变,而形状的变化往往与以下四个超参数有关。 1,filter(out_channel) 该超参数控制着输入数据经过卷积层中需要与几个卷积核进行运算,而输入数据与每个卷积核进行…...

Spring Boot集成Redisson布隆过滤器案例

1 什么是布隆过滤器 布隆过滤器实际上是一个非常长的二进制向量(bitmap)和一系列随机哈希函数。那什么又叫哈希函数呢?哈希函数指将哈希表中元素的关键键值通过一定的函数关系映射为元素存储位置的函数。(HashMap源码) 布隆过滤器的优点&…...

使用 VSCode SSH 公网远程连接本地服务器开发 - cpolar内网穿透

文章目录 前言视频教程1、安装OpenSSH2、vscode配置ssh3. 局域网测试连接远程服务器4. 公网远程连接4.1 ubuntu安装cpolar内网穿透4.2 创建隧道映射4.3 测试公网远程连接 5. 配置固定TCP端口地址5.1 保留一个固定TCP端口地址5.2 配置固定TCP端口地址5.3 测试固定公网地址远程 转…...

portraiture宿主插件最新v4中文版本下载及使用教程

自拍怎么可以不修图呢?如果要修图的话,磨皮就是其中非常重要的一环。皮肤看起来细腻光滑了,整个人的颜值都会瞬间拉高。下面就让我们介绍一下磨皮用什么软件好用,什么软件可以手动磨皮的相关内容。portraiture是ps人像修图中常用的…...

一. ATR技术指标的定义与运用

一. ATR的定义 1. 什么是ATR ATR英文全名是Average true range,翻译过来就是平均真实波幅,这个指标主要用来衡量最近N天TR(真实波幅)的平均值。 2. ATR相关计算公式 T R [ ( 最高价 − 最低价 ) , ( 前一次收盘价 − 最高价 ) &#xff0…...

linux find帮助文档

以下是完整的find命令帮助文档: 用法:find [-H] [-L] [-P] [-D debugopts] [-Olevel] [起始路径…] [表达式] 选项: -H 跟随命令行符号链接 -L 跟随所有符号链接 -P 不跟随任何符号链接(默认) -D debugopts 调试标志…...

搜索与图论(acwing算法基础)

文章目录 DFS排列数字n皇后 BFS走迷宫 拓扑序列单链表树与图的深度优先搜索模拟队列有向图的拓扑序列 bellman-ford有边数限制的最短路 spfaspfa求最短路spfa判断负环 FloydFloyd求最短路 PrimPrim算法求最小生成树 KruskalKruskal算法求最小生成树 染色法判定二分图染色法判定…...

【数据结构】何为数据结构。

🚩 WRITE IN FRONT 🚩 🔎 介绍:"謓泽"正在路上朝着"攻城狮"方向"前进四" 🔎🏅 荣誉:2021|2022年度博客之星物联网与嵌入式开发TOP5|TOP4、2021|2022博客之星T…...

【P57】JMeter 保存响应到文件(Save Responses to a file)

文章目录 一、保存响应到文件(Save Responses to a file)参数说明二、准备工作三、测试计划设计 一、保存响应到文件(Save Responses to a file)参数说明 可以将结果树保存到文件 使用场景:当结果太大,使…...

Visual Studio 2022 v17.6 正式发布

Visual Studio 17.6 正式发布,这个最新版本提供了一系列强大的工具和功能,旨在使你能够制作出最先进的应用程序。 提高生产力 通过 Visual Studio 2022,目标是帮助你在更短的时间内完成 IDE 内的所有开发任务,在这个版本中&…...

std::chrono时间处理

std::chrono是C11引入的标准库,用于时间的计算和处理。它按照ISO8601标准定义了多个时间类,例如:duration(持续时间)、time_point(时间点)和clock(时钟)。以下是一些常见…...

ieda codeformatV2.xml

ieda codeformatV2.xml 目录概述需求: 设计思路实现思路分析1.codeformatV22.codeformatV23.codeformatV24.codeformatV25.数据处理器 拓展实现 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy&…...

Hbase

java客户端 导入maven依赖 XML<dependencies> <dependency> <groupId>org.apache.zookeeper</groupId> <artifactId>zookeeper</artifactId> <version>3.4.6</version> </dependency>…...

[golang 微服务] 5. 微服务服务发现介绍,安装以及consul的使用,Consul集群

一.服务发现介绍 引入 上一节讲解了使用 gRPC创建微服务,客户端的一个接口可能需要调用 N个服务,而不同服务可能存在 不同的服务器,这时&#xff0c;客户端就必须知道所有服务的 网络位置&#xff08;ipport&#xff09;&#xff0c;来进行连接服务器操作,如下图所示: 以往的做…...

【数据结构】哈希应用

目录 一、位图 1、位图概念 2、位图实现 2.1、位图结构 2.2、比特位置1 2.3、比特位置0 2.4、检测位图中比特位 3、位图例题 3.1、找到只出现一次的整数 3.2、找到两个文件交集 3.3、找到出现次数不超过2次的所有整数 二、布隆过滤器 1、布隆过滤器提出 2、布隆过…...

【 Python 全栈开发 - WEB开发篇 - 31 】where条件查询

文章目录 一、where条件查询1.关系运算符查询2.IN关键字查询3.BETWEEN AND关键字查询4.空值查询5.AND关键字查询6.OR关键字查询7.LIKE关键字查询普通字符串含有%通配的字符串含有_通配的字符串 一、where条件查询 MySQL 的 where 条件查询是指在查询数据时&#xff0c;通过 wh…...

Android系统的Ashmem匿名共享内存子系统分析(5)- 实现共享的原理

声明 其实对于Android系统的Ashmem匿名共享内存系统早就有分析的想法&#xff0c;记得2019年6、7月份Mr.Deng离职期间约定一起对其进行研究的&#xff0c;但因为我个人问题没能实施这个计划&#xff0c;留下些许遗憾…文中参考了很多书籍及博客内容&#xff0c;可能涉及的比较…...

谈一谈冷门的C语言爬虫

C语言可以用来编写爬虫程序&#xff0c;但是相对于其他编程语言&#xff0c;C语言的爬虫开发可能会更加复杂和繁琐。因为C语言本身并没有提供现成的爬虫框架和库&#xff0c;需要自己编写网络请求、HTML解析等功能。 不过&#xff0c;如果你对C语言比较熟悉&#xff0c;也可以…...

基于状态的维护(CBM)如何推动设备效率提高?

基于状态的维护&#xff08;Condition-Based Maintenance&#xff0c;CBM&#xff09;是一种先进的维护策略&#xff0c;通过实时监测和分析设备的状态数据&#xff0c;预测设备故障并采取相应的维护措施。CBM基于数据驱动的方法&#xff0c;能够提高设备的可用性、降低维修成本…...

DC LAB8SDC约束四种时序路径分析

DC LAB 1.启动DC2.读入设计3. 查看所有违例的约束报告3.1 report_constraint -all_violators (alias rc)3.2 view report_constraint -all_violators -verbose -significant_digits 4 (打印详细报告) 4.查看时序报告 report_timing -significant_digits 45. 约束组合逻辑(adr_i…...

学生考试作弊检测系统 yolov8

学生考试作弊检测系统采用yolov8网络模型人工智能技术&#xff0c;学生考试作弊检测系统过在考场中安装监控设备&#xff0c;对学生的作弊行为进行实时监测。当学生出现作弊行为时&#xff0c;学生考试作弊检测系统将自动识别并记录信息。YOLOv8 算法的核心特性和改动可以归结为…...

【基于容器的部署、扩展和管理】 3.2 基于容器的应用程序部署和升级

往期回顾&#xff1a; 第一章&#xff1a;【云原生概念和技术】 第二章&#xff1a;【容器化应用程序设计和开发】 第三章&#xff1a;【3.1 容器编排系统和Kubernetes集群的构建】 3.2 基于容器的应用程序部署和升级 3.2 基于容器的应用程序部署和升级 3.2 基于容器的应用程…...

Jmeter 实现 grpc服务 压测

一、Jmeter安装与配置 网上有很多安装与配置文章&#xff0c;在此不做赘述 二、Jmeter gRPC Request 插件安装 插件下载地址&#xff1a;JMeter Plugins :: JMeter-Plugins.org 将下载文件解压后放到Jmeter安装目录下 /lib/ext 然后在终端输入Jmeter即可打开 Jmeter GUI界面…...

深入源码分析RecyclerView缓存复用原理

文章目录 前言四级缓存 源码分析缓存一级缓存&#xff08;mChangedScrap和mChangedScrap&#xff09;二级缓存&#xff08;mCachedViews&#xff09;三级缓存&#xff08;ViewCacheExtension&#xff09;四级缓存&#xff08;mRecyclerPool&#xff09;缓存池mRecyclerPool结构…...

内网隧道代理技术(一)之内网隧道代理概述

内网隧道代理技术 内网转发 在渗透测试中&#xff0c;当我们获得了外网服务器&#xff08;如web服务器&#xff0c;ftp服务器&#xff0c;mali服务器等等&#xff09;的一定权限后发现这台服务器可以直接或者间接的访问内网。此时渗透测试进入后渗透阶段&#xff0c;一般情况…...

设计图形用户界面的原则

1) 一般性原则&#xff1a;界面要具有一致性、常用操作要有快捷方式、 提供简单的错误处理、对操作人员的重要操作要有信息反馈、操作可 逆、设计良好的联机帮助、合理划分并高效地使用显示屏、保证信息 显示方式与数据输入方式的协调一致 2) 颜色的使用&#xff1a;颜色…...

1:操作系统导论

1.1操作系统的定义 •Anoperatingsystemactsanintermediarybetweenuserofacomputerandthecomputer hardware. ◦ 操作系统充当计算机⽤⼾和计算机硬件之间的中介 •Thepurposeofanoperatingsystemistoprovideanenvironmentinwhichausercanexecute programsinaconvenientandeff…...

什么是微软的 Application Framework?

我是荔园微风&#xff0c;作为一名在IT界整整25年的老兵&#xff0c;今天来看一下什么是微软的 Application Framework&#xff1f; 到底什么是 Application Framework&#xff1f; 还没有真正掌握任何一套Application Framework的使用之前&#xff0c;就来研究这个真的不是很…...

一个关于宏定义的问题,我和ChatGPT、NewBing、Google Bard、文心一言 居然全军覆没?

文章目录 一、问题重述二、AI 解题2.1 ChatGPT2.2 NewBing2.3 Google Bard2.4 文心一言2.5 小结 一、问题重述 今天在问答模块回答了一道问题&#xff0c;要睡觉的时候&#xff0c;又去看了一眼&#xff0c;发现回答错了。 问题描述&#xff1a;下面的z的值是多少。 #define…...

宝鸡市住房和城乡建设部网站/游戏推广员拉人技巧

今天这篇是唐巧的投稿。很早就认识了唐巧&#xff0c;那时他还是一个初入江湖的「小球」&#xff0c;高高瘦瘦&#xff0c;正在网易有道做云笔记的开发。短短几年之内&#xff0c;唐巧获得了飞速的成长&#xff0c;他不仅成为一个优秀的开发者&#xff0c;而且成长为了一个技术…...

做百科权威网站有哪些/大数据精准获客软件

为什么80%的码农都做不了架构师&#xff1f;>>> 对于流式计算系统&#xff0c;我们都预期能够完全正确的处理每一条数据&#xff0c;即所有的数据不多也不少的处理每一条数据&#xff0c;为了达到这样的功能&#xff0c;我们还有很多额外的工作需要处理。 1.首先了…...

wordpress 前台加载慢/百度一下知道首页

1 Service Kubernetes Pods 是有生命周期的。他们会被创建&#xff0c;被销毁&#xff0c;但是他们不会无条件"复活"。比如 ReplicaSets 这种 Pod 控制器会动态生成或者销毁 Pods&#xff08;如在扩容或者缩容时&#xff09;。当然每个Pod 都会自动被 k8s 分配IP地址…...

做网站交易/推广互联网推广

可以使用 Matplotlib 绘制词云图。下面是一个简单的示例代码&#xff1a; import matplotlib.pyplot as plt from wordcloud import WordCloudtext "Matplotlib is a data visualization library in Python."wordcloud WordCloud().generate(text)plt.imshow(wordc…...

台山网站建设公司/网页设计个人主页

文章目录c六大组件包括:容器,迭代器,算法,适配器,函数对象和分配器容器分为序列式容器(vector,list,deque)和关联式容器(set,multiset,map, multimap) 适配器讲解 分配器讲解1 分配器讲解2 函数对象又称为仿函数,其实是在类中重载运算符()...

公司网站制作步骤流程图/小说推文推广平台

前言 前一篇文章《SpringSpringMVCMyBatiseasyUI整合优化篇&#xff08;三&#xff09;代码测试》讲了不为和不能两个状态&#xff0c;针对不为&#xff0c;只能自己调整心态了&#xff0c;而对于不能&#xff0c;本文会结合一些实例进行讲解&#xff0c;应该可以使得你掌握单元…...