当前位置: 首页 > news >正文

机器学习杂笔记1:类型-数据集-效果评估-sklearn-机器学习算法分类

文章目录

    • 1.类型
    • 2.数据集
    • 3.效果评估
    • 4.sklearn
    • 5.sklearn机器学习算法
    • 七种数据分析方法
      • 1.对比分析
      • 2.细分分析
      • 3.A/B测试 (单一变量分析)
      • 4.漏斗分析
      • 5.留存分析
      • 6.相关分析
      • 7.聚类分析

1.类型

【1】监督学习:从成对的已经标记好的输入和输出经验数据作为一个输入进行学习,用来预测输出结果,是从有正确答案的例子中学习
任务:分类/回归

【2】无监督学习:在数据中发现一些规律
任务:聚类/降维

【3】半监督学习:介于监督学习与非监督学习之间的学习,一种增强学习,问题可以通过决策来获得反馈,但是反馈与某一个决策可能没有直接关系

2.数据集

三种类型

【1】训练集:用来进行训练(产生模型或算法)的数据集
规模:50%以上
问题:过度拟合

【2】测试集:用来专门进行测试已经学好的模型或者算法的数据集
规模:25%

【3】验证集:调整超参数变量
规模:余下部分

交叉验证

将数据集分成N块,使用N-1块进行训练,在另一块上测试。一次循环,直到每一块都测试过。

优点:
1.充分利用数据,在数据较少的情况下也能有较好的表现
2.交叉验证为模型的效果评估提供来比只有一个数据集更准确的方法

3.效果评估

1.无监督学习
真阳性(TP):正确识别目标
假阳性(FP):错误识别目标
真阴性(TN):正确识别非目标
假阴性(FN):错误识别非目标【指标】
准确率(ACC):(TP+TN)/(TP+TN+FP+FN)
精确率(P):TP/(TP+FP)
召回率(R):TP(TP+FN)

4.sklearn

sklearn.datasets.load_* 获取小规模数据集
sklearn.datasets.fetch_* 获取大规模数据

5.sklearn机器学习算法

【分类】
`K-近邻算法 sklearn.neighbors   
贝叶斯算法   sklearn.naive_bayes
逻辑回归 sklearn。linear_model.LogisticRegression
决策树与随机森林 sklearn.tree【回归】线性回归  sklearn.linear_model.LinearRegression岭回归   sklearn.linear_model.Ridge
【无监督学习】
聚类 sklearn。cluster.KMeans

七种数据分析方法

1.对比分析

对比数量差异
例如:时间维度上进行环比、同比、定基对比

2.细分分析

逐步分析:例如-销售额上涨,先拆分到国家、省、市、门店,对比分析哪个区域变大带来的,或者拆分到大的品类、在进行细分到某个小的单品

交叉细分:同时选取两个或者三个维度的变量综合分析对结果或者群体的影响(例如:四象限分析、RFM模型)

3.A/B测试 (单一变量分析)

4.漏斗分析

漏斗图,展示某个特定流程中事件的变化情况,主要用于统计和计算转化率等关键数据
首先确定用户转化路径,之后通过量化每一步的转化率,来衡量一个商业或者产品的成败及可优化调整的点

一款电商类APP,从用户下载、访问、注册、浏览、交易,计算每一步的数值及漏斗比例

5.留存分析

用来分析用户参与情况/活跃程度的分析模型

常见留存指标有次日留存、七日留存、十五日留存、月留存等,表示目标用户在一段时间后回访产品或回到产品中完成某个行为的比例

6.相关分析

研究现象之间是否存在某种依存关系

方法:散点图、相关系数等

分类:单相关、复相关、偏相关

7.聚类分析

将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程

常见应用:用户细分、异常检测

相关文章:

机器学习杂笔记1:类型-数据集-效果评估-sklearn-机器学习算法分类

文章目录 1.类型2.数据集3.效果评估4.sklearn5.sklearn机器学习算法七种数据分析方法1.对比分析2.细分分析3.A/B测试 (单一变量分析)4.漏斗分析5.留存分析6.相关分析7.聚类分析 1.类型 【1】监督学习:从成对的已经标记好的输入和输出经验数据…...

Django+Nginx+uwsgi网站使用Channels+redis+daphne实现简单的多人在线聊天及消息存储功能

网站部署在华为云服务器上,Debian系统,使用DjangoNginxuwsgi搭建。最终效果如下图所示。 一、响应逻辑顺序 1. 聊天页面请求 客户端请求/chat/(输入聊天室房间号界面)和/chat/room_name(某个聊天室页面)链…...

数据结构在二叉树Oj中利用子问题思路来解决问题

二叉树Oj题 获取二叉树的节点数获取二叉树的终端节点个数获取k层节点的个数获取二叉树的高度检测为value的元素是否存在判断两颗树是否相同判断是否是另一棵的子树反转二叉树判断一颗二叉树是否是平衡二叉树时间复杂度O(n*n)复杂度O(N) 二叉树的遍历判断是否是对称的二叉树二叉…...

华为openEuler考试真题演练(附答案)

【单选题】 以下关于互联网的描述,哪个选项是正确的? A:Nginx 在万维网中可以作为 ftp 服务器的反向代理,并与ftp服务器的数量--对应 B:Nginx 在互联网中可以作为 web服务器端,成为万维网的一个节点 C:互联网上的的资源需使用 Nginx进行七层…...

生成自签名证书并配置 HTTPS 使用自签名证书

生成自签名证书 1. 运行 OpenSSL 命令生成证书和私钥 在终端中输入以下命令,生成自签名证书和私钥文件: sudo openssl req -x509 -nodes -days 365 -newkey rsa:2048 -keyout self_signed.key -out self_signed.pem-x509:生成自签名证书。…...

物联网核心安全系列——智能汽车安全防护的重要性

汽车行业引入的智能硬件技术已经越来越多,早先设计者更多考虑到的是硬件成本和软件用户体验等因素,但随着国外两位技术人员成功实现远程控制汽车的视频曝出后,智能汽车安全便成为了一个热议话题。 汽车总线架构及原理比较复杂,日…...

数据库视图

数据库视图(Database View)是数据库中的虚拟表,其内容由查询定义,通常用来简化复杂的查询或提供安全访问数据。视图并不存储实际数据,而是将查询的结果集作为一个“虚拟表”呈现。用户通过查询视图,就可以看…...

从传统分析到智能问数,打造零门槛数据分析方案

众所周知,传统报表和自助分析工具存在使用门槛,且早期智能分析不够智能。随着AI技术发展,现有数据应用模式难以满足多样化、快速变化的需求,数据驱动、敏捷决策、精细运营成为了各大企业的新课题。 01企业数据应用挑战 业务人员的…...

java 设计模式 模板方法模式

模板方法模式(Template Method Pattern)是一种行为型设计模式,它在父类中定义一个算法的框架,允许子类在不改变算法结构的情况下重写算法的某些特定步骤。这种模式非常适合于那些有一定公共流程,但某些步骤需要子类定制…...

基于UDP和TCP实现回显服务器

目录 一. UDP 回显服务器 1. UDP Echo Server 2. UDP Echo Client 二. TCP 回显服务器 1. TCP Echo Server 2. TCP Echo Client 回显服务器 (Echo Server) 就是客户端发送什么样的请求, 服务器就返回什么样的响应, 没有任何的计算和处理逻辑. 一. UDP 回显服务器 1. UD…...

在 CentOS 系统上直接安装 MongoDB 4.0.25

文章目录 步骤 1:配置 MongoDB 官方源步骤 2:安装 MongoDB步骤 3:启动 MongoDB 服务步骤 4:验证安装步骤 5:可选配置注意事项 以下是在 CentOS 系统上直接安装 MongoDB 4.0.25 的详细步骤: 步骤 1&#x…...

Android和IOS的区别

一、系统区别 1、系统和框架的区别 (1)Android系统的底层建立在Linux系统之上;而ios基于UNIX系统 Android完全开放,iOS完全封源开发 (2)编程语言:Android的编程语言是Java和KotLin;而ios的则为O…...

数据库基础(MySQL)

1. 数据库基础 1.1 什么是数据库 存储数据用文件就可以了,为什么还要弄个数据库? 文件保存数据有以下几个缺点: 文件的安全性问题文件不利于数据查询和管理文件不利于存储海量数据文件在程序中控制不方便 数据库存储介质: 磁盘内存 为…...

Vue前端开发子组件向父组件传参

在父组件中,如果需要获取子组件中的数据,有两种方式,一种是在子组件中自定义事件,父组件绑定该事件,当触发自定义事件时,向父组件传入参数;另一种是先通过ref属性给子组件命名,然后在父组件中就…...

javaScript语法基础(函数,对象,常用类Array,String,Math和Date)

# 本文详细结束了JavaScript中函数、对象、常用类Array,String,Math和Date的用法。 一、函数 1、概述 将程序中多次要用到的代码块封装起来,就是函数。函数使代码块的重复使用更方便,且功能独立,便于维护。 2、函数的…...

WebStorm 2022.3.2/IntelliJ IDEA 2024.3出现elementUI提示未知 HTML 标记、组件引用爆红等问题处理

WebStorm 2022.3.2/IntelliJ IDEA 2024.3出现elementUI提示未知 HTML 标记、组件引用爆红等问题处理 1. 标题识别elementUI组件爆红 这个原因是: 在官网说明里,才版本2024.1开始,默认启用的 Vue Language Server,但是在 Vue 2 项…...

k8s-NetworkPolicy

NetworkPolicy 是k8s中的网络策略可以限制pod以及namespace之间的访问流量 演示一下名称空间之间基于端口的访问限制 官方对networkpolicy的介绍 官方网址: 网络策略 |Kubernetes (简体中文) 一:创建NetworkPolicy vim…...

【C++】踏上C++学习之旅(九):深入“类和对象“世界,掌握编程的黄金法则(四)(包含四大默认成员函数的练习以及const对象)

文章目录 前言1. 实现Date类的构造函数2. 实现Date类的拷贝构造函数3. 实现Date类的赋值运算符重载4. 实现各Date对象之间的比较接口5. 实现Date对象的加减接口6. const成员7. 取地址及const取地址操作符重载 前言 在我们前面学习到了"类和对象"的四大默认成员函数(…...

C++——智能指针剖析

参考: 恋恋风辰官方博客 动态内存管理 - cppreference.com SRombauts/shared_ptr: 一个最小的 shared/unique_ptr 实现,用于处理 boost/std::shared/unique_ptr 不可用的情况。 C智能指针_c 智能指针-CSDN博客 当…...

241119.LeetCode——383.赎金信

题目描述 给你两个字符串:ransomNote 和 magazine ,判断 ransomNote 能不能由 magazine 里面的字符构成。 如果可以,返回 true ;否则返回 false 。 magazine 中的每个字符只能在 ransomNote 中使用一次。 示例 1: 输…...

基于SSM的农家乐管理系统+论文示例参考

1.项目介绍 功能模块:管理员(农家乐管理、美食信息管理、住宿信息管理、活动信息、用户管理、活动报名、论坛等),普通用户(注册登录、活动报名、客房预订、用户评价、收藏管理、模拟支付等)技术选型&#…...

用 Python 从零开始创建神经网络(九):反向传播(Backpropagation)(还在更新中。。。)

反向传播(Backpropagation) 引言1. 分类交叉熵损失导数(Categorical Cross-Entropy loss derivative)2. 分类交叉熵损失衍生代码实现3. Softmax激活导数(Softmax activation derivative)4. Softmax激活函数…...

Flink是如何实现 End-To-End Exactly-once的?

flink 如何实现端到端的 Exactly-once? 端到端包含 Source, Transformation,Sink 三部分的Exactly-once Source:支持数据的replay,如Kafka的offset。Transformation:借助于checkpointSink:Checkpoint 两阶段事务提交 两阶段提…...

【vulhub】nginx解析漏洞(nginx_parsing_vulnerability)

1. nginx解析漏洞原理 fastcgi 在处理’.php’文件时发现文件并不存在,这时 php.ini 配置文件中cgi.fix_pathinfo1 发挥作用,这项配置用于修复路径,如果当前路径不存在则采用上层路径 (1)由于 nginx.conf的配置导致 nginx把以’.php”结尾的文件交给 fastcgi 处理,为此可以构造…...

网络协议之邮件协议(SMTP、POP3与IMAP)

一、引言 在数字化时代,电子邮件已成为人们日常沟通和信息交流的重要工具。电子邮件系统的稳定运行离不开一系列网络协议的支撑,其中SMTP、POP3和IMAP是最为关键的三个协议。它们分别负责邮件的发送、接收和管理,共同构建了一个高效、稳定的…...

python学习笔记(3)运算符

Python 语言支持的运算符: Python 语言支持以下类型的运算符: 算术运算符 比较(关系)运算符 赋值运算符 逻辑运算符 位运算符 成员运算符 身份运算符 运算符优先级 接下来让我们一个个来学习Python的运算符。 Python算术运算符 运算符描述实例加 - 两…...

_FYAW智能显示控制仪表的简单使用_串口通信

一、简介 该仪表可以实时显示位移传感器的测量值,并可设定阈值等。先谈谈简单的使用方法,通过说明书,我们可以知道长按SET键可以进入参数选择状态,按“↑”“↓”可以选择该组参数的上一个或者下一个参数。 从参数一览中可以看到有…...

激光雷达定位初始化的另外一个方案 通过键盘按键移动当前位姿 (附python代码)

通常使用的是通过在 rviz 中点选指定初始化位置和方向来完成点云的初始化匹配。 但是这种粗略的初始化方法有时候可能不成功,因此需要使用准确的初始化方法,以更好的初始值进行无损检测配准。 为了提供更好的匹配初始值,我使用 Python 脚本获取键盘输入,并不断调整这个匹配…...

从0-1逐步搭建一个前端脚手架工具并发布到npm

前言 vue-cli 和 create-react-app 等 cli 脚手架工具用于快速搭建应用,无需手动配置复杂的构建环境。本文介绍如何使用 rollup 搭建一个脚手架工具。 脚手架工具的工作流程简言为:提供远端仓库各种模版 > 用户通过命令选择模版 > 拉取仓库代码 …...

河道水位流量一体化自动监测系统:航运安全的护航使者

在广袤的水域世界中,航运安全始终是至关重要的课题。而河道水位流量一体化自动监测系统的出现,如同一位强大的护航使者,为航运事业的稳定发展提供了坚实的保障。 水位传感器:负责实时监测河道的水位变化。这些传感器通常采用先进的…...

宜宾建设招标网站/网站建设多少钱

酷壳博主、亚马逊高级研发经理陈皓,作了《高并发互联网应用性能优化实践》,演讲中提出一个新的观点——节省资源,少用资源,你的程序可能会跑得更快。还解析扩展的三个方向和程序性能等精彩观点。 扩展性总结出三点: X轴…...

网站页头是什么/中国市场营销网网站

点击上方蓝字,记得关注我们!win10原装的主题,老套的桌面布局,已经让许多人心生疲倦再看看美化后的桌面▼▼爱了爱了,废话不多说,上教程▼▼工具下载下载链接:https://pan.baidu.com/s/19jPqMtFD-bavRhc-OSw…...

集客crm/网站seo分析报告

外在的环境我们无法改变,我们唯一能做的,就是改变我们自己,以便能够在我们人生最美好的时光,尽可能多地从大学现有的资源中汲取营养。现在,就让我们来分析一下大学里开设的课程,究竟对我们有什么意义&#…...

网站建设 培训班 成都/百度搜索app免费下载

我们在写Pattern的时候,有时会碰到需要特殊处理的符号。例如大小括号{}里面又包含了{},由于正在表达式是会将{}括号中的内容进行数值解析的。因此我们需要将括号作为字符串输出(注意:不是转义,不是转义,不是…...

怎么选择邯郸做网站/搜索引擎推广和优化方案

一、准备 由于内核栈不可执行(NX),栈溢出利用需用到ROP。简单回顾一下ARM ROP。 漏洞演示代码如下,网上随便找了个。 char *str"/system/bin/sh";void callsystem() {system("id"); }void vulnerable_functio…...

做网站前台用什么软件/百度文库登录入口

第1关:柱状图 - 商品房销售价格统计图 本关任务:请编写代码绘制办公楼商品房平均销售价格柱状图。 # 请编写代码绘制住宅商品房平均销售价格柱状图import matplotlib matplotlib.use("Agg")# 请在此添加实现代码 # # ********** Begin *********# import matpl…...