当前位置: 首页 > news >正文

DataWhale - 吃瓜教程学习笔记(一)

学习视频:第1章-绪论_哔哩哔哩_bilibili
西瓜书对应章节: 第一章 & 第二章


文章目录

  • 机器学习三观
    • What:什么是机器学习?
    • Why: 为什么要学机器学习?
        • 1. 机器学习理论研究
        • 2. 机器学习系统开发
        • 3. 机器学习算法迁移 (AI+)
        • 4. AI 应用方向研究:NLP, CV, 推荐系统
    • How: 怎样学习深度学习?
        • - 纯理论研究
        • - 系统的开发
        • - 算法迁移 (AI for Science)
        • - AI 应用方向研究
  • 基础核心知识概念
        • 假设空间 & 版本空间
        • 算法
        • 样本(示例)
        • 标记
        • 样本空间 & 标记空间
        • 机器学习任务分类 (根据标记取值类型不同)
        • 机器学习任务分类 (根据是否用到标记信息)
        • 数据集
        • 泛化
        • 分布
        • 归纳偏好
  • 数据决定模型的上限,算法则是让模型无限逼近上限
        • - 数据决定模型的上限
  • 模型评估与选择
    • - 经验误差与过拟合
        • - 精度
        • - 训练误差 & 泛化误差
        • - 过拟合
        • - 欠拟合
    • - 评估方法
        • - 留出法
        • - 交叉验证法
        • - 自助法
        • - 验证集
    • 性能度量
        • - 均方误差
        • - 错误率
        • - 精度
        • - 查准率 & 查全率
        • - F1 度量
        • - ROC 曲线
        • - 代价敏感错误率 & 代价曲线
        • - 比较检验
          • - 假设检验
        • - 交叉验证T检验
        • - McNemar 检验
        • - Friedman 检验 和 Nemenyi 后续检验
        • - 偏差与方差


机器学习三观

What:什么是机器学习?

关键词:“学习算法”

Why: 为什么要学机器学习?

1. 机器学习理论研究
2. 机器学习系统开发
3. 机器学习算法迁移 (AI+)
4. AI 应用方向研究:NLP, CV, 推荐系统

How: 怎样学习深度学习?

- 纯理论研究
- 系统的开发

1C6PR5L3A4ALU899PL%6V.png

- 算法迁移 (AI for Science)
- AI 应用方向研究

基础核心知识概念

假设空间 & 版本空间

假设空间定义了所有可能的解决方案;版本空间则是在考虑了训练数据后,认为可能正确的解决方案的集合

算法

从数据中学得模型的“具体方法”,其产出结果称为“模型”

样本(示例)

关于一个事件或对象的描述。用向量进行表示,向量中的各个维度称为“特征”或“属性“。向量中的元素用分号 “;” 表示为列向量,用逗号 ","表示为行向量。

标记

学习样本在某方面的表现存在潜在规律的的信息。

样本空间 & 标记空间

所有可能的输入数据或特征向量的集合;
所有可能的输出标签或目标值的集合

机器学习任务分类 (根据标记取值类型不同)
  • 标记取值为“离散型”, 任务为 分类
  • 标记取值为 “连续型”, 任务为 回归
机器学习任务分类 (根据是否用到标记信息)
  • 训练阶段有用到标记信息,此类任务为 “监督学习”
  • 训练阶段没用到标记信息,此类任务为 “无监督学习”
数据集
  • 通常用集合表示
  • 一般同一份数据集中的每个样本都含相同个数的特征
  • 样本 x i j x_{ij} xij 表示样本 x i x_i xi 在第 j 个属性上的取值
泛化

模型对未在训练过程中见过的数据进行准确预测的能力

分布

概率论中的概率分布。

归纳偏好

不同的机器学习算法有不同的偏好

  • 最常用的评价方法是 - 基于模型在测试集上的表现评判模型的优劣。
  • 机器学习算法没有绝对的优劣之分,只有是否适合当前待解决问题之分。
  • 没有免费的午餐定理(NFL):众算法生而平等(哪个算法训出来的模型在测试集上表现好哪个算法 nb)。

数据决定模型的上限,算法则是让模型无限逼近上限

- 数据决定模型的上限

数据是指从 数据量特征工程 两个角度考虑

  • 通常数据量越大模型效果越好
  • 通常对特征数值化越合理,特征收集越全越细致,模型效果通常越好

模型评估与选择

- 经验误差与过拟合

- 精度
- 训练误差 & 泛化误差

训练集上的误差;新样本上的误差

- 过拟合
- 欠拟合

image.png

- 评估方法

- 留出法

直接将数据集划分为 数据集测试集

  • 训练集和测试集要尽量保证数据分布的一致性
  • 采用采样类别比例相似的 分层采样
- 交叉验证法

先将数据集划分为 k 个互斥子集,尽可能保持数据分布的一致性,然后以 k-1 个子集的并集作为训练集,余下子集作为测试集,进行k次训练测试,最终返回训练结果的均值。

image.png

  • 有m个数据,令 k = m,则为 留一法
- 自助法

可重复有放回采样。

  • 训练集的数量会增多
  • 有可能会改变数据集的分布
- 验证集

对模型进行评估测试的数据集。

性能度量

- 均方误差

image.png

image.png

- 错误率

分类错误样本数占样本总数的比例。

image.png

- 精度

分类正确的样本数占样本总数的比例。

image.png

- 查准率 & 查全率

image.png

image.png

- F1 度量

image.png

- ROC 曲线

image.png

image.png

image.png

- 代价敏感错误率 & 代价曲线

image.png

X轴 -
image.png

Y轴 -
image.png

image.png

- 比较检验
- 假设检验

image.png

image.png

- 交叉验证T检验
- McNemar 检验

image.png

image.png

- Friedman 检验 和 Nemenyi 后续检验

image.png


- 偏差与方差

image.png

  • 偏差 度量了 学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力
  • 方差 度量了同样大小的训练集的变动导致的学习性能的变化,刻画了数据扰动造成的影响
  • 噪声 表达了当前任务上任何学习算法所能达到的期望泛化的误差的下界,刻画了学习问题本身的难度
  • 泛化性能是由 学习算法的能力、数据的充分性、学习任务本身的难度 共同决定的。为了取得良好的泛化性能,需要使得方差、偏差都较小。

image.png


image.png

相关文章:

DataWhale - 吃瓜教程学习笔记(一)

学习视频:第1章-绪论_哔哩哔哩_bilibili 西瓜书对应章节: 第一章 & 第二章 文章目录 机器学习三观What:什么是机器学习?Why: 为什么要学机器学习?1. 机器学习理论研究2. 机器学习系统开发3. 机器学习算法迁移 &…...

Attention Is All You Need论文地址

论文地址 点击即可...

如何优雅的一键下载OpenHarmony活跃分支代码?请关注【itopen: ohos_download】

itopen组织:1、提供OpenHarmony优雅实用的小工具2、手把手适配riscv qemu linux的三方库移植3、未来计划riscv qemu ohos的三方库移植 小程序开发4、一切拥抱开源,拥抱国产化 一、概述 为方便大家每次下载OpenHarmony不同分支/tag代码&#xff0c…...

torch.topk用法

torch.topk用法 介绍使用示例 介绍 官网介绍:https://pytorch.org/docs/stable/generated/torch.topk.html 在指定维度选取k个最大(最小)的值。 使用示例 values torch.tensor([[2, 1, 3], [1, 2, 3]]) # values # tensor([[2, 1, 3], #…...

终极版本的Typora上传到博客园和csdn

激活插件 下载网址是这个: https://codeload.github.com/obgnail/typora_plugin/zip/refs/tags/1.9.4 解压之后这样的: 解压之后将plugin,复制到自己的安装目录下的resources 点击安装即可: 更改配置文件 "dependencies&q…...

洛谷:P5707【深基2.例12】上学迟到

1. 题目链接 https://www.luogu.com.cn/problem/P5707 【深基2.例12】上学迟到 2. 题目描述 学校和y的家距离s米,s以v的速度去学校,8点之前到,y出门前要打扫10分钟卫生,求s最晚的出门时间 输入:两个正整数路程s&…...

数据治理:数据提取过程中的合规性与安全性

数据治理:数据提取过程中的合规性与安全性 随着数字化时代的到来,数据已经成为企业运营和决策的核心驱动力。然而,在数据提取的过程中,确保数据的合规性和安全性成为了企业面临的重要挑战。数据治理作为一种系统的方法&#xff0…...

24计算机应届生的活路是什么

不够大胆❗ 很多小伙伴在找工作时觉得自己没有竞争力,很没有自信,以至于很害怕找工作面试,被人否定的感觉很不好受。 其实很多工作并没有想象中的高大上,不要害怕,计算机就业的方向是真的广,不要走窄了&…...

HTML页面布局-使用div示例

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body><!--text-align:center 文字水平居中line-height&#xff1a;200px; 文字垂直居中,行高设置跟高…...

怎么把webp文件转换为jpg?快来试试这四种转换方法!

怎么把webp文件转换为jpg&#xff1f;Webp是一种不常见的图片格式&#xff0c;这种格式在使用过程中有很多缺点&#xff0c;首先它的浏览器兼容性不是很强&#xff0c;这就代表大家无法随意进行网络传输&#xff0c;可能需要准备特定的操作才能进行&#xff0c;然后编辑webp的工…...

计算机网络(7) 错误检测

一.校验和 使用补码计算校验和是一种常见的错误检测方法&#xff0c;应用于网络协议如IP和TCP。补码是二进制数的一种表示方法&#xff0c;可以有效地处理符号位和进位。下面是如何利用补码计算校验和的详细步骤和算数例子。 ### 计算步骤 1. **将数据分块**&#xff1a;将数…...

实体类status属性使用枚举类型的步骤

1. 问题引出 当实体类的状态属性为Integer类型时&#xff0c;容易写错 2. 初步修改 把状态属性强制为某个类型&#xff0c;并且自定义一些可供选择的常量。 public class LessonStatus {public static final LessonStatus NOT_LEARNED new LessonStatus(0,"未学习"…...

pytorch基础【4】梯度计算、链式法则、梯度清零

文章目录 梯度计算计算图&#xff08;Computational Graph&#xff09;梯度求导&#xff08;Gradient Computation&#xff09;函数与概念 示例代码更多细节梯度求导的过程梯度求导的基本步骤示例代码注意事项总结 链式法则是什么&#xff1f;链式法则的数学定义链式法则在深度…...

mapreduce综合应用案例 — 招聘数据清洗

MapReduce是一个编程模型和处理大数据集的框架&#xff0c;它由Google开发并广泛使用于分布式计算环境中。MapReduce模型包含两个主要的函数&#xff1a;Map和Reduce。Map函数用于处理输入的键值对生成中间键值对&#xff0c;Reduce函数则用于合并Map函数输出的具有相同键的中间…...

发力采销,京东的“用户关系学”

作者 | 曾响铃 文 | 响铃说 40多岁打扮精致的城市女性&#xff0c;在西藏那曲的偏远农村&#xff0c;坐着藏民的摩托车&#xff0c;行驶在悬崖边的烂泥路上&#xff0c;只因为受顾客的“委托”&#xff0c;要寻找最原生态的藏区某款产品。 30多岁的憨厚中年男性&#xff0c;…...

期望23K,go高级社招面试复盘

面经哥只做互联网社招面试经历分享&#xff0c;关注我&#xff0c;每日推送精选面经&#xff0c;面试前&#xff0c;先找面经哥 我最终还是上岸了&#xff0c;花了一周总结了3万字的go社招高级面试知识体系思维导图&#xff0c;分享出来希望能帮助有缘人吧&#xff0c;以下只是…...

电感(线圈)具有哪些基本特性

首先&#xff0c;电感&#xff08;线圈&#xff09;具有以下基本特性&#xff0c;称之为“电感的感性电抗” ?①直流基本上直接流过。 ?②对于交流&#xff0c;起到类似电阻的作用。 ?③频率越高越难通过。 下面是表示电感的频率和阻抗特性的示意图。 在理想电感器中&#…...

tkinter实现一个GUI界面-快速入手

目录 一个简单界面输出效果其他功能插入进度条文本框内容输入和删除标签内容显示和删除 一个简单界面 含插入文本、文本框、按钮、按钮调用函数 # -*- coding: UTF-8 -*-import tkinter as tk from tkinter import END from tkinter import filedialog from tkinter impor…...

Top10在线音频剪辑软件,你了解几款?(免费分享)

多年来&#xff0c;随着音乐制作人和音频工程师的需求不断增长&#xff0c;音频剪辑软件领域经历了巨大的发展。最新的音频剪辑软件提供了从基本录制到最终发布所需的一切功能。其中一些软件专为播客设计&#xff0c;一些软件是免费的&#xff0c;并且一些软件提供了出色的音效…...

mysql报错:You can‘t specify target table ‘Person‘ for update in FROM clause

背景 在做leetcode里数据库的196题删除重复数据时&#xff0c;我参考评论区大佬的方法先用group by找到每个分组里的最小的id的那条记录&#xff0c;然后删掉原表中id不在其中的记录&#xff0c;然后就报了如题所示的错误。 我的写法如下&#xff1a; DELETE FROMPerson WHER…...

Python sorted()方法

sorted() 是Python中的一个内置函数&#xff0c;用于对可迭代对象进行排序。它返回一个新的已排序的列表&#xff0c;而不会修改原始的可迭代对象。sorted() 函数的基本语法如下&#xff1a; sorted(iterable, keyNone, reverseFalse)参数解释&#xff1a; iterable&#xff…...

云上宝库:三大厂商对象存储安全性及差异性比较

前言 看了几家云厂商的对象存储&#xff0c;使用上有相似也有差异&#xff0c;聊聊阿里云、腾讯云、京东云三家对象存储在使用中存在的风险以及防护措施。 0x01 云存储命名 阿里云对象存储OSS(Object Storage Service)&#xff0c;新用户免费试用三个月&#xff0c;存储包容…...

【计算机网络体系结构】计算机网络体系结构实验-www实验

二、www实验 1. 添加网站 2. 浏览器打开...

Windows下MySQL数据库定期备份SQL文件与删除历史备份文件.bat脚本

目录 一、功能需求 二、解决方案 (1)新建文件夹及批处理文件 (2)编写备份脚本 ①完整脚本 ②参数修改 (3)编写定期删除备份脚本 ①根据文件名识别日期进行删除 ② 根据文件的修改日期删除 (4)设置定时器 (5)常见报错与处理 一、功能需求 在Windows系统下…...

electron基础使用

安装以及运行 当前node版本18&#xff0c;按照官网提供操作&#xff0c;npm init进行初始化操作&#xff0c;将index.js修改为main.js&#xff0c;执行npm install --save-dev electron。&#xff08;这里我挂梯子下载成功了。&#xff09;&#xff0c;添加如下代码至package.…...

9.华为交换机telnet远程管理配置aaa认证

目的&#xff1a;telnet远程管理设备 LSW1配置 [Huawei]int Vlanif 1 [Huawei-Vlanif1]ip add 1.1.1.1 24 [Huawei-Vlanif1]q [Huawei]user-interface vty 0 4 [Huawei-ui-vty0-4]authentication-mode aaa [Huawei-ui-vty0-4]q [Huawei]aaa [Huawei-aaa]local-user admin pass…...

xcode报错合集,你都遇到过哪些跳不过的坑

1.报错Consecutive declarations on a line must be separated by ; 其实我这里是用因为创建了一个结构体&#xff0c;然后在没有使用State的情况下&#xff0c;修改它的属性了 当然加上State依然报错&#xff1a; 应该在UI事件中修改&#xff1a;...

六面体大米装袋机长期稳定运行原因分析

随着现代化农业生产的发展&#xff0c;六面体大米装袋机已成为粮食加工行业不可或缺的重要设备。然而&#xff0c;如何确保这些机器长期稳定运行&#xff0c;提高生产效率&#xff0c;降低维护成本&#xff0c;一直是广大粮食加工企业关注的焦点。星派将为您揭示六面体大米装袋…...

android的surface

相信很多Android开发者都知道Canvas类是UI的画布&#xff08;虽然这种说法并不严谨&#xff09;&#xff0c;因为我们在Canvas上完成各种图形的绘制&#xff0c;那么我们Activity上的各种交互控件又是如何展示并渲染到屏幕上的呢&#xff0c;所以在另一个层面上也有一个“画布”…...

Z世代职场价值观的重塑:从“班味”心态到个人成长的追求

近日&#xff0c;社交平台Soul APP联合上海市精神卫生中心&#xff08;俗称“宛平南路600号”&#xff09;发布《2024年Z世代职场心理健康报告》&#xff08;下称“报告”&#xff09;&#xff0c;发现今天的年轻人正以其独特的价值观和行为模式&#xff0c;重新定义成功与成就…...

专业建设 验收 网站/千锋教育官方网

行内元素(inline element)&#xff0c;又叫内联元素&#xff0c;内联元素只能容纳文本或者其他内联元素&#xff0c;常见的行内元素<span>,<a>. 块元素(block element),块元素一般都是从新行开始&#xff0c;可以容纳文本&#xff0c;其他内联元素和其它块元素&…...

松江做移动网站/衡阳百度推广

2019独角兽企业重金招聘Python工程师标准>>> 在Shell中输入hql"select * from b_table"; hive -e $hql; 提示执行失败&#xff0c;逐步排查发现hql变量中的“*”已经被替换成一串字符串&#xff0c;该字符串正是当前目录下的一系列文件名。由此可以联想到…...

wordpress 日文模块/深圳外包网络推广

当你需要确保长时间运行的任务不会在 SSH 会话中断时被杀死时&#xff0c;Linux screen 命令可以成为救生员。以下是使用方法。如果因 SSH 会话断开而不得不重启一个耗时的进程&#xff0c;那么你可能会很高兴了解一个有趣的工具&#xff0c;可以用来避免此问题&#xff1a;scr…...

asp网站后台源码/seo排名工具给您好的建议

我们知道docker run是可以指定端口映射的&#xff0c;但是容器一旦生成就没有一个命令可以直接修改。通常间接的办法是保存镜像&#xff0c;再创建一个新的容器&#xff0c;在创建时指定新的端口映射。那么有什么办法可以不保存镜像而直接修改已有的这个容器呢&#xff1f;具体…...

mac怎么将字体导入wordpress/佛山百度网站快速排名

背景介绍-升级JRE后Applet无法运行 这两天Oracle发布了JDK的最新版本 JFK_1.8_60。我们有个客户第一时间更新了最新的版本&#xff0c;这导致了他无法运行我们的Applet(SwingJavaFX2)产品。 每次遇到因为升级JRE而引起的环境问题&#xff0c;心中都要默默骂Oracle 100遍。以前…...

自己组装电脑做网站服务器/广告平台网站有哪些

CoolFormat源代码格式化 https://blog.csdn.net/akof1314/article/details/5355948 软件介绍&#xff1a; CoolFormat源代码格式化是一款C\C\C#\CSS\HTML\Java\JavaScript\JSON\Objective-C\PHP\SQL\XML代码格式化工具。软件可以快速多种风格格式化&#xff0c;并对语言进…...