DataWhale - 吃瓜教程学习笔记(一)
学习视频:第1章-绪论_哔哩哔哩_bilibili
西瓜书对应章节: 第一章 & 第二章
文章目录
- 机器学习三观
- What:什么是机器学习?
- Why: 为什么要学机器学习?
- 1. 机器学习理论研究
- 2. 机器学习系统开发
- 3. 机器学习算法迁移 (AI+)
- 4. AI 应用方向研究:NLP, CV, 推荐系统
- How: 怎样学习深度学习?
- - 纯理论研究
- - 系统的开发
- - 算法迁移 (AI for Science)
- - AI 应用方向研究
- 基础核心知识概念
- 假设空间 & 版本空间
- 算法
- 样本(示例)
- 标记
- 样本空间 & 标记空间
- 机器学习任务分类 (根据标记取值类型不同)
- 机器学习任务分类 (根据是否用到标记信息)
- 数据集
- 泛化
- 分布
- 归纳偏好
- 数据决定模型的上限,算法则是让模型无限逼近上限
- - 数据决定模型的上限
- 模型评估与选择
- - 经验误差与过拟合
- - 精度
- - 训练误差 & 泛化误差
- - 过拟合
- - 欠拟合
- - 评估方法
- - 留出法
- - 交叉验证法
- - 自助法
- - 验证集
- 性能度量
- - 均方误差
- - 错误率
- - 精度
- - 查准率 & 查全率
- - F1 度量
- - ROC 曲线
- - 代价敏感错误率 & 代价曲线
- - 比较检验
- - 假设检验
- - 交叉验证T检验
- - McNemar 检验
- - Friedman 检验 和 Nemenyi 后续检验
- - 偏差与方差
机器学习三观
What:什么是机器学习?
关键词:“学习算法”
Why: 为什么要学机器学习?
1. 机器学习理论研究
2. 机器学习系统开发
3. 机器学习算法迁移 (AI+)
4. AI 应用方向研究:NLP, CV, 推荐系统
How: 怎样学习深度学习?
- 纯理论研究
- 系统的开发
- 算法迁移 (AI for Science)
- AI 应用方向研究
基础核心知识概念
假设空间 & 版本空间
假设空间定义了所有可能的解决方案;版本空间则是在考虑了训练数据后,认为可能正确的解决方案的集合
算法
从数据中学得模型的“具体方法”,其产出结果称为“模型”
样本(示例)
关于一个事件或对象的描述。用向量进行表示,向量中的各个维度称为“特征”或“属性“。向量中的元素用分号 “;” 表示为列向量,用逗号 ","表示为行向量。
标记
学习样本在某方面的表现存在潜在规律的的信息。
样本空间 & 标记空间
所有可能的输入数据或特征向量的集合;
所有可能的输出标签或目标值的集合
机器学习任务分类 (根据标记取值类型不同)
- 标记取值为“离散型”, 任务为 分类
- 标记取值为 “连续型”, 任务为 回归
机器学习任务分类 (根据是否用到标记信息)
- 训练阶段有用到标记信息,此类任务为 “监督学习”
- 训练阶段没用到标记信息,此类任务为 “无监督学习”
数据集
- 通常用集合表示
- 一般同一份数据集中的每个样本都含相同个数的特征
- 样本 x i j x_{ij} xij 表示样本 x i x_i xi 在第 j 个属性上的取值
泛化
模型对未在训练过程中见过的数据进行准确预测的能力
分布
概率论中的概率分布。
归纳偏好
不同的机器学习算法有不同的偏好
- 最常用的评价方法是 - 基于模型在测试集上的表现评判模型的优劣。
- 机器学习算法没有绝对的优劣之分,只有是否适合当前待解决问题之分。
- 没有免费的午餐定理(NFL):众算法生而平等(哪个算法训出来的模型在测试集上表现好哪个算法 nb)。
数据决定模型的上限,算法则是让模型无限逼近上限
- 数据决定模型的上限
数据是指从 数据量 和 特征工程 两个角度考虑
- 通常数据量越大模型效果越好
- 通常对特征数值化越合理,特征收集越全越细致,模型效果通常越好
模型评估与选择
- 经验误差与过拟合
- 精度
- 训练误差 & 泛化误差
训练集上的误差;新样本上的误差
- 过拟合
- 欠拟合
- 评估方法
- 留出法
直接将数据集划分为 数据集 和 测试集 。
- 训练集和测试集要尽量保证数据分布的一致性
- 采用采样类别比例相似的 分层采样 。
- 交叉验证法
先将数据集划分为 k 个互斥子集,尽可能保持数据分布的一致性,然后以 k-1 个子集的并集作为训练集,余下子集作为测试集,进行k次训练测试,最终返回训练结果的均值。
- 有m个数据,令 k = m,则为 留一法 。
- 自助法
可重复有放回采样。
- 训练集的数量会增多
- 有可能会改变数据集的分布
- 验证集
对模型进行评估测试的数据集。
性能度量
- 均方误差
- 错误率
分类错误样本数占样本总数的比例。
- 精度
分类正确的样本数占样本总数的比例。
- 查准率 & 查全率
- F1 度量
- ROC 曲线
- 代价敏感错误率 & 代价曲线
X轴 -
Y轴 -
- 比较检验
- 假设检验
- 交叉验证T检验
- McNemar 检验
- Friedman 检验 和 Nemenyi 后续检验
- 偏差与方差
- 偏差 度量了 学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力
- 方差 度量了同样大小的训练集的变动导致的学习性能的变化,刻画了数据扰动造成的影响
- 噪声 表达了当前任务上任何学习算法所能达到的期望泛化的误差的下界,刻画了学习问题本身的难度
- 泛化性能是由 学习算法的能力、数据的充分性、学习任务本身的难度 共同决定的。为了取得良好的泛化性能,需要使得方差、偏差都较小。
相关文章:

DataWhale - 吃瓜教程学习笔记(一)
学习视频:第1章-绪论_哔哩哔哩_bilibili 西瓜书对应章节: 第一章 & 第二章 文章目录 机器学习三观What:什么是机器学习?Why: 为什么要学机器学习?1. 机器学习理论研究2. 机器学习系统开发3. 机器学习算法迁移 &…...

Attention Is All You Need论文地址
论文地址 点击即可...
如何优雅的一键下载OpenHarmony活跃分支代码?请关注【itopen: ohos_download】
itopen组织:1、提供OpenHarmony优雅实用的小工具2、手把手适配riscv qemu linux的三方库移植3、未来计划riscv qemu ohos的三方库移植 小程序开发4、一切拥抱开源,拥抱国产化 一、概述 为方便大家每次下载OpenHarmony不同分支/tag代码,…...
torch.topk用法
torch.topk用法 介绍使用示例 介绍 官网介绍:https://pytorch.org/docs/stable/generated/torch.topk.html 在指定维度选取k个最大(最小)的值。 使用示例 values torch.tensor([[2, 1, 3], [1, 2, 3]]) # values # tensor([[2, 1, 3], #…...

终极版本的Typora上传到博客园和csdn
激活插件 下载网址是这个: https://codeload.github.com/obgnail/typora_plugin/zip/refs/tags/1.9.4 解压之后这样的: 解压之后将plugin,复制到自己的安装目录下的resources 点击安装即可: 更改配置文件 "dependencies&q…...
洛谷:P5707【深基2.例12】上学迟到
1. 题目链接 https://www.luogu.com.cn/problem/P5707 【深基2.例12】上学迟到 2. 题目描述 学校和y的家距离s米,s以v的速度去学校,8点之前到,y出门前要打扫10分钟卫生,求s最晚的出门时间 输入:两个正整数路程s&…...
数据治理:数据提取过程中的合规性与安全性
数据治理:数据提取过程中的合规性与安全性 随着数字化时代的到来,数据已经成为企业运营和决策的核心驱动力。然而,在数据提取的过程中,确保数据的合规性和安全性成为了企业面临的重要挑战。数据治理作为一种系统的方法࿰…...

24计算机应届生的活路是什么
不够大胆❗ 很多小伙伴在找工作时觉得自己没有竞争力,很没有自信,以至于很害怕找工作面试,被人否定的感觉很不好受。 其实很多工作并没有想象中的高大上,不要害怕,计算机就业的方向是真的广,不要走窄了&…...
HTML页面布局-使用div示例
<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body><!--text-align:center 文字水平居中line-height:200px; 文字垂直居中,行高设置跟高…...

怎么把webp文件转换为jpg?快来试试这四种转换方法!
怎么把webp文件转换为jpg?Webp是一种不常见的图片格式,这种格式在使用过程中有很多缺点,首先它的浏览器兼容性不是很强,这就代表大家无法随意进行网络传输,可能需要准备特定的操作才能进行,然后编辑webp的工…...

计算机网络(7) 错误检测
一.校验和 使用补码计算校验和是一种常见的错误检测方法,应用于网络协议如IP和TCP。补码是二进制数的一种表示方法,可以有效地处理符号位和进位。下面是如何利用补码计算校验和的详细步骤和算数例子。 ### 计算步骤 1. **将数据分块**:将数…...

实体类status属性使用枚举类型的步骤
1. 问题引出 当实体类的状态属性为Integer类型时,容易写错 2. 初步修改 把状态属性强制为某个类型,并且自定义一些可供选择的常量。 public class LessonStatus {public static final LessonStatus NOT_LEARNED new LessonStatus(0,"未学习"…...

pytorch基础【4】梯度计算、链式法则、梯度清零
文章目录 梯度计算计算图(Computational Graph)梯度求导(Gradient Computation)函数与概念 示例代码更多细节梯度求导的过程梯度求导的基本步骤示例代码注意事项总结 链式法则是什么?链式法则的数学定义链式法则在深度…...
mapreduce综合应用案例 — 招聘数据清洗
MapReduce是一个编程模型和处理大数据集的框架,它由Google开发并广泛使用于分布式计算环境中。MapReduce模型包含两个主要的函数:Map和Reduce。Map函数用于处理输入的键值对生成中间键值对,Reduce函数则用于合并Map函数输出的具有相同键的中间…...

发力采销,京东的“用户关系学”
作者 | 曾响铃 文 | 响铃说 40多岁打扮精致的城市女性,在西藏那曲的偏远农村,坐着藏民的摩托车,行驶在悬崖边的烂泥路上,只因为受顾客的“委托”,要寻找最原生态的藏区某款产品。 30多岁的憨厚中年男性,…...

期望23K,go高级社招面试复盘
面经哥只做互联网社招面试经历分享,关注我,每日推送精选面经,面试前,先找面经哥 我最终还是上岸了,花了一周总结了3万字的go社招高级面试知识体系思维导图,分享出来希望能帮助有缘人吧,以下只是…...

电感(线圈)具有哪些基本特性
首先,电感(线圈)具有以下基本特性,称之为“电感的感性电抗” ?①直流基本上直接流过。 ?②对于交流,起到类似电阻的作用。 ?③频率越高越难通过。 下面是表示电感的频率和阻抗特性的示意图。 在理想电感器中&#…...

tkinter实现一个GUI界面-快速入手
目录 一个简单界面输出效果其他功能插入进度条文本框内容输入和删除标签内容显示和删除 一个简单界面 含插入文本、文本框、按钮、按钮调用函数 # -*- coding: UTF-8 -*-import tkinter as tk from tkinter import END from tkinter import filedialog from tkinter impor…...

Top10在线音频剪辑软件,你了解几款?(免费分享)
多年来,随着音乐制作人和音频工程师的需求不断增长,音频剪辑软件领域经历了巨大的发展。最新的音频剪辑软件提供了从基本录制到最终发布所需的一切功能。其中一些软件专为播客设计,一些软件是免费的,并且一些软件提供了出色的音效…...
mysql报错:You can‘t specify target table ‘Person‘ for update in FROM clause
背景 在做leetcode里数据库的196题删除重复数据时,我参考评论区大佬的方法先用group by找到每个分组里的最小的id的那条记录,然后删掉原表中id不在其中的记录,然后就报了如题所示的错误。 我的写法如下: DELETE FROMPerson WHER…...
web vue 项目 Docker化部署
Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段: 构建阶段(Build Stage):…...

iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘
美国西海岸的夏天,再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至,这不仅是开发者的盛宴,更是全球数亿苹果用户翘首以盼的科技春晚。今年,苹果依旧为我们带来了全家桶式的系统更新,包括 iOS 26、iPadOS 26…...

3.3.1_1 检错编码(奇偶校验码)
从这节课开始,我们会探讨数据链路层的差错控制功能,差错控制功能的主要目标是要发现并且解决一个帧内部的位错误,我们需要使用特殊的编码技术去发现帧内部的位错误,当我们发现位错误之后,通常来说有两种解决方案。第一…...

Python爬虫(一):爬虫伪装
一、网站防爬机制概述 在当今互联网环境中,具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。这些措施主要分为两大类: 身份验证机制:直接将未经授权的爬虫阻挡在外反爬技术体系:通过各种技术手段增加爬虫获取数据的难度…...

初探Service服务发现机制
1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。 主要功能:服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源…...

嵌入式学习笔记DAY33(网络编程——TCP)
一、网络架构 C/S (client/server 客户端/服务器):由客户端和服务器端两个部分组成。客户端通常是用户使用的应用程序,负责提供用户界面和交互逻辑 ,接收用户输入,向服务器发送请求,并展示服务…...

Razor编程中@Html的方法使用大全
文章目录 1. 基础HTML辅助方法1.1 Html.ActionLink()1.2 Html.RouteLink()1.3 Html.Display() / Html.DisplayFor()1.4 Html.Editor() / Html.EditorFor()1.5 Html.Label() / Html.LabelFor()1.6 Html.TextBox() / Html.TextBoxFor() 2. 表单相关辅助方法2.1 Html.BeginForm() …...
Python Einops库:深度学习中的张量操作革命
Einops(爱因斯坦操作库)就像给张量操作戴上了一副"语义眼镜"——让你用人类能理解的方式告诉计算机如何操作多维数组。这个基于爱因斯坦求和约定的库,用类似自然语言的表达式替代了晦涩的API调用,彻底改变了深度学习工程…...
比较数据迁移后MySQL数据库和OceanBase数据仓库中的表
设计一个MySQL数据库和OceanBase数据仓库的表数据比较的详细程序流程,两张表是相同的结构,都有整型主键id字段,需要每次从数据库分批取得2000条数据,用于比较,比较操作的同时可以再取2000条数据,等上一次比较完成之后,开始比较,直到比较完所有的数据。比较操作需要比较…...
怎么让Comfyui导出的图像不包含工作流信息,
为了数据安全,让Comfyui导出的图像不包含工作流信息,导出的图像就不会拖到comfyui中加载出来工作流。 ComfyUI的目录下node.py 直接移除 pnginfo(推荐) 在 save_images 方法中,删除或注释掉所有与 metadata …...