机器学习——期末复习 重点题归纳
第一题
问题描述
现有如下数据样本:
编号 | 色泽 | 敲声 | 甜度 | 好瓜 |
---|---|---|---|---|
1 | 乌黑 | 浊响 | 高 | 是 |
2 | 浅白 | 沉闷 | 低 | 否 |
3 | 青绿 | 清脆 | 中 | 是 |
4 | 浅白 | 浊响 | 低 | 否 |
(1)根据上表,给出属于对应假设空间的3个不同假设。若某种算法的归纳偏好为“适应情形尽可能少”,则该算法喜欢选择哪些“判断为好瓜”的假设?
(2)若该数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下设计一种合理的归纳偏好用于假设选择。
回答
(1)假设空间中的三个不同假设
- 假设1:色泽 = 乌黑 ∧ 敲声 = 浊响 ∧ 甜度 = 高 → 好瓜
- 假设2:色泽 = 青绿 ∧ 敲声 = 清脆 ∧ 甜度 = 中 → 好瓜
- 假设3:色泽 ≠ 浅白 ∧ 敲声 ≠ 沉闷 ∧ 甜度 ≠ 低 → 好瓜
如果算法的归纳偏好是“适应情形尽可能少”,那么它会选择那些能够覆盖最少正例的假设。在这种情况下,算法可能会选择以下两个假设:
- 假设1:色泽 = 乌黑 ∧ 敲声 = 浊响 ∧ 甜度 = 高 → 好瓜
- 假设2:色泽 = 青绿 ∧ 敲声 = 清脆 ∧ 甜度 = 中 → 好瓜
这两个假设分别只覆盖了一个正例,因此它们满足“适应情形尽可能少”的要求。
(2)合理的设计归纳偏好
在存在噪声的情况下,假设空间中可能没有一个假设能完全匹配所有的训练样本。此时可以采用以下几种归纳偏好来选择合适的假设:
- 最小化错误率:选择使得预测错误率最低的假设。
- 最大化置信度:选择对正例和负例分类最准确的假设。
- 简化原则:选择最简单的假设,即参数最少或规则最简洁的假设。
这些归纳偏好可以帮助在有噪声的数据集中找到相对较好的假设。
第二题
问题描述
假设由同一数据分布采样得到两个样本集合 S1 和 S2:
- S1 包含 6000 个数据样本;
- S2 包含 120000 个数据样本。
每个样本集均按照 9:1 的比例随机划分为训练集和测试集。请按以下要求,在同一坐标系下清晰地绘制四条曲线,并标记每一条曲线:
- 对于每个样本集合,试画出该集合的训练误差曲线和测试误差曲线;纵轴为误差,横轴为模型复杂度。(5 分)
- 解释曲线为何这样画的原因,即解释不同曲线的变化趋势以及曲线间的高低位置关系。(5 分)
回答问题
1. 绘制曲线
2. 曲线变化原因及位置关系
-
训练误差曲线:随着模型复杂度的增加,模型拟合能力增强,导致训练误差逐渐减小。当模型过拟合时,训练误差会趋于平稳。
-
测试误差曲线:随着模型复杂度的增加,测试误差先下降是因为模型泛化能力提高。然而,当模型过于复杂时,会出现过拟合现象,导致测试误差再次升高。
-
S1 和 S2 曲线比较:由于 S2 样本量更大,其训练误差和测试误差都会比 S1 更低。同时,S2 的最佳模型复杂度也会更高,因为更多的数据有助于避免过拟合。
通过以上分析,我们可以在同一坐标系下绘制出四条曲线,并解释它们的变化趋势及其相互之间的位置关系。
第三题
问题描述
试简述离群点的基本概念并列出三种应对策略
离群点的基本概念
离群点是远离大部分数据点的点。
应对策略
以下是三种应对离群点的常见策略:
A1:只需忽略这些异常值即可。
A2:转换/归一化:应用平方根或取log,以使x/y的值更小,然后离
群值将更靠近大多数数据点。
A3:引入非线性项:y = b + w1x +w2x2。
第四题
问题描述
给定一个含有缺失值的西瓜数据集,其中前10个样本作为训练集,后5个样本作为验证集。数据集包括编号、色泽、敲击声音、根蒂和是否为好瓜五个属性。任务是在决策树的根节点处基于信息增益原则选择最优划分属性,并讨论预剪枝策略下的决策。
数据集
编号 | 色泽 | 敲击声音 | 根蒂 | 是否为好瓜 |
---|---|---|---|---|
1 | 乌黑 | 浊响 | 蜷缩 | 是 |
2 | - | 沉闷 | 蜷缩 | 是 |
3 | 青绿 | - | 稍蜷 | 是 |
4 | 乌黑 | 浊响 | 蜷缩 | 是 |
5 | 青绿 | 清脆 | 稍蜷 | 是 |
6 | 浅白 | 清脆 | 硬挺 | 否 |
7 | - | 沉闷 | - | 否 |
8 | 浅白 | 清脆 | 硬挺 | 否 |
9 | - | 清脆 | 硬挺 | 否 |
10 | 青绿 | - | - | 否 |
11 | 青绿 | 浊响 | 稍蜷 | 是 |
12 | 浅白 | 清脆 | 稍蜷 | 是 |
13 | 乌黑 | 沉闷 | 蜷缩 | 是 |
14 | 浅白 | 沉闷 | 硬挺 | 否 |
15 | 青绿 | 清脆 | 稍蜷 | 否 |
回答
(1) 决策树的根节点处的选择
计算过程略
信息增益计算
- 色泽:考虑色泽为乌黑、青绿、浅白的样本。
- 敲击声音:考虑敲击声音为浊响、清脆、沉闷的样本。
- 根蒂:考虑根蒂为蜷缩、稍蜷、硬挺的样本。
对于每一个属性,我们需要计算在该属性不同取值下的条件熵,然后计算信息增益。
最终,选择信息增益最大的属性作为根节点的划分属性。
(2) 预剪枝策略下的决策
略
第五题
题目要求设计一种高效、合理的方案,利用m台机器实现分布式聚类算法。具体来说,需要考虑如何将数据样本划分到每台机器上,并且如何汇总处理每台机器的计算结果。
设计方案
假设我们有m台机器,数据样本为D,特征维度为p,簇类别数为k。
-
初始化:
- 随机选择k个初始簇中心。
- 将数据样本随机划分为m份,分别存储在m台机器上。
-
本地聚类:
- 每台机器执行以下操作:
- 使用当前的簇中心对本地数据进行聚类。
- 更新本地的簇中心。
- 每台机器执行以下操作:
-
同步与更新:
- 各台机器将自己的簇中心信息发送给主控机。
- 主控机收集所有簇中心信息,计算新的全局簇中心。
- 将新的全局簇中心广播给所有机器。
-
迭代优化:
- 重复步骤2和步骤3,直到簇中心收敛或达到最大迭代次数。
-
结果汇总:
- 根据最终的簇中心,对整个数据集进行重新分配,确定每个样本所属的簇。
- 返回聚类结果。
通过这种方式,可以在多台机器上并行地执行聚类任务,有效地处理大数据场景下的聚类问题。
第六题
问题
六、Boosting 算法是一种常用的集成算法,试回答以下问题。(20 分)
(1)试描述 Boosting 算法的基本概念。(4 分)
(2)AdaBoost 是 Boosting 中最具代表性的算法,试描述 AdaBoost 算法是如何实现的。(10 分)
(3)AdaBoost 算法通常有如下 2 个局限性:
- 当基学习器的精度小于 50%时,AdaBoost 算法将不能正常运行,试其分析原因。(3 分)
- AdaBoost 算法易受离群点的干扰,试简要描述一种可以减少该干扰的方法。(3 分)
回答
(1)Boosting 算法的基本概念
(1)从初始训练集训练出一个基学习器;
(2)根据学习器的表现对训练样本分布进行调整,使得先前基学习
器做错的样本再后续受到更多关注;
(3)基于调整后的样本分布来训练一个基学习器;
(4)重复2-3,直到基学习器数量达到预设的T值;
(5)将T个基学习器进行加权结合。
(2)AdaBoost 算法如何实现
(3)AdaBoost 的局限性及解决方法
-
当基学习器的精度小于 50%时,AdaBoost 算法将不能正常运行
原因:如果基学习器的精度低于 50%,意味着它比随机猜测还要差,此时 AdaBoost 算法会不断放大这些错误分类样本的权值,导致整体性能下降甚至发散。
-
AdaBoost 算法易受离群点的干扰
解决方法:使用剪枝技术或对异常值进行预处理。例如,可以通过设置阈值来识别和移除离群点,或者采用其他鲁棒性更强的学习算法作为基学习器。另一种方法是在训练过程中动态调整离群点的权值,使其影响最小化。
第七题
设计一个基于机器学习的高效、科学、合理的算法来检测视频内容是否违规,可以分为以下几个关键步骤:
1. 数据收集与标注
首先需要大量的视频数据作为训练集,包括合规和违规的内容。这一步骤可能需要人工参与,以确保数据的质量和准确性。
2. 特征提取
从视频中提取有助于判断内容是否违规的关键特征。常见的特征类型包括但不限于:
- 视觉特征:如颜色直方图、纹理特征、人脸检测结果等。
- 音频特征:如语音情感分析、背景噪音水平等。
- 文本特征:若视频包含字幕或弹幕信息,则可从中抽取文本特征。
3. 模型选择与训练
根据任务需求和数据特性选择合适的机器学习模型。对于视频内容审核这类复杂场景,深度学习模型(如卷积神经网络CNN、循环神经网络RNN及其变种LSTM/GRU)往往能取得较好的效果。具体步骤如下:
- 划分数据集为训练集、验证集和测试集。
- 设计模型结构,定义损失函数和优化器。
- 使用训练集数据训练模型,利用验证集调优超参数。
- 在测试集上评估模型性能,确保泛化能力。
4. 异常检测与规则引擎
除了直接使用机器学习模型外,还可以结合一些规则引擎和技术手段来提高系统的准确性和效率:
- 异常检测:针对某些特定类型的违规行为,如暴力、色情等,可以预先设定一些规则,一旦触发即视为违规。
- 多模态融合:综合考虑视觉、音频和文本等多种信息源,提升检测的全面性和准确性。
5. 实时监控与反馈机制
为了应对实时上传的海量视频数据,系统应具备高效的批处理能力和实时响应机制:
- 批量处理:对批量上传的视频进行快速初筛,过滤掉明显合规的内容,集中资源审查可疑视频。
- 反馈机制:建立用户举报和专家复审通道,及时修正误判情况,持续优化模型表现。
简略版:
- 数据收集:从已知违规和非违规视频中收集大量标注数据。
- 特征提取:利用深度学习模型如卷积神经网络(CNN)提取视频帧特征。
- 模型训练:根据任务需求和数据特性选择合适的机器学习模型。对于视频内容审核这类复杂场景,深度学习模型(如卷积神经网络CNN、循环神经网络RNN及其变种LSTM/GRU)。
- 集成学习:结合多个不同类型的分类器以提高准确性和稳定性。
- 在线测试:实时监控上传的新视频并应用训练好的模型进行自动审核。
- 反馈机制:定期更新模型参数以适应新的违规模式变化。
相关文章:
机器学习——期末复习 重点题归纳
第一题 问题描述 现有如下数据样本: 编号色泽敲声甜度好瓜1乌黑浊响高是2浅白沉闷低否3青绿清脆中是4浅白浊响低否 (1)根据上表,给出属于对应假设空间的3个不同假设。若某种算法的归纳偏好为“适应情形尽可能少”,…...
MYSQL——数据更新
一、插入数据 1.插入完整的数据记录 在MYSQL中,使用SQL语句INSERT插入一条完整的记录,语法如下: INSERT INTO 表名 [(字段名1[,...字段名n])] VALUES (值1[...,值n]); 表名——用于指定要插入的数据的表名 字段名——用于指定需要插入数据…...
Vite 基础理解及应用
文章目录 概要Vite基础知识点1. 快速启动和热更新热更新原理 2. 基于ES模块的构建3. 对不同前端框架的支持 vite.config.js配置实例1. 基本结构2. 服务器相关配置3. 输入输出路径配置4. 打包优化配置 项目构建一、项目初始化二、项目结构理解三、CSS处理四、静态资源处理五、构…...
[JAVA]用MyBatis框架实现一个简单的数据查询操作
基于在前面几章我们已经学习了对MyBatis进行环境配置,并利用SqlSessionFactory核心接口生成了sqlSession对象对数据库进行交互,执行增删改查操作。这里我们就先来学习如何对数据进行查询的操作,具体查询操作有以下几个步骤 创建实体类创建Ma…...
CSS 样式的优先级?
在CSS中,样式的优先级决定了当多个样式规则应用于同一个元素时,哪个样式会被最终使用。以下是一些决定CSS样式优先级的规则: 就近原则: 最后应用在元素上的样式具有最高优先级。这意味着如果两个选择器都应用了相同的样式…...
Linux驱动开发快速入门——字符设备驱动(直接操作寄存器设备树版)
Linux驱动开发快速入门——字符设备驱动 前言 笔者使用开发板型号:正点原子的IMX6ULL-alpha开发板。ubuntu版本为:20.04。写此文也是以备忘为目的。 字符设备驱动 本小结将以直接操作寄存器的方式控制一个LED灯,可以通过read系统调用可以…...
数据结构《栈和队列》
文章目录 一、什么是栈?1.1 栈的模拟实现1.2 关于栈的例题 二、什么是队列?2.2 队列的模拟实现2.2 关于队列的例题 总结 提示:关于栈和队列的实现其实很简单,基本上是对之前的顺序表和链表的一种应用,代码部分也不难。…...
C# 超链接控件LinkLabel无法触发Alt快捷键
在C#中,为控件添加快捷键的方式有两种,其中一种就是Windows中较为常见的Alt快捷键,比如运行对话框,记事本菜单等。只需要按下 Alt 框号中带下划线的字母即可触发该控件的点击操作。如图所示 在C#开发中,实现类似的操作…...
JVM类加载过程-Loading
一、Class对象的生命周期 .class文件是如何加载到内存中:.class文件是ClassLoader通过IO将文件读到内存,再通过双亲委派的模式进行Loading,再Linking、以及Initializing,代码调用等一系列操作后,进行GC,组成完整的生命周期; 二、双亲委派模式(Loading的过程): 1、类…...
2024年11月19日Github流行趋势
项目名称:build-your-own-x 项目维护者:danistefanovic, rohitpaulk, sarupbanskota 等项目介绍:通过从零开始重新创建你最喜欢的技术来掌握编程。项目star数:312,081项目fork数:29,004 项目名称:freqtrad…...
详细描述一下Elasticsearch索引文档的过程?
大家好,我是锋哥。今天分享关于【详细描述一下Elasticsearch索引文档的过程?】面试题。希望对大家有帮助; 详细描述一下Elasticsearch索引文档的过程? Elasticsearch的索引文档过程是其核心功能之一,涉及将数据存储到…...
基于css的Grid布局和vue实现点击左移右移轮播过渡动画效果
直接上代码,以下代码基于vue2,需要Vue3或者react可以使用国内直连GPT/Claude来帮你转换下 代码如下: // ScrollCardsGrid.vue <template><div class"scroll-cards-container"><!-- 左箭头 --><div v-show"showLef…...
HarmonyOS NEXT应用元服务开发Intents Kit(意图框架服务)习惯推荐方案概述
一、习惯推荐是HarmonyOS学习用户的行为习惯后做出的主动预测推荐。 1.开发者将用户在应用/元服务内的使用行为向HarmonyOS共享,使得HarmonyOS可以基于共享的数据学习用户的行为习惯。 2.在HarmonyOS学习到用户的行为习惯后,会给用户推荐相应功能&#x…...
【AtCoder】Beginner Contest 380-F.Exchange Game
题目链接 Problem Statement Takahashi and Aoki will play a game using cards with numbers written on them. Initially, Takahashi has N N N cards with numbers A 1 , … , A N A_1, \ldots, A_N A1,…,AN in his hand, Aoki has M M M cards with numbers B …...
30. 并发编程
一、什么是多任务 如果一个操作系统上同时运行了多个程序,那么称这个操作系统就是 多任务的操作系统,例如:Windows、Mac、Android、IOS、Harmony 等。如果是一个程序,它可以同时执行多个事情,那么就称为 多任务的程序。…...
【包教包会】CocosCreator3.x框架——带翻页特效的场景切换
一、效果演示 二、如何获取 1、https://gitee.com/szrpf/TurnPage 2、解压,导入cocos creator(版本3.8.2),可以直接运行Demo演示 三、算法思路 1、单场景 页面预制体 通过loadScene来切换页面,无法实现页面特效。…...
k8s上面的Redis集群链接不上master的解决办法
问题描述 之前在k8s上面部署了一台node,然后创建了6个redis的pod,构建了一个redis的集群,正常运行。 最近添加了一台slave node,然后把其中的几个redis的pod调度到了slave node上面,结果集群就起不来了,…...
<项目代码>YOLOv8 瞳孔识别<目标检测>
YOLOv8是一种单阶段(one-stage)检测算法,它将目标检测问题转化为一个回归问题,能够在一次前向传播过程中同时完成目标的分类和定位任务。相较于两阶段检测算法(如Faster R-CNN),YOLOv8具有更高的…...
网络编程-002-UDP通信
1.UDP通信的简单介绍 1.1不需要通信握手,无需维持连接,网络带宽需求较小,而实时性要求高 1.2 包大小有限制,不发大于路径MTU的数据包 1.3容易丢包 1.4 可以实现一对多,多对多 2.客户端与服务端=发送端与接收端 代码框架 收数据方一般都是客户端/接收端 3.头文件 #i…...
MySQL更换瀚高语法更换
MySQL更换瀚高语法更换 一、前言二、语句 一、前言 水一篇,mysql更换瀚高之后,一些需要更换的语法介绍 > 二、语句 MySQL瀚高MySQL用法瀚高用法说明ifnull(x,y)coalesce(x,y)相同相同用于检查两个表达式并返回第一个非空表达式。如果第一个表达式不是 NULL&…...
Object.prototype.hasOwnProperty.call(item, key) 作用与用途
在 JavaScript 中,Object.prototype.hasOwnProperty.call(item, key) 是一种检查对象 item 是否具有特定属性 key 作为自身的属性(而不是继承自原型链)的方法。这种调用方式是安全的,特别是在处理可能被修改过原型链的对象时。 解…...
DNS的10种资源记录
前言 在DNS(域名系统)中,常见的资源记录(Resource Records, RR)用于存储域名与IP地址、邮件服务器等网络资源之间的映射关系。以下是几种常见的DNS资源记录: 1. A记录(Address Record…...
【数据分享】1981-2024年我国逐日最低气温栅格数据(免费获取)
气象数据一直是一个价值很高的数据,它被广泛用于各个领域的研究当中。之前我们分享过来源于美国国家海洋和大气管理局(NOAA)下设的国家环境信息中心(NCEI)发布的1929-2024年全球站点的逐日最低气温数据(可查看之前的文章获悉详情&…...
Kafka进阶_1.生产消息
文章目录 一、Controller选举二、生产消息2.1、创建待发送数据2.2、创建生产者对象,发送数据2.3、发送回调2.3.1、异步发送2.3.2、同步发送 2.4、拦截器2.5、序列化器2.6、分区器2.7、消息可靠性2.7.1、acks 02.7.2、acks 1(默认)2.7.3、acks -1或all 2.8、部分重…...
百度世界2024:智能体引领AI应用新纪元
在近日盛大举行的百度世界2024大会上,百度创始人李彦宏以一场题为“文心一言”的精彩演讲,再次将全球科技界的目光聚焦于人工智能(AI)的无限可能。作为一名科技自媒体,我深感这场演讲不仅是对百度AI技术实力的一次全面…...
NIST 发布后量子密码学转型战略草案
美国国家标准与技术研究所 (NIST) 发布了其初步战略草案,即内部报告 (IR) 8547,标题为“向后量子密码标准过渡”。 该草案概述了 NIST 从当前易受量子计算攻击的加密算法迁移到抗量子替代算法的战略。该草案于 2024 年 11 月 12 日发布,开放…...
同向双指针
长度最小的子数组 力扣209 #define MIN(a, b) ((b) < (a) ? (b) : (a)) int minSubArrayLen(int target, int* nums, int numsSize) {int ans numsSize 1;int left 0;int right 0;int sum 0;for (right 0; right < numsSize; right){sum nums[right];while (su…...
小鹏汽车大数据面试题及参考答案
抽象类与接口的区别是什么? 抽象类是一种不能被实例化的类,它可以包含抽象方法和非抽象方法。抽象方法是没有具体实现的方法,必须在子类中被实现。抽象类主要用于为一组相关的类提供一个通用的模板,子类可以继承抽象类并实现其中的抽象方法,也可以使用抽象类中的非抽象方法…...
华为再掀技术革新!超薄膜天线设计路由器首发!
随着Wi-Fi技术的不断进步,新一代的Wi-Fi 7路由器凭借其高速率、低延迟、更稳定的性能受到了广泛关注。它能够更好地满足现代家庭对网络性能的高要求,带来更加流畅、高效的网络体验。9月24日,华为在其秋季全场景新品发布会上推出了全新Wi-Fi 7…...
CREO TOOLKIT二次开发学习之字符转换
在tk中,有很多都是可以直接强制转换的,本文章只列举字符相关的转换。 不建议使用tk官方手册的函数进行转换,因此下文均以原生c进行举例。 //double转wstring wstring a; double b; ato_wstring(b);//wstring转double wstring wstr L"…...
天津网站开发tjniu/百度快照怎么用
用Linux守护进程检测某个程序是否运行 本文博客链接:http://blog.csdn.net/jdh99,作者:jdh,转载请注明. 环境: 主机:Fedora12 目标板:SC6410 目标板LINUX内核版本:2.6.36 实现功能: 做的一个嵌入式板子开机会自启动一个程序&am…...
连锁品牌网站建设/南宁seo网络优化公司
目录一、背景进程权限最小权限原则二、linux系统安全模型用户用户组用户和组的关系安全上下文进程的用户ID函数setreuid和setregid函数seteuid和setegid三、思考:UID能为TEE安全世界带来什么用处呢?一、背景 Linux的用户在登录(login)之后,就…...
网站优化排名如何做/百度seo官网
在win10系统中我们经常需要会需要进行系统更新,都会提示需要重启才会生效,但是有用户发现重启后还是没有安装更新,那么遇到Win10更新系统后重启电脑没反应怎么回事呢?今天小编就教大家怎么来解决这个问题吧!方法一&…...
南宁市建设局网站/廊坊百度关键词排名平台
***的组成 到了今天,***已经不是象以前那种少数现象,他们已经发展成网络上的一个独特的群体。他们有着与常人不同的理想和追求,有着自己独特的行为模式,网络上现在出现了很多由一些志同道合的人组织起来的***组织。但是这些人…...
南京专业做网站的公司/百度提交工具
原文地址为: IE6和IE7共存方法(别人是别人的,我是我的)2009年9月3日更新 本文是较老的文章,最新的共存方法,建议使用IETester最新版。最近版IETester的下载和介绍,请阅读文章《IETester更新至v0…...
网站实现语言转换技术上该怎么做/西安网站seo厂家
本文由作者李超首发在 RTC 开发者社区,如需转发请原文地址及作者信息。 原文:https://rtcdeveloper.com/t/topic/13341 RTC 开发者社区是由声网 Agora 支持运营的技术社区,欢迎开发者在这里交流与实时通信相关的技术话题。 前言 我们在学习 …...