当前位置: 首页 > news >正文

(Note)机器学习面试题

机器学习

1.两位同事从上海出发前往深圳出差,他们在不同时间出发,搭乘的交通工具也不同,能准确描述两者“上海到深圳”距离差别的是:

A.欧式距离 B.余弦距离 C.曼哈顿距离 D.切比雪夫距离

S:D

1. 欧几里得距离

计算公式(n维空间下)

二维:dis=sqrt( (x1-x2)^2 + (y1-y2)^2 )

三维:dis=sqrt( (x1-x2)^2 + (y1-y2)^2 + (z1-z2)^2 )

2.余弦距离:余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。公式如下:

3.曼哈顿距离:两个点在标准坐标系上的绝对轴距总和

dis=abs(x1-x2)+abs(y1-y2)

4.切比雪夫距离:各坐标数值差的最大值

dis=max(abs(x1-x2),abs(y1-y2))

2.通过监督学习进行二分类模型训练过程中,可能会遇到正负样本数量不平衡的情况(比如正样本有50万但是负样本有100万),以下哪些方法可以对此进行恰当的处理?

A.将所有数据加入训练集,充分利用全部数据

B.从100万负样本中随机抽取50万

C.正样本的权重设置为2,负样本权重设置为1

D.复制两份正样本参与到训练中


S: BCD.

3.在高斯混合分布中,其隐变量的含义是:

A.表示高斯分布的方差 B.表示高斯分布的均值

C.表示数据分布的概率 D.表示数据从某个高斯分布中产生


S: D.

首选依赖GMM的某个高斯分量的系数概率(因为系数取值在0~1之间,因此可以看做是一个概率取值)选择到这个高斯分量,

然后根据这个被选择的高斯分量生成观测数据。然后隐变量就是某个高斯分量是否被选中:选中就为1,否则为0。

4.当训练样本数量趋向于无穷大时,在该数据集上训练的模型变化趋势,对于其描述正确的是()

A.偏差(bias)变小 B.偏差变大 C.偏差不变 D.不变


S: C

偏差大是欠拟合,方差大是过拟合。增大样本数量会降低方差,和偏差没关系。

5.通常来说,哪个模型被认为易于解释? ()

A.SVM B.Logistic Regression C.Decision Tree D.K-nearest Neghbor

S: C

6.假如你使用EM算法对一个有潜变量的模型进行最大似然估计(Maximum likelihood estimate)。这时候要求你将算法进行修改,使得其能找到最大后验分布(Maximum a Posteriori estimation, MAP),你需要修改算法的哪个步骤?

A.Expection B.Maimization C.不需要修改 D.都需要修改

S:A

E step根据当前参数进行估算,M step根据估算结果更新参数。那么修改估算方法自然在E step中。


7.影响基本K-均值算法的主要因素有()

A.样本输入顺序

B.模式相似性测度

C.聚类准则

D.初始类中心的选取

S:ABD

关于A,具体推导详见《模式识别》的动态聚类算法,书中提到,这是一个局部搜索算法,不能保证得到全局最优解,算法结果受初始值和样本调整顺序的影响。也就是说如果在迭代的过程中,数据集不够随机,很容易陷入局部最优。


8.以下哪些函数是凸函数?()

A. f(x) = x

B.f(x) = x^3

C.f(x) = x^4

D.f(x) = x^3+x^4

S: AC.

二阶导数非负

9.假设你有一个非常大的训练集合,如下机器学习算法中,你觉着有哪些是能够使用map-reduce框架并能将训练集划分到多台机器上进行并行训练的()

A.逻辑斯特回归(LR),以及随机梯度下降(SGD)

B.线性回归及批量梯度下降(BGD)

C.神经网络及批量梯度下降(BGD)

D.针对单条样本进行训练的在线学习


S: BC.

LR,SVM,NN,KNN,KMeans,DT,NB都可以用map reduce并行.

10.下列哪几个优化算法适合大规模训练集的场景:

A.minibatch sgd

B.Adam

C.LBFSG

D.FTRL

S: ABD.

FTRL是对每一维单独训练,属于一种在线学习优化算法。由于对参数的每一维单独训练,所以可以用于大规模数据训练。


11.随机变量X ~ N(1, 2),Y ~ N(3, 5),则X+Y ~()

A.N(4, 7) B.N(4,√2+ √5) C.N(1 + √3,7) D.不确定


S:D

主要看两个变量是否独立。独立条件下,正态加正态还是正态。Z=X+Y。均值加均值,方差加方差.


12.下列模型属于机器学习生成式模型的是()

A.朴素贝叶斯

B.隐马尔科夫模型(HMM)

C.马尔科夫随机场(Markov Random Fields)

D.深度信念网络(DBN)


S.ABCD


13.下列关于线性回归说法错误的是()

A.在现有模型上,加入新的变量,所得到的R^2的值总会增加

B.线性回归的前提假设之一是残差必须服从独立正态分布

C.残差的方差无偏估计是SSE/(n-p)

D.自变量和残差不一定保持相互独立


S: D.

R^2越大,拟合效果越好,因此A对。R^2=1-RSS/TSS

RSS数残差平方和 TSS是总的平方和


14.以下方法属于集成方法的是()

A. bagging B.stacking C.blending D.boosting

S: ABCD.

15.SVM(支持向量机)与LR(逻辑回归)的数学本质上的区别是什么

A.损失函数 B.是否有核技巧 C.是否支持多分类 D.其余选项皆错

S: A

LR的损失函数从最大似然的角度理解;

SVM损失函数的原始形式则是从最大化分类间隔的角度出发。


16.SVM(支持向量机)为什么会使用替代损失函数(如hinge损失,指数损失等)?

A.替代损失函数可以扩大SVM的应用场景

B.0/1损失函数非凸、不连续

C.替代损失函数可以减少过拟合

D.其余选项皆错

S: B

直接使用0/1损失函数的话其非凸、非连续,数学性质不好优化起来比较复杂,因此需要使用其他的数学性能较好的函数进行替换,替代损失函数一般有较好的数学性质。常用的三种替代函数:

1、hinge损失;2、指数损失;3、对率损失;

17.L1正则和L2正则的共同点是什么?

A.都会让数据集中的特征数量减少

B.都会增大模型的偏差

C.都会增大模型方差

D.其余选项皆错

S: D


18.以下哪种方法不能防止过拟合?

A.交叉验证 B.低维嵌入 C.剪枝 D.集成学习

S:B

1、交叉检验,通过交叉检验得到较优的模型参数; 2、特征选择,减少特征数或使用较少的特征组合,对于按区间离散化的特征,增大划分的区间。 3、正则化,常用的有 L_1、L_2 正则。而且 L_1 正则还可以自动进行特征选择。 4、如果有正则项则可以考虑增大正则项参数 lambda. 5、增加训练数据可以有限的避免过拟合. 6、Bagging ,将多个弱学习器Bagging 一下效果会好很多,比如随机森林等。

From:

https://zhuanlan.zhihu.com/p/88107877

相关文章:

(Note)机器学习面试题

机器学习 1.两位同事从上海出发前往深圳出差,他们在不同时间出发,搭乘的交通工具也不同,能准确描述两者“上海到深圳”距离差别的是: A.欧式距离 B.余弦距离 C.曼哈顿距离 D.切比雪夫距离 S:D 1. 欧几里得距离 计算公式&#x…...

思科:iOS和iOSXe软件存在漏洞

思科警告说,有人试图利用iOS软件和iOSXe软件中的一个安全缺陷,这些缺陷可能会让一个经过认证的远程攻击者在受影响的系统上实现远程代码执行。 中严重程度的脆弱性被追踪为 CVE-2023-20109 ,并以6.6分得分。它会影响启用Gdoi或G-Ikev2协议的软件的所有版本。 国际知名白帽黑客…...

CCF CSP认证 历年题目自练Day19

题目一 试题编号: 201812-1 试题名称: 小明上学 时间限制: 1.0s 内存限制: 512.0MB 问题描述: 题目背景   小明是汉东省政法大学附属中学的一名学生,他每天都要骑自行车往返于家和学校。为了能尽可能充…...

Java 开发环境配置

在本章节中我们将为大家介绍如何搭建Java开发环境。 目录 window系统安装java 下载JDK 配置环境变量 JAVA_HOME 设置 PATH设置 CLASSPATH 设置 测试JDK是否安装成功 Linux,UNIX,Solaris,FreeBSD环境变量设置 流行 Java 开发工具 使…...

[2023.09.26]: JsValue的转换体验与as关键字的浅析

昨天解决了焦点问题,今天就开始搬砖了。本以为可以一帆风顺,但是还是遇到了几个问题,不过还好,都被一一解决,这里我分享一下JsValue的转换体验以及关键字as的使用浅析。 场景描述 我是在什么情况下遇到JsValue的转换…...

SpringBoot Validation入参校验国际化

在 Spring Boot 中,可以使用 Validation 和国际化来实现对入参的校验。 常用的校验 NotNull验证字段值不能为 nullNotEmpty验证字段值不能为 null 或空字符串NotBlank验证字符串字段值不能为空、null,并且必须至少包含一个非空白字符Size验证字符串、…...

树莓集团涉足直播产业园区运营,成都直播产业园区再添黑马

树莓集团涉足成都直播产业园运营领域,这一消息引起了业界的广泛关注。在这个无限可能的直播领域中,树莓集团将与上市公司德商产投紧密合作,立志为成都直播行业的发展注入新的活力。成都天府蜂巢直播产业园推行着一系列创新的政策措施&#xf…...

中小学教师ChatGPT的23种用法

原文:中小学教师ChatGPT的23种用法 近日,ChatGPT引发舆论风暴,火遍全球。作为一款生成式人工智能软件,ChatGPT可以就任何议题生成文本,完成包括回答问题,撰写文章、论文、诗歌在内的多种工作。各界盛赞其“…...

Ubuntu性能分析-ftrace 底层驱动

1、框架介绍 ftrace内核驱动可以分为几部分:ftrace framework,RingBuffer,debugfs,Tracepoint,各种Tracer。 ftrace框架是整个ftrace功能的纽带,包括对内和的修改,Tracer的注册,RingBuffer的控制等等。 RingBuffer是静态动态ftrace的载体。 debugfs则提供了用户空间…...

网盘搜索引擎:点亮知识星空,畅享数字宝藏!

大家好!作为一名资深的网络产品运营人员,我今天要向大家介绍一款让你受益匪浅的神奇工具——网盘搜索引擎!它可以帮助你免费搜索查询各种云盘共享资源,包括影视作品、纪录片、小说、动漫等等。现在,我们急需网络流量&a…...

Mysql以key-val存储、正常存储的区别

场景 你作为一个服务端工程师,假设产品要求设计这么一个页面,页面上包含很多模块,每个模块都可以单独进行变更,有些模块是富文本。 实现方式有很多,我们来聊比较常用的两种,看看mysql的表如何设计。 第一…...

MySQL 索引优化实践(单表)

目录 一、前言二、表数据准备三、常见业务无索引查询耗时测试3.1、通过订单ID / 订单编号 查询指定订单3.2、查询订单列表 四、订单常见业务索引优化实践4.1、通过唯一索引和普通索引优化通过订单编号查询订单信息4.2、通过普通联合索引优化订单列表查询4.2.1、分析查询字段的查…...

react create-react-app v5配置 px2rem (暴露 eject方式)

环境信息: create-react-app v5 “react”: “^18.2.0” “postcss-plugin-px2rem”: “^0.8.1” 配置步骤: 我这个方式是 npm run eject 暴露 webpack配置的方法 1.安装 postcss-plugin-px2rem 和 lib-flexible cnpm install postcss-plugin-px2rem…...

AVL树的实现及原理

目录 AVL树的由来 AVL的实现原理 左单旋 右单旋 先左后右 先右后左 总结 AVL树的由来 查找,无论在什么情况下都与我们息息相关。在我们学习数组阶段学习到了线性查找,可是它的效率很低下,又演变出来了二分查找,它的效率非常…...

NestJs和Vite使用monorepo管理项目中,需要使用共享的文件夹步骤

NestJs和Vite使用monorepo管理项目中,需要使用共享的文件夹步骤 1 首先需要将nest-cli打包的功能通过webpack接管 nest-cli.json文件内容 {"$schema": "https://json.schemastore.org/nest-cli","collection": "nestjs/schematics",…...

我用PYQT5做的第一个实用的上位机项目(三)

基本的程序框架: 因为自己不是专业的程序员,只是一个搞电气控制的“票友”,所以尽量减少手动输入 代码量,能在Qt Dsigner里面完成的组态就不要放在代码里面完成。 在框架的建设方面,尽量做到集中和整合,位…...

代谢组学分析平台(二)

GC/MS分析生物样本为何要衍生化处理?有哪些衍生化的方法? GC的流动相为气体(通常为高纯氦),这就要求被分析物必须能够气化,而生物样本中很多内源性代谢物都含有极性基团,具有沸点高、不易气化特…...

【统计学】Top-down自上而下的角度模型召回率recall,精确率precision,特异性specificity,模型评价

最近在学 logistic regression model,又遇见了几个之前的老面孔。 召回率recall, 精确率precision,特异性spcificity,准确率accuracy,True positive rate,false positive rate等等名词在学习之初遇到的困难在于&#x…...

AutoDL使用tensorboard

目录 一,训练形成log文件 二. 切换logs目录 三,在AutoPanel中访问TensorBoard 一,训练形成log文件 例子: from torch.utils.tensorboard import SummaryWriter import numpy as npwriter SummaryWriter() for x in range(1, …...

代谢组学分析手段(一)

核磁共振技术(Nuclear Magnetic Resonance, NMR) 定义:指核磁矩不为零的原子核在外磁场的作用下,核自旋能级发生塞曼分裂,共振吸收某一特定频率的射频辐射的物理过程。 优点: (1)…...

网络基础入门(网络基础概念详解)

本篇文章主要是对网络初学的概念进行解释,可以让你对网络有一个大概整体的认知。 文章目录 一、简单认识网络 1、1 什么是网络 1、2 网络分类 二、网络模型 2、1OSI七层模型 2、1、1 简单认识协议 2、1、2 OSI七层模型解释 2、2 TCP/IP五层(或四层)模型 三、网络传…...

简化任务调度与管理:详解XXL-Job及Docker Compose安装

在现代应用程序开发中,任务调度和管理是至关重要的一部分。XXL-Job是一个强大的分布式任务调度平台,它使得任务的调度和管理变得更加轻松和高效。本文将介绍XXL-Job的基本概念,并详细演示如何使用Docker Compose进行快速安装和配置。 什么是X…...

QByteArray字节数组

QByteArray字节数组 文章目录 QByteArray字节数组1.1 QByteArray类基本使用说明1.2 设置数组字节大小1.3 返回数组大小1.4 将数据转为其他类型1.5 将数据转为C语言的字符指针返回1.6 数组数据追加1.7 清除数组数据为指定值1.8 数组数据插入1.9 删除指定位置指定长度的数据1.10 …...

ubuntu20.04.3中qt程序界面嵌套另一个qt界面

先上代码 #include "mainwindow.h" #include <QApplication> #include <iostream> using namespace std; #ifdef _WIN32// Windows 平台的代码 #include <windows.h> #elif __linux__// Linux 平台的代码// ...#include <X11/Xlib.h> #else…...

【chainlit】使用chainlit部署chatgpt

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kuan 的首页,持续学…...

测开 | Vue速查知识点

文章目录 Vue知识1. Vue 概述2. Vue 代码格式3. Vue 指令3.1 v-bind & v-model3.2 v-on3.3 v-if和v-show3.4 v-for 4. 生命周期 Vue知识 1. Vue 概述 简介&#xff1a; Vue.js&#xff08;读音 /vjuː/, 类似于 view&#xff09; 是一套构建用户界面的 渐进式框架。与其他…...

数据结构——二叉树的基本概念及顺序存储(堆)

目录 一.前言 二.树概念及结构 2.1 树的概念 2.2 树的相关概念 2.3 树的表现 2.4 树在实际中的应用&#xff08;表示文件系统的目录树结构&#xff09; 三.二叉树的概念及结构 3.1 概念 3.2 特殊的二叉树 3.3 二叉树的性质 3.4 二叉树的存储结构 3.4.1 顺序存储 3…...

acwing算法基础之基础算法--整数二分算法

目录 1 知识点2 代码模板 1 知识点 有单调性一定可以二分&#xff0c;但在某些情况下&#xff0c;不具有单调性也可以二分。 单调性也可以抽象成某类性质&#xff0c;分界点左边不满足此性质&#xff0c;而右边满足此性质。当然也可以分界点左边满足此性质&#xff0c;而右边不…...

windows C 开发

在win下用C/C开发 非图形界面 应用程序 基础环境包括3个内容1. API : 一般是系统(包括c标准库和其他dll)提供的2. 编译器 : 可以是gnu的,可以是微软提供的3. 编辑器 : 随意都可以 // 不再考虑范围开发方式(API编译器) 原生windows API 使用 Windows API 来编写非视窗代码。…...

C语言——动态内存管理详解(内存结构、动态内存函数、易错题、柔性数组)

本篇概要 本篇文章从基本出发讲述为什么要存在动态内存分配&#xff0c;动态内存函数有哪些&#xff0c;常见的动态内存错误&#xff0c;一些关于内存分配的练习题以及柔性数组的相关知识。 文章目录 本篇概要1.为什么存在动态内存分配1.1为什么要动态分配内存1.2内存结构 2.常…...

wordpress能做手机站吗/百合seo培训

对于一个只有3、5个人的小团队&#xff0c;在时间很紧的情况下&#xff0c;文档什么的肯定是能省则省啦。不过&#xff0c;有两个文档是绝对不能省的。不但不能省&#xff0c;还要尽全力把它们做好&#xff0c;并且保持更新。这两个文档就是&#xff1a;使用Power Designer制作…...

做马来西亚生意的网站/网络营销招聘

第9题 1&#xff09;有三张表分别为会员表&#xff08;member&#xff09;销售表&#xff08;sale&#xff09;退货表&#xff08;regoods&#xff09; &#xff08;1&#xff09;会员表有字段memberid&#xff08;会员id&#xff0c;主键&#xff09;credits&#xff08;积分…...

成都装修公司网站建设/我的百度购物订单

前言近一周学习了CSS的用法&#xff0c;在此对一周所学进行总结。语法常用的CSS语法大致可分为四种,&#xff1a;选择器{属性名: 属性值 /*注释*/}&#xff0c;如div{background: red;}2. charset&#xff0c;用于设置样式表中的字符编码&#xff0c;必须放在第一行&#xff0c…...

wordpress菜单栏插件/千度搜索引擎

前言 为了能够真实模拟实验室的Autolabor_pro1小车&#xff0c;我就自己用solidworks2018基本仿画出Autolabor模型&#xff0c;当然我知道官网有urdf文件但是好像官方的只有一个车子的base部分没有其他任何对外的传感器&#xff0c;因此我就索性自己利用solidworks构建自己的机…...

wordpress插件设置/系统优化助手

为什么80%的码农都做不了架构师&#xff1f;>>> 今天心情比较好&#xff0c;就把自己的思想、理解画个比喻图什么的&#xff0c;给大家分享分享&#xff0c;觉得有些收获&#xff0c;就帮我点一下推荐&#xff0c;觉得无聊&#xff0c;就不看内容&#xff0c;看看图…...

企业所得税2020最新/深圳seo优化电话

直接取value即可。 refurl:http://bbs.csdn.net/topics/300110528...