网站开发嫌工时长/河南优化网站
数据分析相关的职位面试可以拆解为以下三块:
1)技术基础
2)项目经验提问
3)业务问题
【数据分析与挖掘(二)】面试题汇总(附答案)_数据分析面试常见问题及答案_youthlost的博客-CSDN博客
我裸辞去面试python岗位了_Python_金钱豹的博客-CSDN博客
sql
py编程
面试:
02 为什么通过统计指标处理特征缺失值时,针对连续型字段经常采用平均值、中位数来填充,而不采用最大值、最小值、众数?
答:采用平均值、中位数可以在一定程度上保证数据的平衡,很多情形下可以维持原有数据的分布形态,若采用最大值、最小值等方式填充,很可能导致处理后的数据分布趋势发生变化,尤其是在缺失值数量较多的情况下,直接导致出现偏峰分布的现象,同时填充后的数据也不符合实际业务的客观理解。当然,在某些特定场景下采用最大值、最小值等填充也是完全合理的,但一般情况下针对连续型特征,采用平均值、中位数相对更合适些。
03 为什么在特征缺失值与异常值处理过程,往往异常值处理在前?
答:如果缺失值处理在前,若通过常用的统计指标(最大值、最小值、平均值等)来填充,会将异常值数据考虑在内,这相当于将噪音数据成分植入到缺失单元,在一定程度上将异常值成分扩散,直接影响数据的合理分布。如果异常值处理在前,可以先将噪音数据影响的排除,然后采用合适的缺失值填充方法处理,可以较好保证特征数据分布的原有形态,对后续模型训练的影响也明显更小。
04 为什么离散型数值特征在异常值处理不采用箱线图方法来实现?
答:从箱线图的原理逻辑来讲,离散数值型特征是完全支持通过箱线图来识别异常值的,而且也具有一定的解释意义,但相对连续型特征的箱线图处理,离散数值型特征处理过程的合理性有明显欠缺。例如,某离散型特征的取值分布为1,2,3,4,10,若采用箱线图来判断,则10会认为异常值,若此特征的标签含义是电商会员卡等级,10是很有意义的,作为异常值处理是不合理的。因此,离散数值型特征往往通过取值占比或人为经验来判断异常值。
05 为什么在数据建模前的特征探索分析很有必要?
答:样本数据探索的主要目的,是为了给后续的数据清洗与特征工程等环节提供信息参考。其中,针对数据清洗方面,我们可以根据数据的统计分析,了解到样本特征的分布类型(连续型、离散型)、取值类型(varchar、int、float、date)、缺失值情况、异常值情况等,可以进一步决定数据清洗的具体方法,例如对于连续型与离散型特征的缺失值处理,选取的处理逻辑是有很大区别的,连续型采用平均值,而离散型采用众数等。针对特征工程方面,由于已知特征字段的不同取值类型,在特征编码、特征标准化、特征相关性等处理方法的选择上也有很大差异。因此,在数据分析任务中,导入数据后的样本探索分析,对于我们熟悉样本特征情况与把握后续处理环节是很有帮助的。
06 为什么特征衍生时字段维度不要太多?
答:特征衍生是数据建模过程中经常采用的一项特征工程,尤其是针对特征变量池较小的情况,但是对原始特征进行衍生的过程中,不能一味追寻加工特征的数量,务必要考虑特征的业务含义与应用价值,在银行等传统金融机构更需要注意这个要点。同时,根据原始特征的不断衍生,例如通过统计学的差分、占比等维度,理论上可以加工出无穷的字段,但新字段之间的相关性是很强的,在后续特征筛选的环节会很大概率的删除,这对工作效率来讲显然是没有必要的,即使不进行特征相关性筛选,在模型拟合过程中会直接导致模型的共线性,而这也并不是我们希望的结果。因此,在特征衍生环节,要客观分析把握一定的衍生维度与方法是最重要的。
07 为什么特征变量之间的相关性分析很有必要?
答:特征变量的相关性分析在数据测试、数据建模等场景中是非常重要的,对于三方数据测试,我们可以根据特征的相关性分析,得到相关字段联系的量化指标,从而为字段选择与特征引入提供很直观的参考价值;对于数据建模,特征的相关性分析已经成为一种标配,根据字段之间的相关性系数大小,可以筛选保留信息度较大的字段,不仅可以较大程度减弱模型拟合的共线性,而且可以提
面试题:在实施A/B test时,流量该如何进行分流?
答:实施A/B test的核心思路有3点,一是多个方案同时并行,二是控制变量,每个方案之间只有一个变量有差异,三是明确方案的评价标准,即实验组的效果要超过对照组多少才认为是显著的。如果只对一个环节进行A/B test,那么每个方案之间的流量是要互斥的,并且是随机划分的,这样可以保证每个方案的流量都来自于同一个样本空间。
面试题:我们公司有一款产品是与银行合作推出的“联名信用卡”,这种信用卡可以取现。你认为其中存在的风险点有哪些?该如何降低这些风险?
答:我对您提到的这款“联名卡”的具体业务流程不是特别清楚,这里我就假定它和银行的信用卡是类似的。
区别在于贵公司作为资金提供方和流量入口,而银行作为发卡机构。我认为存在的风险有3点。
第一是逾期风险,这个风险普遍存在于金融领域。解决的方法是不断对风控规则进行迭代,定期对模型进行重新训练,适应客群的变化。如果可能的话,还可以与合作银行进行数据方面的共享,降低数据孤岛带来的影响。
第二是欺诈风险。可以采取“面签”的方式降低风险。银行在发放信用卡时几乎都会要求去线下网点面签,与银行合作刚好可以发挥这方面的优势。
第三是政策风险。这个风险点在于银行方面出于合规的考虑与贵公司解除合作。
相关文章:

数据分析面试
数据分析相关的职位面试可以拆解为以下三块: 1)技术基础 2)项目经验提问 3)业务问题 【数据分析与挖掘(二)】面试题汇总(附答案)_数据分析面试常见问题及答案_youthlost的博客-CSDN博客 我裸辞去面试p…...

Open3D(C++) 整体最小二乘拟合平面
目录 一、算法原理1、算法过程2、参考文献二、代码实现三、结果展示本文由CSDN点云侠原创,原文链接。 一、算法原理 1、算法过程 最小二乘拟合平面认为点云数据系数矩阵不存在误差,然而由于观测条件的限制,观测向量、系数矩阵都有可能存在误差,那么最小二乘方法就不再是最…...

【android12-linux-5.1】【ST芯片】【RK3588】【LSM6DSR】HAL源码分析
一、环境介绍 RK3588主板搭载Android12操作系统,内核是Linux5.10,使用ST的六轴传感器LSM6DSR芯片。 二、芯片介绍 LSM6DSR是一款加速度和角速度(陀螺仪)六轴传感器,还内置了一个温度传感器。该芯片可以选择I2C,SPI通讯,还有可编程终端,可以后置摄像头等设备,功能是很…...

MT8788安卓核心板详细参数_MTK安卓主板开发板智能通讯模块
MT8788安卓核心板集成了一个高效的12nm SoC,内置4G LTE调制解调器,将强大的硬件与到处可连接的全面功能设计相结合。 MTK8788智能终端具备许多功能,包括4G、2.4G/5G双频WiFi、蓝牙4.2BLE、2.5W功放、USB、mipi屏接口、三路摄像头接口、GPS和…...

C++String模拟实现
实际上string没什么可讲,主要是对string函数的运用与理解,与其写库函数如何用,不如直接去看c库函数来得好。 以下是自己实现string功能函数。但没对string库中的全部函数进行实现,而是实现主要使用的。 .cpp内是用来测试函数功能…...

Java 设置免登录请求接口被拦截问题
1、在设置免登录时,前端将请求的路由添加到白名单后,请求接口还是被拦截到了,将请求接口也设置后还是会被拦截跳转到登录页面 通过JAVA 注解 Anonymous 进行设置匿名访问就可以了...

(其他) 剑指 Offer 67. 把字符串转换成整数 ——【Leetcode每日一题】
❓ 剑指 Offer 67. 把字符串转换成整数 难度:中等 写一个函数 StrToInt,实现把字符串转换成整数这个功能。不能使用 atoi 或者其他类似的库函数。 首先,该函数会根据需要丢弃无用的开头空格字符,直到寻找到第一个非空格的字符为…...

【MySQL】一文详解MySQL,从基础概念到调优
作者简介 前言 博主之前写过一个MySQL的系列,从基础概念、SQL到底层原理、优化,专栏地址: https://blog.csdn.net/joker_zjn/category_12305262.html?spm1001.2014.3001.5482 本文会是这个系列的清单,拉通来聊一聊Mysql从基础概…...

机器学习——boosting之提升树
提升树和adaboost基本流程是相似的 我看到提升树的时候,懵了 这…跟adaboost有啥区别??? 直到看到有个up主说了,我才稍微懂 相当于,我在adaboost里的弱分类器,换成CART决策树就好了呗࿱…...

解决Spring Boot启动错误的技术指南
🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…...

使用Spring Security保障你的Web应用安全
🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…...

PostgreSQL本地化
本地化的概念 本地化的目的是支持不同国家、地区的语言特性、规则。比如拥有本地化支持后,可以使用支持汉语、法语、日语等等的字符集。除了字符集以外,还有字符排序规则和其他语言相关规则的支持,例如我们知道(‘a’,‘b’)该如何排序&…...

MySQL——日志
日志的作用 1.用来排错 2.用来做数据分析 3.了解程序的运行情况,是否健康--》了解MySQL的性能,运行情况 分类 mysql很多有类型的日志,按照组件划分的话,可以分为 服务层日志 和 存储引擎层日志 : - 服务层…...

玩转Mysql系列 - 第18篇:流程控制语句(高手进阶)
这是Mysql系列第18篇。 环境:mysql5.7.25,cmd命令中进行演示。 代码中被[]包含的表示可选,|符号分开的表示可选其一。 上一篇存储过程&自定义函数,对存储过程和自定义函数做了一个简单的介绍,但是如何能够写出复…...

LED屏幕电流驱动设计原理
LED电子显示屏作为户外最大的应用产品,是大型娱乐,体育赛事,广场大屏幕等场所不可或缺的产品,从单双色简单的文字展示到今天的高清全彩,显示屏的技术一直都在进步,全球80%的LED电子显示屏皆产自于中国。显示…...

shell知识点复习
1、shell能做什么( Shell可以做任何事(一切取决于业务需求) ) 自动化批量系统初始化程序 自动化批量软件部署程序 应用管理程序 日志分析处理程序 自动化备份恢复程序 自动化管理程序 自动化信息采集及监控程序 配合Zabbix信息采集 自动化扩容 2、获取当…...

【Sentinel Go】新手指南、流量控制、熔断降级和并发隔离控制
随着微服务的流行,服务和服务之间的稳定性变得越来越重要。Sentinel 是面向分布式、多语言异构化服务架构的流量治理组件,主要以流量为切入点,从流量路由、流量控制、流量整形、熔断降级、系统自适应过载保护、热点流量防护等多个维度来帮助开…...

iOS自定义滚动条
引言 最近一直在做数据通信相关的工作,导致了UI上的一些bug一直没有解决。这两天终于能腾出点时间大概看了一下Redmine上的bug,发现有很多bug都是与系统滚动条有关系的。所以索性就关注一下这个小小的滚动条。 为什么要自定义ScrollIndictor 原有的Scrol…...

C++知识点2:把数据写进switch case结构,和写进json结构,在使用上有什么区别
将数据存储在Switch Case结构和JSON结构中有明显的区别,它们用于不同的目的和方式。以下是它们之间的主要区别: 1、用途和结构: Switch Case结构:Switch Case是一种条件语句,通常用于根据条件执行不同的代码块。它通常…...

肖sir__linux详解__003(vim命令)
linux 文本编辑命令 作用:用于编辑一个文件 用法:vim 文件名称 或者vi (1)编辑一个存在的文档 例子:编辑一个file1文件 vim aa (2)编辑一个文件不存在,会先创建文件,再…...

瑞芯微RK3588开发板:虚拟机yolov5模型转化、开发板上python脚本调用npu并部署 全流程
目录 0. 背景1. 模型转化1.1 基础环境1.2 创建python环境1.3 将yolov5s.pt转为yolov5s.onnx1.4 将yolov5s.onnx转为yolov5s.rknn 2. 开发板部署2.1. c版本2.1. python版本(必须是python 3.9) 3. 性能测试 0. 背景 全面国产化,用瑞芯微rk3588…...

【Redis专题】RedisCluster集群运维与核心原理剖析
目录 课程内容一、Redis集群架构模型二、Redis集群架构搭建(单机搭建)2.1 在服务器下新建各个节点的配置存放目录2.2 修改配置(以redis-8001.conf为例) 三、Java代码实战四、Redis集群原理分析4.1 槽位定位算法4.2 跳转重定位4.3 …...

我眼中的《视觉测量技术基础》
为什么会写这篇博客: 首先给大家说几点:看我的自我介绍对于学习这本书没有任何帮助,如果你是为了急切的想找一个视觉测量的解决方案那可以跳过自我介绍往下看或者换一篇博客看看,如果你是刚入门想学习计算机视觉的同学࿰…...

【Cisco Packet Tracer】管理方式,命令,接口trunk,VLAN
💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤 📃个人主页 :阿然成长日记 …...

深入协议栈了解TCP的三次握手、四次挥手、CLOSE-WAIT、TIME-WAIT。
TCP网络编程的代码网上很多,这里就不再赘述,简单用一个图展示一下tcp网络编程的流程: 1、深入connect、listen、accept系统调用,进一步理解TCP的三次握手 这三个函数都是系统调用,我们可以分为请求连接方和被…...

接口自动化测试系列-yml管理测试用例
项目源码 目录结构及项目介绍 整体目录结构,目录说明参考 测试用例结构类似httprunner写法,可参考demo 主要核心函数 用例读取转换json import yaml import main import os def yaml_r():curpath f{main.BASE_DIR}/quality_management_logic/ops_ne…...

开源对象存储系统minio部署配置与SpringBoot客户端整合访问
文章目录 1、MinIO安装部署1.1 下载 2、管理工具2.1、图形管理工具2.2、命令管理工具2.3、Java SDK管理工具 3、MinIO Server配置参数3.1、启动参数:3.2、环境变量3.3、Root验证参数 4、MinIO Client可用命令 官方介绍: MinIO 提供高性能、与S3 兼容的对…...

Matlab之数组字符串函数汇总
一、前言 在MATLAB中,数组字符串是指由字符组成的一维数组。字符串可以包含字母、数字、标点符号和空格等字符。MATLAB提供了一些函数和操作符来创建、访问和操作字符串数组。 二、字符串数组具体怎么使用? 1、使用单引号或双引号括起来的字符序列 例…...

基于深度学习网络的火灾检测算法matlab仿真
目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ................................................................................ load F…...

【Linux】高级IO和多路转接 | select/poll/epoll
多路转接和高级IO 咳咳,写的时候出了点问题,标点符号全乱了(批量替换了几次),干脆就把全文的逗号和句号都改成英文的了(不然代码块里面的代码都是中文标点就跑不动了) 1.高级IO 1.1 五种IO模型…...