当前位置: 首页 > news >正文

CDA数据分析师一级经典错题知识点总结(3)

1、SEMMA 的基本思想是从样本数据开始,通过统计分析与可视化技术,发现并转换最有价值的预测变量,根据变量进行构建模型,并检验模型的可用性和准确性。【强调探索性】

2、CRISP-DM模型Cross Industry Standard Process of Data Mining,被称为跨产业的数据挖掘标准流程
商业理解:其目的是要了解企业的整个运作过程。商业理解的作用主要是确定题目,即通过数据挖掘想要解决什么问题。【强调商业性】

数据理解:检查解决问题所需要的数据是否收集齐全,若没有则退回到商业理解这一步。

数据预处理:对收集到的数据进行处理,此阶段耗时最长。

建模:建立模型,若结果不好,则退回到数据预处理这一步,进行相应的调整。

评估:评估结果好就可以实施,评估结果不好就直接退回到商业理解这一步,重新开始。

实施:模型的实际应用。

3、数据分析的基本流程为以下6步曲

问题定义、数据获取、数据预处理、数据分析与建模、数据可视化、数据报告的撰写。

4、EXCEL常用函数:

日期函数:

EDATE 函数用于计算某个日期之前或之后的月份数。它的基本语法如下:

EDATE(start_date, months)

=EDATE("2024-01-01", 1) 返回 “2024-02-01”,即2024年1月1日加上1个月后的日期

  • start_date:起始日期。
  • months:你想要添加或减去的月份数。正值表示添加月份,负值表示减去月份。

EOMONTH 函数用于计算某个日期所在月份的最后一天。它的基本语法如下:

=EOMONTH("2024-01-15", 5) 返回 "2024-06-30”,即2024年1月15日所在月份的最后一天

5、主键的业务意义

表的业务记录单位,数据表中的非主键字段都要围绕主键展开,具备相关性。

6、ETL功能:Extract-Transform-Load,将数据从数据源端经过提取、清洗转换之后加载到数据仓库。

E:创建于数据源的连接,对数据进行引用

T:清洗–筛选过滤不完整、错误及重复的数据记录,转换–‘粒度’不一致、业务规则不一致

L:加载到数据仓库中存储和使用

7、from>where>group by >having >select >order by

8、开窗函数

在这里插入图片描述
实体完整性是是指每个表都有唯一的标识符–主键,主键不能为空或重复。

参照完整性是指外键的取值必须是另一个表的有效值或空值

用户定义完整性是指满足用户的某个需求,字段不为空等。

域完整性约束:域代表当前单元格,限制此单元格的数据正确。

9、集中趋势的描述 – 平均指标 各种数(众数、中位数、分位数、平均数)

大蒜有几条 算术>=几何>=调和平均数

离散程度的描述(各种差)–变异指标(极差、平均差、方差、四分位差、标准差、离散系数即变异系数)

描述性统计图表:直方图、散点图、箱线图

10、箱线图:
在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。四分位距IQR=Q3-Q1。
在这里插入图片描述

统计分布:两点分布、二项分布、正态分布、卡方、t分布、F分布

相关关系:散点图、线性、正相关、协方差、相关系数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

参数估计

95% 对应 1.96

90% 对应 1.645
在这里插入图片描述
汇总规则

单向,只能一表筛选多表

双向,多表可以筛选一表,但是用规则二
在这里插入图片描述
基本透视规则:合计、计数、平均、最大最小值

什么是指标?
在这里插入图片描述
基本指标:求和类(常规求和、累计求和、时间维度下累计指标)、计数类、比较类(差异百分比、均比、定基比增长率、同环比增长率)
场景指标:
在这里插入图片描述

可视化报表和业务分析报告的差异:
在这里插入图片描述
RFM模型

重要价值用户–保持现状

重要发展用户–提升频次

重要保持用户–用户回流

重要挽留用户–重点召回

业务分析决策树

1.比较类

图表–油量表、进度图、柱图、条形图、雷达图、词云图、树状图、地图

2.序列类

图表(连续、有序类别的数据波动)折线图、面积图、柱图、漏斗图

3.构成类

图表–环状图、饼图、堆积图、瀑布图

4.描述类

图表–直方图、盒须图、气泡图、散点图

报告撰写流程: 业务理解→数据收集→数据处理→数据分析→图表制作→报告绘制

相关文章:

CDA数据分析师一级经典错题知识点总结(3)

1、SEMMA 的基本思想是从样本数据开始,通过统计分析与可视化技术,发现并转换最有价值的预测变量,根据变量进行构建模型,并检验模型的可用性和准确性。【强调探索性】 2、CRISP-DM模型Cross Industry Standard Process of Data Mi…...

django基于Python的电影推荐系统

Django 基于 Python 的电影推荐系统 一、系统概述 Django 基于 Python 的电影推荐系统是一款利用 Django 框架开发的智能化应用程序,旨在为电影爱好者提供个性化的电影推荐服务。该系统通过收集和分析用户的观影历史、评分数据、电影的属性信息(如类型…...

JVM与Java体系结构

一、前言: Java语言和JVM简介: Java是目前最为广泛的软件开发平台之一。 JVM:跨语言的平台 随着Java7的正式发布,Java虚拟机的设计者们通过JSR-292规范基本实现在Java虚拟机平台上运行非Java语言编写的程序。 Java虚拟机根本不关心运行在其内部的程序到底是使用何…...

网络授时笔记

SNTP的全称是Simple Network Time Protocol,意思是简单网络时间协议,用来从网络中获取当前的时间,也可以称为网络授时。项目中会使用LwIP SNTP模块从服务器(pool.ntp.org)获取时间 我们使用sntp例程,sntp例程路径为D:\Espressif\…...

【CSS】HTML页面定位CSS - position 属性 relative 、absolute、fixed 、sticky

目录 relative 相对定位 absolute 绝对定位 fixed 固定定位 sticky 粘性定位 position:relative 、absolute、fixed 、sticky (四选一) top:距离上面的像素 bottom:距离底部的像素 left:距离左边的像素…...

spark汇总

目录 描述运行模式1. Windows模式代码示例 2. Local模式3. Standalone模式 RDD描述特性RDD创建代码示例(并行化创建)代码示例(读取外部数据)代码示例(读取目录下的所有文件) 算子DAGSparkSQLSparkStreaming…...

【Rust自学】11.5. 在测试中使用Result<T, E>

喜欢的话别忘了点赞、收藏加关注哦,对接下来的教程有兴趣的可以关注专栏。谢谢喵!(・ω・) 11.5.1. 测试函数返回值为Result枚举 到目前为止,测试运行失败的原因都是因为触发了panic,但可以导致测试失败的…...

Sping Boot教程之五十四:Spring Boot Kafka 生产者示例

Spring Boot Kafka 生产者示例 Spring Boot 是 Java 编程语言中最流行和使用最多的框架之一。它是一个基于微服务的框架,使用 Spring Boot 制作生产就绪的应用程序只需很少的时间。Spring Boot 可以轻松创建独立的、生产级的基于 Spring 的应用程序,您可…...

设计模式-结构型-组合模式

1. 什么是组合模式? 组合模式(Composite Pattern) 是一种结构型设计模式,它允许将对象组合成树形结构来表示“部分-整体”的层次结构。组合模式使得客户端对单个对象和组合对象的使用具有一致性。换句话说,组合模式允…...

基于Java的推箱子游戏设计与实现

基于Java的推箱子游戏设计与实现 摘 要 社会在进步,人们生活质量也在日益提高。高强度的压力也接踵而来。社会中急需出现新的有效方式来缓解人们的压力。此次设计符合了社会需求,Java推箱子游戏可以让人们在闲暇之余,体验游戏的乐趣。具有…...

Spark vs Flink分布式数据处理框架的全面对比与应用场景解析

1. 引言 1.1 什么是分布式数据处理框架 随着数据量的快速增长,传统的单机处理方式已经无法满足现代数据处理需求。分布式数据处理框架应运而生,它通过将数据分片分布到多台服务器上并行处理,提高了任务的处理速度和效率。 分布式数据处理框…...

python_excel列表单元格字符合并、填充、复制操作

读取指定sheet页,根据规则合并指定列,填充特定字符,删除多余的列,每行复制四次,最后写入新的文件中。 import pandas as pd""" 读取指定sheet页,根据规则合并指定列,填充特定字…...

nums[:]数组切片

问题:给定一个整数数组 nums,将数组中的元素向右轮转 k 个位置,其中 k 是非负数。 使用代码如下没有办法通过测试示例,必须将最后一行代码改成 nums[:]nums[-k:]nums[:-k]切片形式: 原因:列表的切片操作 …...

【Arthas 】Can not find Arthas under local: /root/.arthas/lib 解决办法

报错 [INFO] JAVA_HOME: /opt/java/openjdk [INFO] arthas-boot version: 4.0.4 [INFO] Found existing java process, please choose one and input the serial number of the process, eg : 1. Then hit ENTER. [1]: 12 org.springframework.boot.loader.JarLauncher 1 [ER…...

录用率23%!CCF推荐-B类,Early Access即可被SCI数据库收录,中美作者占比过半

International Journal of Human-Computer Interaction(IJHCI)创刊于1989年,由泰勒-弗朗西斯(Taylor & Francis, Inc.)出版,主要发表关于交互式计算(认知和人体工程学)、数字无障…...

IP 地址与蜜罐技术

基于IP的地址的蜜罐技术是一种主动防御策略,它能够通过在网络上布置的一些看似正常没问题的IP地址来吸引恶意者的注意,将恶意者引导到预先布置好的伪装的目标之中。 如何实现蜜罐技术 当恶意攻击者在网络中四处扫描,寻找可入侵的目标时&…...

Vue_API文档

Vue API风格 Vue 的组件可以按两种不同的风格书写:选项式 API(Vue2) 和组合式 API(Vue3) 大部分的核心概念在这两种风格之间都是通用的。熟悉了一种风格以后,你也能够很快地理解另一种风格 选项式API(Opt…...

WebSocket 设计思路

WebSocket 设计思路 1. 核心结构体 1.1 Manager (管理器) // Manager 负责管理所有WebSocket连接 type Manager struct {clients sync.Map // 存储所有客户端连接broadcast chan []byte // 广播消息通道messages chan Message // 消息处理通道config *config.WebSo…...

Jenkins持续集成与交付安装配置

Jenkins 是一款开源的持续集成(CI)和持续交付(CD)工具,它主要用于自动化软件的构建、测试和部署流程。为项目持续集成与交付功能强大的应用。下面我们来介绍下它的安装与配置。 环境准备 更新系统组件(这…...

ESP32作为Wi-Fi AP模式的测试

一、AP模式的流程 初始化阶段 (Init Phase): 1.1: Main task(主任务)初始化LwIP(轻量级TCP/IP协议栈)。 ESP_ERROR_CHECK(esp_netif_init()); 1.2: 创建和初始化Event task(事件任务)。 ESP_ERROR_CHECK…...

【爬虫】单个网站链接爬取文献数据:标题、摘要、作者等信息

源码链接: https://github.com/Niceeggplant/Single—Site-Crawler.git 一、项目概述 从指定网页中提取文章关键信息的工具。通过输入文章的 URL,程序将自动抓取网页内容 二、技术选型与原理 requests 库:这是 Python 中用于发送 HTTP 请求…...

Android RIL(Radio Interface Layer)全面概述和知识要点(3万字长文)

在Android面试时,懂得越多越深android framework的知识,越为自己加分。 目录 第一章:RIL 概述 1.1 RIL 的定义与作用 1.2 RIL 的发展历程 1.3 RIL 与 Android 系统的关系 第二章:RIL 的架构与工作原理 2.1 RIL 的架构组成 2.2 RIL 的工作原理 2.3 RIL 的接口与协议…...

leetcode_2816. 翻倍以链表形式表示的数字

2816. 翻倍以链表形式表示的数字 - 力扣(LeetCode) 搜先看到这个题目 链表的节点那么多 已经远超longlong能够表示的范围 那么暴力解题 肯定是不可以的了 我们可以想到 乘法运算中 就是从低位到高位进行计算 刚开始 我想先反转链表 然后在计算 然后在进…...

【论文阅读】MAMBA系列学习

Mamba code:state-spaces/mamba: Mamba SSM architecture paper:https://arxiv.org/abs/2312.00752 背景 研究问题:如何在保持线性时间复杂度的同时,提升序列建模的性能,特别是在处理长序列和密集数据(如…...

MySQL教程之:批量使用mysql

在前几节中&#xff0c;您以交互方式使用mysql输入语句并查看结果。您也可以运行mysql批量模式。为此&#xff0c;请将要运行的语句放在文件中&#xff0c;然后告诉mysql从文件中读取其输入&#xff1a; $> mysql < batch-file 如果您在Windows下运行mysql&#xff0c;…...

17_Redis管道技术

Redis管道(Pipeline)技术是一种在 Redis 客户端与服务器之间进行高效数据交互的技术。 1.Redis管道技术介绍 1.1 传统请求响应模式 在传统的请求-响应模式下,客户端每发送一个命令后会等待服务器返回结果,然后再发送下一个命令。这种方式在网络延迟较高的情况下会导致性…...

【LC】3270. 求出数字答案

题目描述&#xff1a; 给你三个 正 整数 num1 &#xff0c;num2 和 num3 。 数字 num1 &#xff0c;num2 和 num3 的数字答案 key 是一个四位数&#xff0c;定义如下&#xff1a; 一开始&#xff0c;如果有数字 少于 四位数&#xff0c;给它补 前导 0 。答案 key 的第 i 个数…...

【redis】ubuntu18安装redis7

在Ubuntu 18下安装Redis7可以通过以下两种方法实现&#xff1a;手动编译安装和使用APT进行安装。 Ubuntu 18系统的环境和版本&#xff1a; $ cat /proc/version Linux version 4.15.0-213-generic (builddlcy02-amd64-079) (gcc version 7.5.0 (Ubuntu 7.5.0-3ubuntu1~18.04)…...

d2j-dex2jar classes.dex 执行报错:not support version 问题解决

这个错误是由于 dex2jar 工具不支持你的 classes.dex 文件的版本导致的。通常情况下&#xff0c;这是因为你尝试使用的 dex2jar 版本不支持 Android 较新的 DEX 文件格式&#xff08;例如 DEX 格式 038 或更新版本&#xff09;。 解决方法 以下是一些解决此问题的步骤&#x…...

智慧城市应急指挥中心系统平台建设方案

建设背景与目标 智慧城市应急指挥中心系统平台的建设&#xff0c;源于对城市管理精细化、智能化的迫切需求。平台旨在通过整合各方资源&#xff0c;实现应急事件的快速响应与高效处置&#xff0c;提升城市安全管理水平。 前端设计与信息采集 前端设计注重立体化、全方位信息…...

佛山市网站建设系统/seo关键词怎么填

较老版本的 AFNetworking 下载链接 http://pan.baidu.com/s/14Cxga 将压缩包中的文件夹拖入xcode工程项目中并引入如下的框架 简单的 JOSN 解析例子 static NSString *serverAddress "http://m.weather.com.cn/data/101110101.html"; // 1.创建JSON操作对象 A…...

东莞建设培训中心网站/手机端百度收录入口

i.MX6ULL终结者三大手册&#xff0c;加速学习和开发速度&#xff0c;一秒化无形! 《嵌入式Linux开发指南》《开发板使用手册》《裸机使用手册》 详细手册点击链接下载&#xff1a;https://pan.baidu.com/s/1Xat4C-cDa2Gi1UwNckNRTw 提取码&#xff1a;064r 前言 总领及学习指…...

怎么给网站做logo/舆情监测

平均真实波幅(ATR)指标在仓位管理中的用途十分广泛。其在现代技术分析和资金管理方面&#xff0c;作用也不容忽视。 要计算这个平均真实波幅(ATR)&#xff0c;就要先会计算真实波幅。真实波幅是以下三个值中的最大者&#xff1a; 1) 当前交易日的最高价与最低价间的波幅 2) …...

比特币交易所网站开发/站长工具精华

我相信从学习计算机面向对象编程起就很多人背下了继承、封装、多态三个特性&#xff0c;可是多态并不是那么好理解的。通常做几道题&#xff0c;背下几次多态的动态绑定规律&#xff0c;可是依旧在一段时间后忘记了多态的存在&#xff0c;为什么要多态&#xff0c;这个程序为何…...

真人做爰直播全集播放网站/企业网站推广策划

Linux设备驱动工程师之路——触摸屏驱动s3c2410_ts.c分析 K-Style 转载请自 http://blog.csdn.net/ayangke 一、触摸屏硬件知识 1.模块原理图 S3C2440有8路的ADC通道其中触摸屏控制器接口XP,XM,YP,YM与四路ADC通道复用四个IO引脚。从原理图看出8路ADC只有一个A/D转换器&am…...

传媒公司vi/seo如何去做优化

1.#列表可重复&#xff0c;类型不同&#xff0c;用&#xff3b;&#xff3d;表示 listA [a, b, c, 1, 2] # 遍历list for item in listA:print(item)#元组是只读的&#xff0c;不能修改。元组用“()”表示 tuple1 (1,2,a,4,5,6) for item in tuple1:print(item)#字典定义了键…...