当前位置: 首页 > news >正文

数据分析之数据预处理、分析建模、可视化

1、数据分析概述

数据分析:对大量有序或无序的数据进行信息的集中整合、运算提取、展示等操作,通过这些操作找出研究对象的内在规律。

目的:揭示事物运动、变化、发展的规律。

意义:提高系统运行效率、优化系统作业流程、预测未来发展趋势。
20200809190018629
2、发展历程

数据分析的发展历程的三个阶段:

1.0 商业智能(BI)

通过商业智能,将数据分析人员从大量、简陋的数据图表分析中解放出来,通过数据仓库整合企业数据,采用商业智能(BI, Business Intelligence)报表工具实现美观清晰、模块化、动态更新的数据可视化展示,让管理层或决策者能够基于事实结果做决策。

2.0 大数据分析

随着互联网的发展,全世界2020年产生的数据约为50ZB,而且每年都在增长,传统的商业智能数据分析已经满足不了企业对如此大量、复杂的数据进行处理分析。

企业需要更加强大的数据分析工具,比如大数据开发框架,它能支持企业海量数据运行和分析,结合商业智能报表工具,可以实现对数据的实时监控和展示,并且能够通过对历史数据分析建立相应的预测模型,对未来趋势进行预测。

3.0 数据中台

由于企业不同部门业务不同等的差异,采用的数据处理系统或框架也可能不一样。这样导致企业各部门或不同的系统数据相互独立、隔离,不能实现企业数据真正的互通、互融,使得数据的整体价值难以更好的体现。

互联网行业的人一般都听说过前端和后端(或称前台、后台),中台是什么?前端是直达用户的系统,如门户网站、手机APP、公众号等;后端是业务管理的系统集合,如财务系统、ERP系统及基础设施、存储计算平台等;而中台是与前台、后台对应的概念,中台可以让数据在数据平台和业务系统之间形成一个良性的闭环。

数据中台 是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径,是一个数据管理体系,内容涉及全局数据仓库规划、规范定义、建模研发、连接萃取、运维监控等。数据中台作为一个整体,输出统一、规范、标准的大数据资产,为企业或客户提供高效服务。

以下是前台、数据中台、后台之间的关系图:

3、应用领域

数据分析早已渗透各行业各业,主要包含:互联网、电子商务、金融保险、在线教育、生产制造、生物医疗、交通物流、餐饮外卖、能源、城市管理、体育娱乐等行业。

4、开发流程

数据分析开发流程一般分为下面5个阶段,主要包含:数据采集、数据处理、数据建模、数据分析、数据可视化。

数据采集: 数据通常来自于企业内部或外部,企业内部数据可以直接从系统获得,外部数据则需要购买,或者通过爬虫等数据采集工具采集;

数据处理: 获取到的数据往往会包含一些干扰数据、不完整数据,因此一般需要对数据做相应的处理;

数据建模: 不同的业务对数据的需求不同,根据相关业务或战略需求建立相应的数据模型,有针对性进行主题分析;

数据分析: 根据模型中要分析或计算的指标,采用相应的分析方法进行数据分析,得出目标分析结果;

数据可视化: 将数据分析结果进行可视化展示,使其更加方便业务人员或决策者理解。

5、数据类型的结构化与非结构化

结构化数据: 指以行、列等数据结构模型存储,有严格维度划分或属性标注的数据,如实验表数据、关系型数据库的表记录等都是结构化数据。

非结构化数据: 与结构化数据相对应,比如软件系统产生的日志、一封邮件、HTML网页、一张图片、一段微信聊天记录等。

显然结构化数据更易于做数据分析,很多数据分析模型都只能使用结构化数据,因此遇到非结构化数据时,我们一般会先将非结构化数据转化成结构化数据,再进行数据分析。

6、定性与定量数据

定性数据: 指描述事物的属性、类别、特征的数据,不能进行加减乘除等数学计算,一般是字符型,包含汉字、字母、数字、符号等;

定量数据: 指描述事物的数量、大小或多少的数据,可以进行加减乘除等数学计算,一般是数值型,包含整数、浮点数等;

7、截面数据与时间序列数据

截面数据(cross section data): 是在同一时间(时期或时点)截面上搜集的数据。横截面数据不要求统计对象及其范围相同,但要求统计的时间相同,也就是说必须是同一时间截面上的数据。

时间序列数据(time series data): 是在多个不同时间点上搜集的数据。这类数据反映了某一事物、现象等随时间的变化状态或程度。

面板数据(Panel Data): 也叫“平行数据”,是指在时间序列上取多个截面,这些截面的样本数据称为面板数据。面板数据是一个m*n的数据矩阵,记载的是n个时间节点上,m个对象的某一数据指标。

8、数据来源

数据的来源主要分为两大类,企业 外部来源 和 内部来源。

外部来源 :外包购买、网路爬取、免费开源数据等;

内部来源:销售数据、社交通信数据、考勤数据、财务数据、服务器日志数据等;

9、常见购买平台

l 东湖大数据:提供气象数据、车辆数据、企业数据、征信数据、电商数据、旅游数据等行业数据服务。

http://www.chinadatatrading.com/datacustom.html

l 数据堂:提供智能家居、驾驶、文娱等数据服务。

https://www.datatang.com/

l IT桔子:提供互联网创业投资项目信息数据库和商业信息服务的公司。

https://www.itjuzi.com/

互联网上的“开放数据”来源,如政府机构、非营利组织和企业免费提供的数据。以下是一些常用的开发数据平台,包括金融财经数据、互联网数据、政府数据等。

l 开源数据平台网站资源地址:

https://blog.csdn.net/Artificial_idiots/article/details/107878782

文章来源:网络 版权归原作者所有

上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理

相关文章:

数据分析之数据预处理、分析建模、可视化

1、数据分析概述 数据分析:对大量有序或无序的数据进行信息的集中整合、运算提取、展示等操作,通过这些操作找出研究对象的内在规律。 目的:揭示事物运动、变化、发展的规律。 意义:提高系统运行效率、优化系统作业流程、预测未…...

计算机网络:1概述

概述 因特网 网络、互连网(互联网)与因特网的区别与关系 若干节点和链路互连形成网络,若干网络通过路由器互连形成互连网,世界上最大的互连网是互联网(因特网Internet)。 因特网发展的三个阶段 因特网…...

Mybatis工作流程和插件开发

在了解插件开发之前,我们先总体的来梳理一下Mybatis的大致执行流程: 1.new SqlSessionFactoryBuilder().build(inputStream):先根据配置文件(包含了全局配置文件和映射配置文件)初始化一个对象Configuration(这里对象里…...

部署大模型LLM

在autodl上部署大模型 windows运行太麻烦,环境是最大问题。 选择云上服务器【西北B区 / 514机】 cpp (c c plus plus) 纯 C/C 实现,无需外部依赖。针对使用 ARM NEON、Accelerate 和 Metal 框架的 Apple 芯片进行了优化。支持适用于 x86 架构的 AVX、…...

【CT】LeetCode手撕—88. 合并两个有序数组

目录 题目1- 思路2- 实现⭐88. 合并两个有序数组——题解思路 2- ACM实现 题目 原题连接:88. 合并两个有序数组 1- 思路 模式识别 模式1:两个有序数组合并 ——> 双指针模式2:返回结果填充到 nums1[mn] ——> 需要开辟新的数组空间 …...

深入分析 Android BroadcastReceiver (二)

文章目录 深入分析 Android BroadcastReceiver (二)1. 深入理解 BroadcastReceiver 的高级使用和优化2. 有序广播(Ordered Broadcasts)2.1 实现有序广播 3. 粘性广播(Sticky Broadcasts)3.1 使用粘性广播 4. 本地广播(…...

Linux常⽤服务器构建-ssh和scp

目录 1.ssh <1>ssh介绍 <2>安装ssh A.安装ssh服务器 B.远程登陆 <3>使⽤ssh连接服务器 2.scp 本地⽂件复制到远程&#xff1a; 本地⽬录复制到远程&#xff1a; 远程⽂件复制到本地&#xff1a; 远程⽬录复制到本地&#xff1a; 1.ssh <1>…...

《QT实用小工具·七十》openssl+qt开发的P2P文件加密传输工具

1、概述 源码放在文章末尾 该项目实现了P2P的文件加密传输功能&#xff0c;具体包含如下功能&#xff1a; 1、 多文件多线程传输 2、rsaaes文件传输加密 3、秘钥随机生成 4、断点续传 5、跨域传输引导服务器 项目界面如下所示&#xff1a; 接收界面 发送界面 RSA秘钥生成…...

短链接生成器排名前三!长链接转化成短链接工具有哪些?

在现今的网络营销环境中&#xff0c;短链接的应用越来越广泛。它不仅能简化长链接&#xff0c;提高分享效果&#xff0c;还能提升企业品牌形象和用户体验。于是&#xff0c;市场上涌现出众多短链接生成工具。本文将为您揭秘短链接生成器排名前三的产品&#xff0c;帮您找到最适…...

Vue50-mixin混入

一、为什么要使用 mixin混入 两个组件共享一个配置。 二、使用 mixin混入 2-1、创建一个混合js文件 2-2、引入混合js文件 1、局部混合 在每个组件中都引入混合js文件 注意&#xff1a; 混合就是复用配置&#xff0c;vm实例中的所有的配置项&#xff0c;都能在混合.js文件中写…...

Java创建线程的方式

继承Thread类 这是创建线程的基本方式之一。你需要创建一个新的类&#xff0c;该类继承自Thread类&#xff0c;并重写run()方法。然后&#xff0c;你可以创建这个类的一个实例并调用它的start()方法来启动新线程。 public class MyThread extends Thread { Override public vo…...

C# 程序结构

C# 程序结构 C#(读作“C-sharp”)是一种由微软开发的高级编程语言,它是.NET框架的一部分。C# 设计用于现代软件开发,具有强大的类型系统、丰富的库支持和面向对象的特性。本文将详细介绍C#程序的基本结构,包括其语法、类型系统、控制结构、类和对象等。 C# 程序的基本结…...

【Linux】使用 iptables 验证访问HDFS 所使用到的端口

目录 ​编辑 一、实操背景 二、iptables 简介 三、模拟操作 一、实操背景 背景&#xff1a; 在客户有外网的服务器需要访问内网大数据集群HDFS&#xff0c;使用iptable模拟测试需要开放的端口。 二、iptables 简介 具体介绍看文章&#xff1a; 【Linux】Iptables 详解与实战…...

工程设计问题---多盘离合器制动器设计问题

这个问题的主要目的是使多片式离合器制动器的质量最小化。在这个问题中&#xff0c;使用了五个整数决策变量&#xff0c;它们是内半径&#xff08;x1&#xff09;、外半径&#xff08;x2&#xff09;、盘厚度&#xff08;x3&#xff09;、致动器的力&#xff08;x4&#xff09;…...

triton矩阵乘以及缓存优化

这里triton.cdiv(M, META[BLOCK_SIZE_M]) * triton.cdiv(N, META[BLOCK_SIZE_N])&#xff0c;所以grid的形状是一维的。 观察函数内部 pid tl.program_id(axis0)&#xff0c;因为grid是一维的&#xff0c;所以这里就是总块数&#xff0c;我们假设实际A*BC&#xff0c; A&…...

springboot 搭建一个 测试Kafka 集群连通性demo

废话不多说直接上代码&#xff1a; 1.pom <!-- https://mvnrepository.com/artifact/org.springframework.kafka/spring-kafka --><dependency><groupId>org.springframework.kafka</groupId><artifactId>spring-kafka</artifactId><ve…...

Ant Design Vue 动态表头和数据填充

创作动态表头和数据填充的前端应用&#xff1a;使用 Ant Design Vue 在现代前端开发中&#xff0c;动态表格是一个常见而且非常有用的功能。Ant Design Vue作为一个优秀的UI组件库&#xff0c;为开发者提供了丰富的组件和API来实现复杂的前端需求&#xff0c;包括动态表头和数…...

在Spring Cloud项目中集成Springdoc OpenAPI生成OpenAPI 3文档的详细解析

在Spring Cloud项目中集成Springdoc OpenAPI生成OpenAPI 3文档的详细解析 在Spring Cloud项目中生成OpenAPI 3文档&#xff0c;可以使用Springdoc OpenAPI。Springdoc OpenAPI提供了一种简单的方法来生成符合OpenAPI 3规范的API文档。以下是详细的步骤和解析&#xff0c;展示如…...

Linux shell 重定向输入和输出

Linux shell 重定向输入和输出 1. Standard I/O streams2. Redirecting to and from the standard file handles (标准文件句柄的重定向)2.1. command > file2.2. command >> file2.3. command 2> file2.4. command 2>> file2.5. command < file2.6. comm…...

electron录制工具-视频保存、编辑页面

效果如下 electron录屏-保存录制视频 资源 导出视频使用了 mp4-wasm&#xff0c;基本使用&#xff0c;可参考 此文 想法 1、点击按钮导出&#xff0c;弹出选择保存文件夹 2、保存成功后&#xff0c;自动打开保存后文件夹窗口并关闭窗口 实现 获取保存文件夹路径&#xff0…...

19c补丁后oracle属主变化,导致不能识别磁盘组

补丁后服务器重启&#xff0c;数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后&#xff0c;存在与用户组权限相关的问题。具体表现为&#xff0c;Oracle 实例的运行用户&#xff08;oracle&#xff09;和集…...

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务 中文乱码问题&#xff1a; 下面创建一个简单的Flask RESTful API示例。首先&#xff0c;我们需要创建环境&#xff0c;安装必要的依赖&#xff0c;然后…...

java_网络服务相关_gateway_nacos_feign区别联系

1. spring-cloud-starter-gateway 作用&#xff1a;作为微服务架构的网关&#xff0c;统一入口&#xff0c;处理所有外部请求。 核心能力&#xff1a; 路由转发&#xff08;基于路径、服务名等&#xff09;过滤器&#xff08;鉴权、限流、日志、Header 处理&#xff09;支持负…...

【磁盘】每天掌握一个Linux命令 - iostat

目录 【磁盘】每天掌握一个Linux命令 - iostat工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景 注意事项 【磁盘】每天掌握一个Linux命令 - iostat 工具概述 iostat&#xff08;I/O Statistics&#xff09;是Linux系统下用于监视系统输入输出设备和CPU使…...

生成 Git SSH 证书

&#x1f511; 1. ​​生成 SSH 密钥对​​ 在终端&#xff08;Windows 使用 Git Bash&#xff0c;Mac/Linux 使用 Terminal&#xff09;执行命令&#xff1a; ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" ​​参数说明​​&#xff1a; -t rsa&#x…...

如何理解 IP 数据报中的 TTL?

目录 前言理解 前言 面试灵魂一问&#xff1a;说说对 IP 数据报中 TTL 的理解&#xff1f;我们都知道&#xff0c;IP 数据报由首部和数据两部分组成&#xff0c;首部又分为两部分&#xff1a;固定部分和可变部分&#xff0c;共占 20 字节&#xff0c;而即将讨论的 TTL 就位于首…...

今日学习:Spring线程池|并发修改异常|链路丢失|登录续期|VIP过期策略|数值类缓存

文章目录 优雅版线程池ThreadPoolTaskExecutor和ThreadPoolTaskExecutor的装饰器并发修改异常并发修改异常简介实现机制设计原因及意义 使用线程池造成的链路丢失问题线程池导致的链路丢失问题发生原因 常见解决方法更好的解决方法设计精妙之处 登录续期登录续期常见实现方式特…...

让回归模型不再被异常值“带跑偏“,MSE和Cauchy损失函数在噪声数据环境下的实战对比

在机器学习的回归分析中&#xff0c;损失函数的选择对模型性能具有决定性影响。均方误差&#xff08;MSE&#xff09;作为经典的损失函数&#xff0c;在处理干净数据时表现优异&#xff0c;但在面对包含异常值的噪声数据时&#xff0c;其对大误差的二次惩罚机制往往导致模型参数…...

C/C++ 中附加包含目录、附加库目录与附加依赖项详解

在 C/C 编程的编译和链接过程中&#xff0c;附加包含目录、附加库目录和附加依赖项是三个至关重要的设置&#xff0c;它们相互配合&#xff0c;确保程序能够正确引用外部资源并顺利构建。虽然在学习过程中&#xff0c;这些概念容易让人混淆&#xff0c;但深入理解它们的作用和联…...

[USACO23FEB] Bakery S

题目描述 Bessie 开了一家面包店! 在她的面包店里&#xff0c;Bessie 有一个烤箱&#xff0c;可以在 t C t_C tC​ 的时间内生产一块饼干或在 t M t_M tM​ 单位时间内生产一块松糕。 ( 1 ≤ t C , t M ≤ 10 9 ) (1 \le t_C,t_M \le 10^9) (1≤tC​,tM​≤109)。由于空间…...