当前位置: 首页 > news >正文

认识数据分析

文章目录

    • 1. 认识数据分析
      • 1.1 数据自身的三大属性
      • 1.2 建数仓 数据分析的工程技术
      • 1.3 数据分析解决问题的原理
      • 1.4 数据分析的具体流程
      • 1.5 数据的中心化和智能化
      • 1.6 数据分析的四种类型和六个方向

1. 认识数据分析

1.1 数据自身的三大属性

  • 客观:用数字衡量和表现一件客观事物时,能最大程度统一大家的认知

  • 量化:量化的数据,可以利用数学原理进行各种精密的计算,得出更多价值的结果

    如业务推导:门店成交额=下单人数*平均客单价,知道其中两个即可推算第三个

    统计学:平均数、中位数、众数

    微积分:求导–路程-速度-加速度

  • 机器可处理:数据是少数人和机器都能理解和处理的信息,人可以借助机器高效处理数据的各种信息

  • 数据图表:机器给予规则计算和展现数据

  • 数据工程:让机器替代人去7*24小时汇总和处理数据

  • 机器学习:让机器按照人设定的规则去试错尝试、求解最佳参数

1.2 建数仓 数据分析的工程技术

随着数据系统的晚上,如果企业的数据汇总超过了Excel的存储上线

那么企业需要建立自己的大规模数据仓库,处理不断增长的数据资产,数据仓库技术占到数据分析实现所用技术的70%以上

image-20230912112120129

  • 埋点采集

    • 传感器 :传感器通常用于测试物理变量,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,使其活起来
  • 系统日志采集方法:

    • 日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和web服务器记录的用户访问行为
    • 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chkwa,Cloudera和Flume,Fackbokk的Scribe.这些工具采用分布式架构,能满足每秒数百M的日志数据采集和传输需求
  • web爬虫

    • 网络爬虫指为搜索引擎下载并存储网页的程序,它是搜索引擎和web缓存的主要的数据采集方式,通过网络爬虫或网站公开API等方式从网站上获取数据信息。
  • 传输存储(数仓)

    • 传输:借助网络

    • 存储:借助数据库技术,研究如何组织和存储数据,高效获取和处理数据是一门大学问

      ​ 其涉及了:速度、准确性、最大规模、以及数据种类

  • 提取回流(数仓/算法)

    • 提取即将数据查询到,并导出为文件
    • 回流即指数据被操作过之后,怎么会到数据库,继续参与到生产和建模
  • 清洗处理(数仓)

    • 清洗:指利用一些第三方库清洗数据,使其符合数据包准
    • 处理:使得数据符合实际的需求
  • 连接导入:

    • 即对接不同的工具和软件,涉及到各种中间件和协议
  • 分析建模(分析/算法)

    • 分析:计算,并绘制一些可视化的图表等
  • 建模

    • 即机器学习与深度学习
  • 部署应用

    • BI监控
    • 算法平台:先知
    • 工程开发

1.3 数据分析解决问题的原理

image-20230913202440176

  • 传统:问题发生----结合现实----逻辑推理----得出结论
  • 数据:问题发生----结合现实----数据映射----量化分析----得出结论

数据分析只是分析的一种,能对碎片化的信息加以抽象和整合,不过度依赖量化,才是真正的分析能力

1.4 数据分析的具体流程

image-20230913202734094

  • 注意分析数据的目的:
    • 业务分析:关注数据与业务的关联性,映射关系和可解释性
    • 建模分析:关注数据的整体特征(特征决定上限,模型调参无限趋近于上限)
    • 分析的种类:
      • 计算型分析:统计学,机器学习
      • 逻辑型分析:归纳/演绎,思维模型

1.5 数据的中心化和智能化

  • 中心化

    • 当数据仓库建立完毕后,企业的数据团队基本上也搭建完毕了,但初级的数仓仍然有诸多问题

    • 跨库查询:数据存储在不同服务器中,无法实现业务级的垮库查询

    • 数据架构:数据中每个系统的开发独立维护,指标定义、数据结构、数据类型等架构标准都
      统一

    • 数据需求:字段需求无法精准有节奏地一一实现,开发说不做就不做了

    • 中心化的数据库将会统一管理企业的所有数据字段,将所有数据汇总到一个技术架构和仓库里

    • 只有一线C端的大型互联网公司才完成了数据中心的建设

      • 京东B轮的时候才进行了数仓的全面重构和中心化

      • 淘宝也是在阿里云出世后才彻底完成

      • 字节很多新增业务部依旧日无法接入数据中心

  • 智能化
    • 在完成数据中心的建设后,企业在数据征途上将挑战一个永无止境目标一一商业智能
    • 商业智能实现的四个阶段

image-20230913205626233

  • 反映现实情况

    image-20230913205906373

  • 监控关键指标

image-20230913205956112

  • 辅助决策制定

image-20230913210032249

  • 实现自动决策

image-20230913210210078

1.6 数据分析的四种类型和六个方向

image-20230913210450566

image-20230913210538301

相关文章:

认识数据分析

文章目录 1. 认识数据分析1.1 数据自身的三大属性1.2 建数仓 数据分析的工程技术1.3 数据分析解决问题的原理1.4 数据分析的具体流程1.5 数据的中心化和智能化1.6 数据分析的四种类型和六个方向 1. 认识数据分析 1.1 数据自身的三大属性 客观:用数字衡量和表现一件…...

Learn Prompt-ChatGPT 精选案例:写作博客

在 ChatGPT 的帮助下,文本内容的产出,尤其是撰写博客文章的过程得到了进一步的简化。你可以让 ChatGPT 激发你的灵感,也可以让它美化你的文章内容。 这里我们希望能通过prompt写出一篇以“ChatGPT对社会各行各业的影响”为主题的博客。 本页…...

《确保安全:PostgreSQL安全配置与最佳实践》

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🐅🐾猫头虎建议程序员必备技术栈一览表📖: 🛠️ 全栈技术 Full Stack: &#x1f4da…...

Unity中Shader抓取屏幕并实现扭曲效果

文章目录 前言一、屏幕抓取,在上一篇文章已经写了二、实现抓取后的屏幕扭曲实现思路:1、屏幕扭曲要借助传入 UV 贴图进行扭曲2、传入贴图后在顶点着色器的输入参数处,传入一个 float2 uv : TEXCOORD,用于之后对扭曲贴图进行采样3、…...

深浅拷贝详解

深浅拷贝 经典真题 深拷贝和浅拷贝的区别?如何实现 深拷贝和浅拷贝概念 首先,我们需要明确深拷贝和浅拷贝的概念。 浅拷贝:只是拷贝了基本类型的数据,而引用类型数据,复制后也是会发生引用,我们把这种拷…...

@Scheduled 定时任务

Scheduled(cron"30 * * * * ?") 1.cron表达式格式: {秒数} {分钟} {小时} {日期} {月份} {星期} {年份(可为空)} 2.cron表达式各占位符解释: {秒数}{分钟} > 允许值范围: 0~59 ,不允许为空值,若值不合法,调度器将…...

丙烯酸共聚聚氯乙烯树脂

声明 本文是学习GB-T 42790-2023 丙烯酸共聚聚氯乙烯树脂. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围 本文件规定了丙烯酸共聚聚氯乙烯树脂的外观、物化性能等技术要求,描述了相应的采样、试验方 法、检验规则、标志、包装、…...

Navicat导入Excel数据顺序变了

项目场景: Navicat导入Excel数据 问题描述 从Excel表格中导入数据到数据库中。但是,在导入的过程中,我们常会发现数据顺序出现了问题,导致数据错位,给数据的处理带来了极大的麻烦。 原因分析: 这个问题的…...

uni-app的生命周期

uni-app的生命周期包括应用生命周期和页面生命周期。 应用生命周期涵盖了整个uni-app应用的启动、运行和销毁过程,主要包括以下几个生命周期函数: onLaunch:应用初始化时触发,只触发一次。onShow:应用启动或从后台进…...

Vulnhub实战-DC9

前言 本次的实验靶场是Vulnhub上面的DC-9,其中的渗透测试过程比较多,最终的目的是要找到其中的flag。 一、信息收集 对目标网络进行扫描 arp-scan -l 对目标进行端口扫描 nmap -sC -sV -oA dc-9 192.168.1.131 扫描出目标开放了22和80两个端口&a…...

软件设计模式系列之七——原型模式

1 模式的定义 原型模式(Prototype Pattern)是一种创建型设计模式,其主要目的是通过复制现有对象来创建新对象,而不是使用构造函数。原型模式将对象的创建委托给原型对象,通过克隆(复制)来生成新…...

PMP考试注意事项有哪些?

1. PMI明确规定:不允许考生使用自带文具,包括自带的笔、削笔刀、橡皮、笔袋、计算器和草稿纸等。 2. 本次考试考场内为每位考生配备2B铅笔、橡皮、计算器(若有需要)和草稿纸。如文具有缺损或考试过程中如需更换铅芯等,请向监考老师举手示意。…...

chartgpt+midjourney

chatGPT程序化生成故事 英文版脚本步骤 步骤一:在chatgpt中输入以下脚本,,标红为可变的文字,输入你想要的,目前是科幻,即科幻故事,你可以改为 fairy-tale,则写的是童话故事&#x…...

【SpringMVC】自定义注解

【SpringMVC】自定义注解 前言1. 什么是注解?2. 注解的用处3. 注解的原理1.1. Override1.2. SuppressWarnings 2. JDK元注解2.1. Retention2.2. Target2.3. Inherited2.4. Documented 3. 自定义注解3.1. 自定义注解的分类注解类 结语 自定义注解及其应用 前言 在J…...

【李沐深度学习笔记】数据操作实现

课程地址 数据操作实现p2 数据操作 首先导入PyTorch包(import torch),虽然叫PyTorch,但实际上要导入torch。 import torch张量 张量表示的是一个数值组成的数组,这个数组可以有很多个维度。 # 生成0-11的顺序序列构成的一维…...

【深度学习-注意力机制attention 在seq2seq中应用】

注意力机制 为什么需要注意力机制attention机制的架构总体设计一、attention本身实现评分函数 attention在网络模型的应用-Bahdanau 注意力加性注意力代码实现 为什么需要注意力机制 这是一个普通的seq2seq结构,用以实现机器对话,Encoder需要把一个输入的…...

详解混合类型文件(Polyglot文件)的应用生成与检测

1. 引入 混合类型文件(Polyglot文件),是指一个文件,既可以是合法的A类型,也可以是合法的B类型。 比如参考3中的文件,是一个html文件,可以用浏览器正常打开;它也是一个一个.jar文件&…...

QT之QTableView的简介

QT之QTableView的简介 QTableView 是 Qt 框架中的一个类,用于显示和编辑表格数据。它提供了一个灵活的模型/视图架构,允许用户以不同的方式显示和编辑数据。 以下是 QTableView 的一些常用函数及其用法: 1)QTableView(QWidget *pa…...

学习记忆——宫殿篇——记忆宫殿——记忆桩——知识讲解

类比 假设这些桩子好比不同的交通工具,每一种交通工具都可以助我们到达目的地,那举现在就根据你的时间以及现实情况,选择最合适自己的交通工具即可,重点在于你要熟悉每种交通工具的用途不区别。桩子也是如此,把所有的桩…...

Python lambda匿名函数

视频版教程 Python3零基础7天入门实战视频教程 前面我们所学的函数定义,都是有函数名的。 我们现在学的lambda函数是没有名称的,也就是匿名函数。 我们在只需要一次性使用的函数的时候,就可以用lambda匿名函数,简单方便快捷。 …...

成绩统计(蓝桥杯)

成绩统计 题目描述 小蓝给学生们组织了一场考试,卷面总分为 100 分,每个学生的得分都是一个 0 到 100 的整数。 如果得分至少是 60 分,则称为及格。如果得分至少为 85 分,则称为优秀。 请计算及格率和优秀率,用百分数…...

ETL与ELT理解

ETL ETL( Extract-Transform-Load),用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL模式适用于小数据量集。如果在转换过程…...

IntelliJ IDEA 2023 年下载、安装教程、好用插件推荐

文章目录 下载与安装IDEA常用插件推荐Alibaba Java Coding Guidelines(阿里巴巴Java开发规约)Key Promoter X(IDEA快捷键提示)Translation(翻译插件)Save Actions(优化保存插件)Codo…...

下载HTMLTestRunner并修改

目录 一. 下载HTMLTestRunner 二. 修改HTMLTestRunner 1. 修改内容 2. 修改原因 一. 下载HTMLTestRunner 下载报告模板地址:http://tungwaiyip.info/software/HTMLTestRunner.html 下载模块: 二. 修改HTMLTestRunner 将修改后的模块放到python安装目录下的..…...

C#回调函数学习1

回调函数(Callback Function)是一种函数指针,它指向的是由用户自己定义的回调函数。我们将这个回调函数的指针作为参数传递给另外一个函数,在这个函数工作完成后,它将通过这个回调函数的指针来回调通知调用者处理结果。…...

leetcode 232 用栈实现队列

请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支持的所有操作(push、pop、peek、empty): 实现 MyQueue 类: void push(int x) 将元素 x 推到队列的末尾int pop() 从队列的开头移除并返回元素int peek() 返回队列开头…...

element UI表单验证,自定义验证规则

validator 可以为指定字段自定义验证函数——这就相当于把前边配置的东西用js按照以前的方式编写验证逻辑了。虽然麻烦点&#xff0c;但是能实现比较复杂的业务逻辑判断。 <el-form-itemlabel"中奖概率"prop"rate":rules"[{ required: true, mes…...

redis 主存复制

1. 前言 Redis的持久化机制&#xff0c;它很好的解决了单台Redis服务器由于意外情况导致Redis服务器进程退出或者Redis服务器宕机而造成的数据丢失问题。 在一定程度上保证了数据的安全性&#xff0c;即便是服务器宕机的情况下&#xff0c;也可以保证数据的丢失非常少。 通常…...

Unity Shader顶点数据疑问

1&#xff09;Unity Shader顶点数据疑问 2&#xff09;Unity 2018发布在iOS 16.3偶尔出现画面不动的问题 3&#xff09;安卓游戏启动后提示“应用程序异常” 这是第352篇UWA技术知识分享的推送&#xff0c;精选了UWA社区的热门话题&#xff0c;涵盖了UWA问答、社区帖子等技术知…...

java写一个用于生成雪花id的工具类

我们创建一个类 叫 SnowflakeIdGenerator 作为生成雪花id的工具类 然后 编写代码如下 public class SnowflakeIdGenerator {private static final long START_TIMESTAMP 1609459200000L; // 设置起始时间戳&#xff0c;可以根据需要进行调整private static final long WORKER…...

wordpress站内301/qq刷赞网站推广

这一周我们小组进行了JSON转换和数据库动态转换以及用户界面的编写等工作&#xff0c;我负责编写用户查看发布信息界面和申请发布界面。遇到的问题有element ui的card组件分页和表单数据与页面数据一起传到后端。   发布信息以el-card的形式展现在页面上&#xff0c;结合el-r…...

莆田有交做外贸网站的没/北京seo优化厂家

POSTGRESQL手册描述该特性&#xff1a;在处理查询期间&#xff0c;前端可能会请求取消查询。出于执行效率的原因&#xff0c;取消请求不会在打开的连接上直接发送到后端&#xff1a;我们不希望后端在查询处理期间不断检查来自前端的新输入。取消请求应该相对不频繁&#xff0c;…...

广州seo网站推广优化/今日头条新闻在线看

什么是索引覆盖就是select的数据列只用从索引中就能够取得&#xff0c;不必读取数据行&#xff0c;换句话说查询列要被所建的索引覆盖。那么显然select * from ...是一种拙劣的查询&#xff0c;除非你建立了包含所有列的索引&#xff08;这样建索引脑子进水&#xff09;。对 于…...

临淄房产信息网123/历下区百度seo

marker&#xff1a; 边缘&#xff1a;’MarkerEdgeColor’, [],&#xff08;RGB 配色&#xff09;填充&#xff1a;’MarkerFaceColor’, []&#xff08;RGB 配色&#xff09;转载于:https://www.cnblogs.com/mtcnn/p/9421894.html...

成都网站建设公司有哪些/关键词优化seo外包

在xcode8 升级后上传ipa文件 需要设置一个安全提示&#xff0c;现在上传app store的方式为xcode或者 application loader 一、xcode 准备工作完成后点击Product----->Archive------>upload to App store 二、application loader 程序完成后&#xff0c;1、先清空products…...

网站的做用/网络销售挣钱吗

Android中对sqlite加密--SQLCipher 原文:Android中对sqlite加密--SQLCipherandroid中有些时候会将一些隐私数据存放在sqlite数据库中&#xff0c;在root过的手机中通过RE就能够轻松的打开并查看数据库所有内容&#xff0c;所以对隐私数据的保护就有两个方法&#xff1a;①将隐私…...