当前位置: 首页 > news >正文

认识数据分析

文章目录

    • 1. 认识数据分析
      • 1.1 数据自身的三大属性
      • 1.2 建数仓 数据分析的工程技术
      • 1.3 数据分析解决问题的原理
      • 1.4 数据分析的具体流程
      • 1.5 数据的中心化和智能化
      • 1.6 数据分析的四种类型和六个方向

1. 认识数据分析

1.1 数据自身的三大属性

  • 客观:用数字衡量和表现一件客观事物时,能最大程度统一大家的认知

  • 量化:量化的数据,可以利用数学原理进行各种精密的计算,得出更多价值的结果

    如业务推导:门店成交额=下单人数*平均客单价,知道其中两个即可推算第三个

    统计学:平均数、中位数、众数

    微积分:求导–路程-速度-加速度

  • 机器可处理:数据是少数人和机器都能理解和处理的信息,人可以借助机器高效处理数据的各种信息

  • 数据图表:机器给予规则计算和展现数据

  • 数据工程:让机器替代人去7*24小时汇总和处理数据

  • 机器学习:让机器按照人设定的规则去试错尝试、求解最佳参数

1.2 建数仓 数据分析的工程技术

随着数据系统的晚上,如果企业的数据汇总超过了Excel的存储上线

那么企业需要建立自己的大规模数据仓库,处理不断增长的数据资产,数据仓库技术占到数据分析实现所用技术的70%以上

image-20230912112120129

  • 埋点采集

    • 传感器 :传感器通常用于测试物理变量,一般包括声音、温湿度、距离、电流等,将测量值转化为数字信号,传送到数据采集点,让物体有了触觉、味觉和嗅觉等感官,使其活起来
  • 系统日志采集方法:

    • 日志文件数据一般由数据源系统产生,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和web服务器记录的用户访问行为
    • 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chkwa,Cloudera和Flume,Fackbokk的Scribe.这些工具采用分布式架构,能满足每秒数百M的日志数据采集和传输需求
  • web爬虫

    • 网络爬虫指为搜索引擎下载并存储网页的程序,它是搜索引擎和web缓存的主要的数据采集方式,通过网络爬虫或网站公开API等方式从网站上获取数据信息。
  • 传输存储(数仓)

    • 传输:借助网络

    • 存储:借助数据库技术,研究如何组织和存储数据,高效获取和处理数据是一门大学问

      ​ 其涉及了:速度、准确性、最大规模、以及数据种类

  • 提取回流(数仓/算法)

    • 提取即将数据查询到,并导出为文件
    • 回流即指数据被操作过之后,怎么会到数据库,继续参与到生产和建模
  • 清洗处理(数仓)

    • 清洗:指利用一些第三方库清洗数据,使其符合数据包准
    • 处理:使得数据符合实际的需求
  • 连接导入:

    • 即对接不同的工具和软件,涉及到各种中间件和协议
  • 分析建模(分析/算法)

    • 分析:计算,并绘制一些可视化的图表等
  • 建模

    • 即机器学习与深度学习
  • 部署应用

    • BI监控
    • 算法平台:先知
    • 工程开发

1.3 数据分析解决问题的原理

image-20230913202440176

  • 传统:问题发生----结合现实----逻辑推理----得出结论
  • 数据:问题发生----结合现实----数据映射----量化分析----得出结论

数据分析只是分析的一种,能对碎片化的信息加以抽象和整合,不过度依赖量化,才是真正的分析能力

1.4 数据分析的具体流程

image-20230913202734094

  • 注意分析数据的目的:
    • 业务分析:关注数据与业务的关联性,映射关系和可解释性
    • 建模分析:关注数据的整体特征(特征决定上限,模型调参无限趋近于上限)
    • 分析的种类:
      • 计算型分析:统计学,机器学习
      • 逻辑型分析:归纳/演绎,思维模型

1.5 数据的中心化和智能化

  • 中心化

    • 当数据仓库建立完毕后,企业的数据团队基本上也搭建完毕了,但初级的数仓仍然有诸多问题

    • 跨库查询:数据存储在不同服务器中,无法实现业务级的垮库查询

    • 数据架构:数据中每个系统的开发独立维护,指标定义、数据结构、数据类型等架构标准都
      统一

    • 数据需求:字段需求无法精准有节奏地一一实现,开发说不做就不做了

    • 中心化的数据库将会统一管理企业的所有数据字段,将所有数据汇总到一个技术架构和仓库里

    • 只有一线C端的大型互联网公司才完成了数据中心的建设

      • 京东B轮的时候才进行了数仓的全面重构和中心化

      • 淘宝也是在阿里云出世后才彻底完成

      • 字节很多新增业务部依旧日无法接入数据中心

  • 智能化
    • 在完成数据中心的建设后,企业在数据征途上将挑战一个永无止境目标一一商业智能
    • 商业智能实现的四个阶段

image-20230913205626233

  • 反映现实情况

    image-20230913205906373

  • 监控关键指标

image-20230913205956112

  • 辅助决策制定

image-20230913210032249

  • 实现自动决策

image-20230913210210078

1.6 数据分析的四种类型和六个方向

image-20230913210450566

image-20230913210538301

相关文章:

认识数据分析

文章目录 1. 认识数据分析1.1 数据自身的三大属性1.2 建数仓 数据分析的工程技术1.3 数据分析解决问题的原理1.4 数据分析的具体流程1.5 数据的中心化和智能化1.6 数据分析的四种类型和六个方向 1. 认识数据分析 1.1 数据自身的三大属性 客观:用数字衡量和表现一件…...

Learn Prompt-ChatGPT 精选案例:写作博客

在 ChatGPT 的帮助下,文本内容的产出,尤其是撰写博客文章的过程得到了进一步的简化。你可以让 ChatGPT 激发你的灵感,也可以让它美化你的文章内容。 这里我们希望能通过prompt写出一篇以“ChatGPT对社会各行各业的影响”为主题的博客。 本页…...

《确保安全:PostgreSQL安全配置与最佳实践》

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🐅🐾猫头虎建议程序员必备技术栈一览表📖: 🛠️ 全栈技术 Full Stack: &#x1f4da…...

Unity中Shader抓取屏幕并实现扭曲效果

文章目录 前言一、屏幕抓取,在上一篇文章已经写了二、实现抓取后的屏幕扭曲实现思路:1、屏幕扭曲要借助传入 UV 贴图进行扭曲2、传入贴图后在顶点着色器的输入参数处,传入一个 float2 uv : TEXCOORD,用于之后对扭曲贴图进行采样3、…...

深浅拷贝详解

深浅拷贝 经典真题 深拷贝和浅拷贝的区别?如何实现 深拷贝和浅拷贝概念 首先,我们需要明确深拷贝和浅拷贝的概念。 浅拷贝:只是拷贝了基本类型的数据,而引用类型数据,复制后也是会发生引用,我们把这种拷…...

@Scheduled 定时任务

Scheduled(cron"30 * * * * ?") 1.cron表达式格式: {秒数} {分钟} {小时} {日期} {月份} {星期} {年份(可为空)} 2.cron表达式各占位符解释: {秒数}{分钟} > 允许值范围: 0~59 ,不允许为空值,若值不合法,调度器将…...

丙烯酸共聚聚氯乙烯树脂

声明 本文是学习GB-T 42790-2023 丙烯酸共聚聚氯乙烯树脂. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围 本文件规定了丙烯酸共聚聚氯乙烯树脂的外观、物化性能等技术要求,描述了相应的采样、试验方 法、检验规则、标志、包装、…...

Navicat导入Excel数据顺序变了

项目场景: Navicat导入Excel数据 问题描述 从Excel表格中导入数据到数据库中。但是,在导入的过程中,我们常会发现数据顺序出现了问题,导致数据错位,给数据的处理带来了极大的麻烦。 原因分析: 这个问题的…...

uni-app的生命周期

uni-app的生命周期包括应用生命周期和页面生命周期。 应用生命周期涵盖了整个uni-app应用的启动、运行和销毁过程,主要包括以下几个生命周期函数: onLaunch:应用初始化时触发,只触发一次。onShow:应用启动或从后台进…...

Vulnhub实战-DC9

前言 本次的实验靶场是Vulnhub上面的DC-9,其中的渗透测试过程比较多,最终的目的是要找到其中的flag。 一、信息收集 对目标网络进行扫描 arp-scan -l 对目标进行端口扫描 nmap -sC -sV -oA dc-9 192.168.1.131 扫描出目标开放了22和80两个端口&a…...

软件设计模式系列之七——原型模式

1 模式的定义 原型模式(Prototype Pattern)是一种创建型设计模式,其主要目的是通过复制现有对象来创建新对象,而不是使用构造函数。原型模式将对象的创建委托给原型对象,通过克隆(复制)来生成新…...

PMP考试注意事项有哪些?

1. PMI明确规定:不允许考生使用自带文具,包括自带的笔、削笔刀、橡皮、笔袋、计算器和草稿纸等。 2. 本次考试考场内为每位考生配备2B铅笔、橡皮、计算器(若有需要)和草稿纸。如文具有缺损或考试过程中如需更换铅芯等,请向监考老师举手示意。…...

chartgpt+midjourney

chatGPT程序化生成故事 英文版脚本步骤 步骤一:在chatgpt中输入以下脚本,,标红为可变的文字,输入你想要的,目前是科幻,即科幻故事,你可以改为 fairy-tale,则写的是童话故事&#x…...

【SpringMVC】自定义注解

【SpringMVC】自定义注解 前言1. 什么是注解?2. 注解的用处3. 注解的原理1.1. Override1.2. SuppressWarnings 2. JDK元注解2.1. Retention2.2. Target2.3. Inherited2.4. Documented 3. 自定义注解3.1. 自定义注解的分类注解类 结语 自定义注解及其应用 前言 在J…...

【李沐深度学习笔记】数据操作实现

课程地址 数据操作实现p2 数据操作 首先导入PyTorch包(import torch),虽然叫PyTorch,但实际上要导入torch。 import torch张量 张量表示的是一个数值组成的数组,这个数组可以有很多个维度。 # 生成0-11的顺序序列构成的一维…...

【深度学习-注意力机制attention 在seq2seq中应用】

注意力机制 为什么需要注意力机制attention机制的架构总体设计一、attention本身实现评分函数 attention在网络模型的应用-Bahdanau 注意力加性注意力代码实现 为什么需要注意力机制 这是一个普通的seq2seq结构,用以实现机器对话,Encoder需要把一个输入的…...

详解混合类型文件(Polyglot文件)的应用生成与检测

1. 引入 混合类型文件(Polyglot文件),是指一个文件,既可以是合法的A类型,也可以是合法的B类型。 比如参考3中的文件,是一个html文件,可以用浏览器正常打开;它也是一个一个.jar文件&…...

QT之QTableView的简介

QT之QTableView的简介 QTableView 是 Qt 框架中的一个类,用于显示和编辑表格数据。它提供了一个灵活的模型/视图架构,允许用户以不同的方式显示和编辑数据。 以下是 QTableView 的一些常用函数及其用法: 1)QTableView(QWidget *pa…...

学习记忆——宫殿篇——记忆宫殿——记忆桩——知识讲解

类比 假设这些桩子好比不同的交通工具,每一种交通工具都可以助我们到达目的地,那举现在就根据你的时间以及现实情况,选择最合适自己的交通工具即可,重点在于你要熟悉每种交通工具的用途不区别。桩子也是如此,把所有的桩…...

Python lambda匿名函数

视频版教程 Python3零基础7天入门实战视频教程 前面我们所学的函数定义,都是有函数名的。 我们现在学的lambda函数是没有名称的,也就是匿名函数。 我们在只需要一次性使用的函数的时候,就可以用lambda匿名函数,简单方便快捷。 …...

web vue 项目 Docker化部署

Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段: 构建阶段(Build Stage)&#xff1a…...

生成xcframework

打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式,可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。 使用 Xcode 命令行工具打包 通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...

业务系统对接大模型的基础方案:架构设计与关键步骤

业务系统对接大模型:架构设计与关键步骤 在当今数字化转型的浪潮中,大语言模型(LLM)已成为企业提升业务效率和创新能力的关键技术之一。将大模型集成到业务系统中,不仅可以优化用户体验,还能为业务决策提供…...

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

使用rpicam-app通过网络流式传输视频 使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 使用 rpicam-app 通过网络流式传输视频 本节介绍来自 rpica…...

Oracle查询表空间大小

1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...

高频面试之3Zookeeper

高频面试之3Zookeeper 文章目录 高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个?3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制 半数机制(过半机制&#xff0…...

MMaDA: Multimodal Large Diffusion Language Models

CODE : https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA,它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构&#xf…...

【Go】3、Go语言进阶与依赖管理

前言 本系列文章参考自稀土掘金上的 【字节内部课】公开课,做自我学习总结整理。 Go语言并发编程 Go语言原生支持并发编程,它的核心机制是 Goroutine 协程、Channel 通道,并基于CSP(Communicating Sequential Processes&#xff0…...

2025 后端自学UNIAPP【项目实战:旅游项目】6、我的收藏页面

代码框架视图 1、先添加一个获取收藏景点的列表请求 【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口(适配服务端返回 Token) export const login async (code, avatar) > {const res await http…...

Caliper 配置文件解析:config.yaml

Caliper 是一个区块链性能基准测试工具,用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构,并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析 这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件,主要包含以下几个部…...