买好了域名 如何做网站/中国关键词
序言
学习下阿里DataWorks的设计理念以及要做的事情cuiyaonan2000@163.com
参考文档:
https://www.aliyun.com/product/bigdata/ide
https://help.aliyun.com/document_detail/73015.html
https://help.aliyun.com/document_detail/324149.html ----数据治理
Launch
DataWorks基于阿里云ODPS/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论,同时与数万名政务/金融/零售/互联网/能源/制造等客户携手,助力产业数字化升级。
智能数据建模
数仓规划
使用DataWorks进行数据建模时,您可以在数仓规划页面进行数据分层、业务分类、主题域和业务过程设计。
这里的数仓规格通俗点讲是,给数据贴标签,根据数据的处理流程,业务分类,业务过程,数据域等分类方式来区分不同阶段,场景,业务等类型的数据,方便将来根据类型来查询数据。cuiyaonan2000@163.com
数据分层
您可以结合业务场景、数据场景综合考虑设计数仓的数据分层,DataWorks为您默认创建业界通用的五层数仓分层:----如下的数据分类或者说数据处理流程,应该是我们通常就能想到的cuiyaonan2000@163.com
数据引入层 ODS(Operational Data Store)
明细数据层 DWD(Data Warehouse Detail)
汇总数据层 DWS(Data Warehouse Summary)
应用数据层 ADS(Application Data Service)
公共维度层 DIM(Dimension)
您也可以根据业务需求创建其他分层数据层,创建数据分层的操作请参见创建数仓分层。
业务分类
当企业业务比较复杂,不同类型业务彼此间需要共享数据域,但是又希望能在模型设计和应用过程中快速定位本业务的数据时,您可结合真实业务情况,规划不同的业务分类,在后续建模的维度表和明细表中,将其关联到对应的业务分类中。创建业务分类的操作可参见业务分类。
数据域
数据域是一个较高层次的数据归类标准,是对企业业务过程进行抽象、提炼、组合的集合,是企业业务人员在使用数据时第一个分组入口,可以帮助企业业务人员快速的从海量的数据中快速圈定到自己的业务数据。
数据域面向业务分析,一个数据域对应一个宏观分析领域,比如采购域、供应链域、HR域、电商业务域等。数据域的设定建议由统一组织或者人员(如数据架构师或者模型小组成员)进行管理和设定,数据域设计人员需要能对企业有深刻的业务理解,更多的表达对业务的解释和抽象。使用DataWorks进行数据域的规划建设的操作,请参见数据域。
业务过程
业务过程是对业务活动流程的描述,例如在电商领域,加购、下单、支付等都可以是一个业务过程。进行业务效果分析时,业务过程有非常典型的应用,例如常用漏斗分析,即将购买商品的业务活动分解为浏览商品、加入购物车、下订单、付款、确认收货等业务过程,统计每个业务过程的“订单数”,将可以针对“订单数”这一指标做漏斗分析。使用DataWorks创建业务过程的操作请参见业务过程。
数据标准
DataWorks数据建模支持在建模前规划制定数据标准,或在建模使用过程中根据业务情况沉淀企业业务的数据标准。通过规范约束标准代码、度量单位、数据标准、命名词典,来保障后续建模与应用过程中数据处理的一致性。
例如,现有注册表和登录表两张表,注册表中存储了会员ID,字段名为user_id,登录表中也存储了会员ID,字段名为userid,此时针对会员ID这个数据创建统一的数据标准,例如指定数据处理的标准代码、指定字段的属性要求(例如字段的数据类型、长度、默认值等)、指定数据的度量单位。创建好数据标准后,后续在建模过程中涉及到会员ID这个字段的设置时,即可直接关联此标准,以此来保障所有会员ID字段的标准统一。
如此这般其实就是规定了业务中所有的字段的标准信息,虽然进来的数据字段信息都不一样,但是它们都对应到标准后的字段内容上cuiyaonan2000@163.com
维度建模
DataWorks的数据建模理念遵循维度建模思想,使用DataWorks的维度建模功能进行数据仓库建模设计时:-----------此处是主要是针对模型时的分类,不同模型由不同的建仓类型
维度表
结合业务的数据域的规划,提取出各业务数据域中进行数据分析时可能存在的维度,并将维度及其属性通过维度表的方式存储下来。例如,在进行电商业务数据分析时,可用的维度及其属性有:订单维度(属性包括订单ID、订单创建时间、买家ID、卖家ID等)、用户维度(性别、出生日期等)、商品维度(包括商品ID、商品名称、商品上架时间)等,此时您就可以将这些维度和属性创建为订单维度表、用户维度表、商品维度表等,将维度属性记录作为维度表的字段。后续您可将这些维度表部署到数仓中,通过ETL将实际维度数据按照维度表定义的方式进行存储,方便业务人员在后续的数据分析时进行取用。
明细表
结合业务过程的规划,梳理分析各业务过程中可能产生的实际数据,将这些实际数据字段通过明细表的方式存储下来。例如下订单这一业务过程中,您可以创建下订单这一明细表,用于记录下单过程可能产生实际数据字段,例如订单ID、订单创建时间、商品ID、数量、金额等。后续您可将这些明细表部署到数仓中,通过ETL将真实的数据按照明细表的定义方式进行汇总存储,便于业务分析时取用。
汇总表
您可以结合业务数据分析和数仓分层,将一些明细的事实数据和维度数据先进行汇总分析,创建汇总表,后续数据分析时直接取用汇总表中的数据即可,无需再取用明细表和维度表中的数据。----常用的类似于数据分层
逆向建模
逆向建模主要用于将其他建模工具生成的模型反向建模至DataWorks的维度建模中。例如,当您已通过其他建模工具生成模型,此时,想更换为DataWorks的智能建模进行后续建模工作,则可以使用逆向建模功能。该功能无需您再次执行建模操作,即可帮助您快速将已有模型反向建模至DataWorks的维度建模中,节省了大量的时间成本。----模型复用说的高大尚
维度表、明细表、汇总表的创建操作请参见创建维度表、创建明细表、创建汇总表。逆向建模操作,详情请参见逆向建模。
数据指标
DataWorks的数据建模提供数据指标功能,为您提供统一的指标体系建立能力。
指标体系由原子指标、修饰词、时间周期和派生指标构成。----这个应该是包含了数据标准,即用于规定了一个业务下应该有哪些符合数据标准的字段,以及相关的计算字段cuiyaonan2000@163.com
原子指标:是基于某一业务过程下的度量,如“支付订单”业务过程中的“支付金额”。
修饰词:是对指标统计业务范围的限定,如限定“支付金额”的统计范围为“母婴类产品”。
时间周期:用于明确指标统计的时间范围或者时间点,如指定统计“支付金额”的时间周期为“最近7天”。
派生指标:由原子指标、修饰词、时间周期组合定义。如,统计“最近7天”“母婴类产品”的“支付金额”。
数据建模的必要性
海量数据的标准化管理
企业业务越庞大数据结构就越复杂,企业数据量会随着企业业务的快速发展而迅速增长,如何结构化有序地管理和存储数据是每个企业都将面临的一个挑战。
业务数据互联互通,打破信息壁垒
公司内部各业务、各部门之间数据独立自主形成了数据孤岛,导致决策层无法清晰、快速地了解公司各类数据情况。如何打破部门或业务领域之间的信息孤岛是企业数据管理的一大难题。
数据标准整合,统一灵活对接
同一数据不同描述,企业数据管理难、内容重复、结果不准确。如何制定统一的数据标准又不打破原有的系统架构,实现灵活对接上下游业务,是标准化管理的核心重点之一。
数据价值最大化,企业利润最大化
在最大程度上用好企业各类数据,使企业数据价值最大化,为企业提供更高效的数据服务。
数据集成
数据集成是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。
前面说的是数据建模,这里说要就是说,怎么获取原始数据cuiyaonan2000@163.com
使用限制
数据同步肯定不能兼容所有的数据源,至少一次性不能全不兼容
数据同步:
支持且仅支持结构化(例如RDS、DRDS等)、半结构化、无结构化(OSS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据的同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据同步,不支持同步OSS中存放完全非结构化的数据(例如一段MP3)至MaxCompute。
网络连通:
支持单地域内及部分跨地域的数据存储相互同步、交换的数据同步需求。 部分地域之间可以通过经典网络传输,但不能保证其连通性。如果测试经典网络不通,建议您使用公网方式进行连接。
数据传输:
数据集成仅完成数据同步(传输),本身不提供数据流的消费方式。
数据一致性:
数据集成同步仅支持at least once,不支持exact once,即不能保证数据重复,只能依赖主键+目的端能力来保证。--------------------这个是缺点cuiyaonan2000@163.com
离线(批量)同步简介
数据集成主要用于离线(批量)数据同步。离线(批量)的数据通道通过定义数据来源和去向的数据源和数据集,提供一套抽象化的数据抽取插件(Reader)、数据写入插件(Writer),并基于此框架设计一套简化版的中间数据传输格式,从而实现任意结构化、半结构化数据源之间数据传输。

关键点就是读取插件和写入插件用于批量信息的读取。
实时同步简介
数据集成的实时同步包括实时读取、转换和写入三种基础插件,各插件之间通过内部定义的中间数据格式进行交互。
一个实时同步任务支持多个转换插件进行数据清洗,并支持多个写入插件实现多路输出功能。同时针对某些场景,支持整库实时同步解决方案,您可以一次性实时同步多个表。详情请参见实时数据同步。
夺路输出暗合维度建模的内容。

同步解决方案优势
全量数据初始化。
增量数据实时写入。
增量数据和全量数据定时自动合并写入新的全量表分区。
同步参数
并发数
并发数是数据同步任务中,可以从源并行读取或并行写入数据存储端的最大线程数。----这个读取的并发比较有作用,如何避免重复读入????
限速
限速是数据集成同步任务可以达到的传输速度限制。
脏数据
脏数据是对于业务没有意义,格式非法或者同步过程中出现问题的数据。单条数据写入目标数据源过程中发生了异常,则此条数据为脏数据。 因此只要是写入失败的数据均被归类于脏数据。例如,源端是VARCHAR类型的数据写到INT类型的目标列中,导致因为转换不合理而无法写入的数据。您可以在同步任务配置时,控制同步过程中是否允许脏数据产生,并且支持控制脏数据条数,即当脏数据超过指定条数时,任务失败退出。
数据源
DataWorks所处理的数据的来源,可能是一个数据库或数据仓库。DataWorks支持各种类型的数据源,并且支持数据源之间的转换。
在数据集成同步任务配置前,您可以在DataWorks数据源管理页面,配置好您需要同步的源端和目标端数据库或数据仓库的相关信息,并在同步过程中,通过选择数据源名称来控制同步读取和写入的数据库或数据仓库。
数据治理
DataWorks数据治理中心可自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及数据安全等维度存在的待治理问题,并通过健康分模型进行量化评估,从全局、工作空间、个人等多个视角,以治理报告及治理排行榜的形式呈现治理成果,帮助您有效推动解决治理问题达成治理目标。在成本治理方面,数据治理中心提供任务资源消耗明细、资源消耗整体趋势、单任务费用预估等丰富功能,可帮助您对各类资源使用费用进行有效的优化控制。
治理内容
如下的主要分为 开发前检查与开发后检查,检查的对象根据所在的环节有所不同cuiyaonan2000@163.com
检查项:用于数据开发等环节的事前检查,在开发流程中检测不符合数据规范的内容,生成影响开发流程正常执行的问题事件,约束、管理开发流程。
例如,检查项可以配置为禁止使用select*语句,不允许通过create table语句创建表等。
检查项事件:检查项检测出的影响开发流程正常执行的问题事件。
治理项:用于数据开发后的分析环节,检测系统存在的待治理优化问题。治理项包括必选治理项和可选治理项。
例如,治理项可以配置为任务运行时间超长、连续出错节点、无人访问叶子节点、空跑节点等。
治理项问题:治理项检测出的待治理优化问题。
治理方案模板:数据治理中心提供的统一化治理模板,配置了常见的检查项及治理项,您可以直接使用该模板进行数据问题检测。
健康分:基于治理项,按照系统预先定义的模型计算得出,用于体现治理成效。
治理单元:由一个或多个工作空间组成,用于集中统计指定工作空间的整体健康分、治理项问题和检查项事件。
知识库:数据治理中心提供的,针对常见检查项事件及治理项问题给出的解决方案。
数据治理逻辑
如上开发前的检查叫做检查项,开发后的治理叫治理项
数据治理问题检测包括数据开发前的检查项检测,数据开发后的治理项检测,帮助您全方位管控当前数据存在的待治理问题。同时,数据治理中心为您提供了统一的治理方案模板,汇总了常见检查项及治理项,您可以直接使用该模板,检测平台使用过程中的待治理问题。数据治理逻辑如下图所示。

检查项检测(开发前,即数据处理前):
用于数据开发前的管控治理,主要在执行提交、发布等操作时校验规范性等问题。在进行数据开发前,您可以通过检查项对数据开发功能相关的约束进行检查,当检查出存在不符合约束规范的内容时,系统会生成影响开发流程正常执行的问题事件。您可以基于该事件处理暴露的问题,以便数据开发流程可以正常执行。
治理项检测(开发后,即数据处理后):
用于数据开发后的管控治理。数据开发完成后,您可以使用数据治理中心的治理功能,通过全局视角、个人视角或工作空间视角,查看对应的待治理项。数据治理人员可以基于暴露的待治理项,快速发现并解决存在的问题,推进团队内的数据治理目标。
相关文章:

大数据开发治理平台 DataWorks
序言学习下阿里DataWorks的设计理念以及要做的事情cuiyaonan2000163.com参考文档:https://www.aliyun.com/product/bigdata/idehttps://help.aliyun.com/document_detail/73015.htmlhttps://help.aliyun.com/document_detail/324149.html ----数据治理LaunchDataWorks基于阿里云…...

Xshell的下载、使用、配置【ssh、telnet、串口】
目录 一、概述 二、Xshell的使用 2.1 Xshell使用ssh协议远程连接Linux主机或服务器 2.2 Xshell使用telnet协议远程连接Linux开发板 2.3 Xshell使用SERIAL协议远程连接Linux开发板 三、Xshell常用配置 3.1 配置默认会话属性 一、概述 Xshell是由NetSarang公司开发的强大…...

C++回顾(七)—— 面向对象模型
7.1 静态成员变量和静态成员函数 7.1.1 静态成员变量 关键字 static 可以用于说明一个类的成员;静态成员提供了一个同类对象的共享机制;把一个类的成员说明为 static 时,这个类无论有多少个对象被创建,这些对象共享这个 static …...

开源监控服务uptime-kuma
好久没写文章了,刚好最近用了一个开源的监控服务,感觉蛮有意思的,记录一下 (一)安装 uptime-kuma安装方式有几种,这里当然是选择大家都爱的docker,一条命令搞定 docker run -d --restartalways -p 3001:…...

JavaScript混淆技术:了解其核心原理和常用手段
当今互联网时代,JavaScript已经成为了web前端开发的重点技术之一。其中,JavaScript代码的安全性问题一直是关注的焦点。为了保护JavaScript代码的安全性,很多人对其进行加密处理,众所周知,对于单纯的加密算法ÿ…...

大型医院云HIS系统:采用前后端分离架构,前端由Angular语言、JavaScript开发;后端使用Java语言开发 融合B/S版电子病历系统
一套医院云his系统源码 采用前后端分离架构,前端由Angular语言、JavaScript开发;后端使用Java语言开发。融合B/S版电子病历系统,支持电子病历四级,HIS与电子病历系统均拥有自主知识产权。 文末卡片获取联系! 基于云计…...

SAP UI5 Upload/Download file through NetWeaver Gateway
1、创建 SEGW对象 2、创建Entity Type 要把Media 标识打上 3、 激活对象然后到DPC Class的扩展对象里面重定义 /IWBEP/IF_MGW_APPL_SRV_RUNTIME~GET_STREAM /IWBEP/IF_MGW_APPL_SRV_RUNTIME~CREATE_STREAM /IWBEP/IF_MGW_APPL_SRV_RUNTIME~UPDATE_STREAM METHOD /iwbep/if_m…...

opencv校正图像
目录1、前言2、例程2.1、代码2.2、效果口罩说明书网页3、按步骤分析转灰度图降噪 Canny边缘检测膨胀(可视具体情况省略)轮廓检索选取角度1、前言 我们用相机拍照时,会因为角度问题造成拍歪,会影响图像的识别,这时就需…...

JavaScript:函数与箭头函数的区别
ref 1. 定义 函数 function getName() {}箭头函数 const getName () > {}2. 命名 函数分为匿名、具名。 function getName() {} let getName function () {}箭头函数只有匿名。 const getName () > {}3. 构造函数 箭头函数都是匿名函数,所以不能作为构造…...

八股文(四)
目录 一、 Vue2的双向数据绑定原理 二、 vue2数据绑定缺点是什么?vue3是怎么解决的? (1)因为vue2.0 object.defineProperty只能劫持对象属性 (2)Proxy是直接代理对象 (3)proxy不…...

XSS挑战赛(xsslabs)1~10关通关解析
简介 XSS挑战赛,里面包含了各种XSS的防御方式和绕过方式,好好掌握里面的绕过细节,有助于我们更好的去发现XSS漏洞以及XSS的防御。本文更多的是分享解析的细节,不是一个标准的答案,希望大家在渗透的时候有更多的思维。…...

什么是以太网供电POE
POE指的是以太网供电,就是一根网线在传输网络的同时还传输设备所需的电源。我们最常见的就是通过POE交换机连接网络摄像头,网络摄像头无需的电源适配器,仅靠一根网线就能实现电源和网络的传输。POE供电一般可以到100米。POE包含两个部分&…...

【JUC2022】第七章 AQS、ReentrantReadWriteLock 和 StampedLock
【JUC2022】第七章 AQS 文章目录【JUC2022】第七章 AQS一、AQS1.概述2.同步器3.抽象的4.队列式二、ReentrantReadWriteLock1.概述2.案例3.存在的问题三、StampedLock1.概述2.案例3.存在的问题一、AQS 1.概述 AQS(AbstractQueueSynchronizer,抽象的队列式同步器)&am…...

Spark 磁盘作用
Spark 磁盘作用磁盘作用性能价值失败重试ReuseExchangeSpark 导航 磁盘作用 临时文件、中间文件、缓存数据,都会存储到 spark.local.dir 中 在 Shuffle Map 时, 当内存空间不足,就会溢出临时文件存储到磁盘上溢出的临时文件一起做归并计算…...

三、Spark 内存管理
文章目录Spark 内存管理堆内和堆外内存堆内内存堆外内存堆外与堆内的平衡内存空间分配静态内存管理(早期版本)统一内存管理Spark 内存管理 堆内和堆外内存 Spark 引入了堆外(Off-heap)内存,使之可以直接在工作节点的…...

Java 面试常见项目问题回答
之前整理了好几期,我面试时遇到的面试候选人,我是如何我去筛选的,这一期,我们来看下一些 面试常问的业务性的问题 你们公司权限认证是如何实现的? 这其实是个通用性的问题,大部分公司 小型公司,或者中型公…...

文件上传和下载(原生JS + SpringBoot实现)
目录 概述 前端编写-上传表单和图片回显 HTML表单代码 发送请求逻辑 CSS代码 后端编写-文件上传接口 后端编写-文件下载接口 概述 在现代Web应用程序中,文件上传和下载是常见的功能。本博客将介绍如何使用原生JS和Spring Boot实现文件上传和下载的功能。 在其…...

【C语言学习笔记】:安全性
用const修饰变量或方法,从而告诉编译器这些都是不可变的,有助于编译器优化代码,并帮助开发人员了解函数是否有副作用。此外,使用const &可以防止编译器复制不必要的数据。John Carmack对const的评论[2]值得一读。 // Bad Ide…...

Linux - 磁盘存储管理 磁盘引入
# 我们要介绍下 磁盘管理, 那不妨先来看一张图来简单 引入 :这张图呢,是我们 Windows 上的磁盘管理的显示 。根据这幅图呢,提出一个问题 :>>> 这幅图磁盘管理所显示的内容,你能判断出 该电脑 有几…...

分割std::string成多个string
文章目录问题描述前置知识解决代码问题描述 假设我们有一个http服务器,此服务器接收客户端发来的http请求,假设请求如下 GET / HTTP/1.1我们怎么将这个Http请求分割成三份,分别存入不同的string中分别处理? 前置知识 首先std::string的本…...

3月多国更新进出口产品规定
【3月多国更新进出口产品规定】2023年3月多项外贸新规实施,涉及欧盟,伊拉克,泰国,孟加拉国,埃及等多国进出口产品限制及海关税则。1. 3月1日起给予埃塞俄比亚等三国98%税目产品零关税待遇中国国务院关税税则委员会17日…...

nacos相关面试题
Nacos是阿里巴巴开源的一款注册中心和配置中心,它能够实现服务的注册、发现和配置管理等功能。Nacos的实现原理主要分为以下几个部分:注册中心:Nacos作为注册中心,通过提供RESTful API的方式对外提供注册和发现服务。它使用基于Ra…...

Linux基础命令-groupmems管理组群的成员
Linux-usermod修改用户 Linux-useradd创建用户 Linux-userdel删除用户 Linux基础命令-chown修改文件属主 Linux基础命令-chmod修改文件权限 groupmems 命令介绍 先来看看这个命令的帮助信息是什么概念 NAME groupmems - administer members of a user’s primary group group…...

css系统化学习
元素的语义化 SEO:搜索引擎优化 根据搜索引擎展示的规律,语义化的元素更容易被展示获得更多浏览量 字符编码 css历史 内联样式(inline) style"内容全写在等号后面,双引号里面,多个之间用;隔开" 内部样式(internal) style写在head里面,在title下面,不是在body内, …...

AI的简单介绍
什么是AI? AI 是 Artificial Intelligent 的缩写,是我们通常意义上说的人工智能。 简单来说就是让机器能够模拟人类的思维能力,让它能够像人一样感知、思考甚至决策。 为什么要开发AI? 因为在过去,都是我们学习机器…...

【Linux】-- 进程间通讯
目录 进程间通讯概念的引入 意义(手段) 思维构建 进程间通信方式 管道 站在用户角度-浅度理解管道 匿名管道 pipe函数 站在文件描述符角度-深度理解管道 管道的特点总结 管道的拓展 单机版的负载均衡 匿名管道读写规则 命名管道 前言 原理…...

STM32模拟SPI时序控制双路16位数模转换(16bit DAC)芯片DAC8552电压输出
STM32模拟SPI时序控制双路16位数模转换(16bit DAC)芯片DAC8552电压输出 STM32部分芯片具有12位DAC输出能力,要实现16位及以上DAC输出需要外挂DAC转换ASIC。 DAC8552是双路16位DAC输出芯片,通过SPI三线总线进行配置控制输出。这里…...

基于intel x86+fpga智能驾驶舱和高级驾驶辅助系统硬件设计(二)
系统功能架构及各模块功能介绍 智能驾驶舱和高级驾驶辅助系统是一个车载智能终端嵌入式平台,系统是一个能够运行 虚拟化操作系统的软件和硬件的综合体。本文的车载主机包括硬件主控处理器、电源管理芯 片、存储设备、输入输出控制器、数字仪表系统系统、后座娱乐系统…...

oneblog_justauth_三方登录配置【Github】
文章目录oneblog添加第三方平台github中创建三方应用完善信息登录oneblog添加第三方平台 1.oneblog管理端,点击左侧菜单 网站管理——>社会化登录配置管理 ,添加一个社会化登录 2.编辑信息如下,选择github平台后复制redirectUri,然后去github获取cl…...

自行车轮胎充气泵PCBA方案
轮胎充气泵PCBA方案由多种元器件设计组合而成,PCBA是英文Printed Circuit Board Assembly 的简称,也就是说PCB空板经过SMT上件,或经过DIP插件的整个制程,简称PCBA。PCBA是一个电子产品功能实现的最原始的状态,未经过任…...