当前位置: 首页 > news >正文

聊一聊大数据需求的流程

大致的流程:需求对接、口径梳理、数据开发、任务发布、任务监控、任务保障

大数据需求种类.png

流程图

@startuml
skinparam packageStyle rectangleactor 需求方
participant 数据BP as 数据组
participant 离线数仓
participant 实时数仓需求方 -> 数据组: 提出需求
数据组 -> 数据组: 分析需求
数据组 -> 离线数仓: 确认指标\n口径&数据源确认
离线数仓 -> 实时数仓: 数据探查
实时数仓 -> 离线数仓: 接入数据开发验证
离线数仓 -> 实时数仓: 数据验收
实时数仓 -> 离线数仓: 数据上线note right: 发起口径变更
离线数仓 -> 实时数仓: 判断是否涉及实时
alt 是
实时数仓 -> 离线数仓: 拉齐离线实时口径
end
alt 否
离线数仓 -> 离线数仓: 口径变更
end离线数仓 -> 离线数仓: 离线变更
离线数仓 -> 实时数仓: 实时变更
实时数仓 -> 实时数仓: 数据验收
实时数仓 -> 实时数仓: 数据上线
@enduml

渲染过之后,长这样子了

数据需求-2024-06-08-14-35-57.png

大数据开发是一个复杂而系统性的过程,涉及多个环节和角色。以下是各个环节的详细介绍:

1. 需求对接

需求对接是大数据开发的起点,主要包括以下几个步骤:

  • 需求收集:与业务部门或客户沟通,明确他们的数据需求。例如,需要哪些数据、数据的来源、数据处理后的输出形式、数据的更新频率等。
  • 需求分析:分析需求的可行性,评估技术实现的难度,估算所需的时间和资源。
  • 需求确认:与业务部门或客户确认需求细节,确保双方对需求有一致的理解。
示例1:零售行业的需求对接
  • 需求收集
    • 业务背景:某零售连锁店希望分析会员消费数据,以便进行精准营销。
    • 沟通内容
      • 数据需求:会员的购买历史、优惠券使用记录、反馈评论等。
      • 数据来源:POS系统、会员管理系统、在线购物平台。
      • 输出形式:个性化营销方案、促销活动推荐。
      • 更新频率:每周更新一次。
  • 需求分析
    • 可行性分析:数据获取和处理的复杂性,数据量的大小,对数据实时性的要求。
    • 资源估算:预计需要1个月时间,涉及1名数据工程师、1名数据分析师。
  • 需求确认
    • 细节确认:与营销部门详细讨论和确认每个数据字段和分析指标,确定数据的处理流程和输出方式。
    • 确认文档:编写需求文档并获得相关部门签字确认。
      大数据需求.png

2. 口径梳理

口径梳理是指对数据指标、维度等进行定义和规范化,以确保数据的一致性和准确性。具体步骤包括:

  • 定义数据口径:明确数据指标的计算方法、维度的划分方式、数据的来源等。
  • 口径文档:编写详细的口径文档,记录数据口径的定义和规则,以便后续开发和维护。
  • 沟通确认:与相关部门沟通口径定义,确保所有人对口径的理解一致。

3. 数据开发

数据开发是整个过程的核心环节,涉及数据的获取、处理和存储。具体步骤包括:

  • 数据采集:从各种数据源(如数据库、日志文件、API等)获取原始数据。
  • 数据清洗:对原始数据进行清洗,处理缺失值、重复数据、异常值等问题。
  • 数据转换:根据需求对数据进行转换和加工,如聚合、分组、计算等。
  • 数据存储:将处理后的数据存储到数据仓库或数据库中,以便后续使用。

4. 任务发布

任务发布是指将开发完成的数据处理任务部署到生产环境中,通常包括以下步骤:

  • 测试:在测试环境中对数据处理任务进行测试,确保其能正确运行。
  • 部署:将经过测试的数据处理任务部署到生产环境中。
  • 发布:正式发布数据处理任务,并通知相关部门或客户。

5. 任务监控

任务监控是保证数据处理任务正常运行的重要环节,具体包括:

  • 实时监控:通过监控系统实时监控任务的运行状态,及时发现和处理异常。
  • 日志分析:通过分析任务的运行日志,了解任务的执行情况,发现潜在问题。
  • 告警机制:设置告警机制,当任务运行出现异常时,及时通知相关人员处理。

6. 任务保障

任务保障是确保数据处理任务稳定运行的一系列措施,包括:

  • 备份和恢复:定期备份数据和任务配置,确保在发生故障时能快速恢复。
  • 容错机制:设计任务的容错机制,如任务失败时自动重试、任务失败时的应急预案等。
  • 性能优化:对数据处理任务进行性能优化,提高任务的执行效率,减少资源消耗。
  • 定期巡检:定期对数据处理任务进行巡检,发现并解决潜在问题,确保任务的长期稳定运行。

以上是大数据开发各个环节的详细介绍,每个环节都至关重要,只有各个环节紧密配合,才能确保大数据开发工作的顺利进行和最终数据产品的高质量交付

需求流程.png

相关文章:

聊一聊大数据需求的流程

大致的流程:需求对接、口径梳理、数据开发、任务发布、任务监控、任务保障 流程图 startuml skinparam packageStyle rectangleactor 需求方 participant 数据BP as 数据组 participant 离线数仓 participant 实时数仓需求方 -> 数据组: 提出需求 数据组 -> …...

老黄一举揭秘三代GPU!打破摩尔定律,打造AI帝国,量产Blackwell解决ChatGPT全球耗电难题

近日,老黄手持Blackwell向全世界展示的那一刻,全场观众沸腾了。 这是迄今为止世界上最大的芯片! 用老黄的话来说,它是「全世界迄今为止制造出来的最复杂、性能最高的计算机。」GPT-4o深夜发布!Plus免费可用&#xff01…...

HTML静态网页成品作业(HTML+CSS)—— 家乡南宁介绍网页(2个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,未使用Javacsript代码,共有2个页面。 二、作品演示 三、代…...

把qml程序制作成安装包(Windows)

先检查一下有没有安装Qt Installer FrameWork 需要用到Qt自带的打包工具: Qt Installer FrameWork,虽然有点拉胯,但是也能用用。一般放在Qt目录下的Tools文件夹下,如果没有看到,就去在线下载器去下载一下。 步骤1 随…...

内网中redis无法连接访问问题

这个错误信息说明 Redis 正在以受保护模式运行,这意味着它仅从本地回环接口(localhost 或 127.0.0.1)接受连接。如果你希望从外部计算机连接到 Redis,你需要采取一些措施来允许外部连接。 这里有一些解决方案: 禁用受…...

Unix环境高级编程第二版:深入探索与实战解析

Unix环境高级编程第二版:深入探索与实战解析 在信息化时代,Unix环境高级编程无疑是程序员们攀登技术高峰的必经之路。本文将针对《Unix环境高级编程第二版》一书,从四个方面、五个方面、六个方面和七个方面进行深入探讨,带您领略…...

SSL/TLS和HTTPS

HTTPS就是用了TLS包装的Socket进行通信的HTTP 混合加密 被称为混合加密。具体过程如下: 使用非对称加密协商对称密钥: 在通信的开始阶段,通常由客户端和服务器使用非对称加密算法(如RSA)来协商一个对称密钥。通常情…...

苹果将推出“Apple Intelligence”AI系统,专注于隐私和广泛应用|TodayAI

据彭博社报道,苹果公司将在下周的 WWDC 2024 开发者大会上揭晓其全新的 AI 系统——“Apple Intelligence”,该系统将适用于 iPhone、iPad 和 Mac 设备。这一新系统将结合苹果自身技术和 OpenAI 的工具,为用户提供一系列新的 AI 功能&#xf…...

配置Kubernetes资源管理Secret与ConfigMap

前言 Kubernetes 中的 Secret(提供加密模式)和 ConfigMap(提供配置)是关键的资源,用于安全地存储和管理敏感信息和配置数据。它们在应用程序开发和部署过程中扮演着重要的角色。本文将介绍如何有效地配置和管理这些资…...

韩顺平0基础学java——第19天

p396-406 final关键字 1.final修饰的为“常量”,需要给初始值。1可以直接定义时赋值,2在构造器中,3在代码块中。 注意静态代码块只能访问静态变量。 2.如果final修饰的关键字是静态的,那就不能在构造器中赋值,只能…...

嵌入式学习——Linux高级编程复习(目录IO、软硬连接、makefile)——day38

1. 目录IO 目录IO是指在计算机程序中对文件目录进行操作的一系列输入输出功能。这些操作允许程序创建、读取、修改和删除目录结构。在Unix/Linux系统和类似系统中,目录被视为特殊的文件,可以对其进行打开、读取、写入(修改)和关闭…...

makefile与进度条

Linux项目自动化构建工具-make/makefile make是一个命令, makefile是一个文件,保存依赖关系和依赖方法。‘ touch Makefile/makefile mybin:mytest.c//依赖关系 目标文件:依赖文件列表 文件列表的文件之间以空格分隔 gcc -o mybin mytest.…...

操作系统总结

进程和线程的区别 本质区别: 进程是资源调度以及分配的基本单位。线程是 CPU 调度的基本单位。 所属关系:一个线程属于一个进程,一个进程可以拥有多个线程。地址空间: 进程有独立的虚拟地址空间。线程没有独立的虚拟地址空间&…...

SpringCloud整合OpenFeign实现微服务间的通信

1. 前言 1.1 为什么要使用OpenFeign? 虽说RestTemplate 对HTTP封装后, 已经⽐直接使⽤HTTPClient简单⽅便很多, 但是还存在⼀些问题. 需要拼接URL, 灵活性⾼, 但是封装臃肿, URL复杂时, 容易出错. 代码可读性差, ⻛格不统⼀。 1.2 介绍一下微服务之间的通信方式 微…...

老师必备!一文教你如何高效收集志愿填报信息

高考志愿填报季,对于每一位老师来说,无疑是一场信息收集与管理的硬仗。如何在众多的志愿信息中,高效、准确地掌握每位学生的志愿意向? 高考志愿填报的重要性。不仅是学生人生的一个重要转折点,也是老师教育生涯中的一次…...

创建 MFC DLL-使用DEF文件

本文仅供学习交流,严禁用于商业用途,如本文涉及侵权请及时联系本人将于及时删除 利用“MFC动态链接库”项目模板可以创建MFC DLL。DLL文件与可执行文件非常相似,不同点在于DLL包含有导出表(Export Table)。导出表包含DLL中每个导出函数的名字…...

如何将HTTP升级成HTTPS?既简单又免费的方法!

在当今数字化时代,网络安全已成为用户和企业关注的焦点。HTTPS作为一种更加安全的网络通信协议,正逐渐取代传统的HTTP成为新的标准。对于许多网站管理员和内容创作者来说,如何免费升级到HTTPS是一个值得探讨的问题。本文将详细介绍一些免费的…...

数据仓库之核心模型与扩展模型分离

在数据仓库的设计和实施过程中,核心模型与扩展模型分离是一种常见的策略,旨在提高数据仓库的灵活性、可维护性和扩展性。这种分离策略的主要优势和实施方法如下: 核心模型(Core Model) 核心模型是数据仓库中稳定、共…...

大龄职场人的春招机遇:技术岗位主导,高薪与挑战并存

随着6月毕业季的临近,大批年轻人即将涌入人才市场,为职场注入新鲜血液。然而,这也意味着一些职场人可能面临被“优化”的风险。近几年,职场环境呈现出明显的年轻化趋势,企业更倾向于招聘具有创新活力的青年人才&#x…...

家宽动态公网IP,使用docker+ddns 实现动态域名解析

官方地址:https://github.com/jeessy2/ddns-go 安装docker docker pull jeessy/ddns-godocker run -d --name ddns-go --restartalways --nethost -v /opt/ddns-go:/root jeessy/ddns-go然后访问ip端口 配置时注意如下...

【力扣刷题 动态规划】LeetCode 139 单词拆分、LeetCode 300 最长递增子序列 ✌

文章目录 1. 单词拆分2. 最长递增子序列 1. 单词拆分 题目链接 &#x1f34e; 解题思路&#xff1a; class Solution {bool dp[310] {false};public:bool wordBreak(string s, vector<string>& wordDict) {unordered_set<string> myset;for(auto& str :…...

【位运算】【前缀和】个人练习-Leetcode-1177. Can Make Palindrome from Substring

题目链接&#xff1a;https://leetcode.cn/problems/can-make-palindrome-from-substring/description/ 题目大意&#xff1a;给出一个字符串s&#xff0c;每次query给出l, r, k&#xff0c;要求判断子串s[l:r1]在经过k次操作后是否能变为回文串。一次操作可以将子串内的一个字…...

最小相位系统

最小相位系统 1、传递函数 一个线性系统的响应。 比如一个RC低通滤波器&#xff1a; 交流分量在电容的充放电中被滤除掉&#xff0c;通过设置电容器的电容值&#xff0c;以及电阻值&#xff0c;能够控制这种滤除能力&#xff0c;这个参数为RC。 电容的电抗为 1 / j w C 1/j…...

css系列:进度条

前言 技术来源于需求&#xff0c;近期遇到了做语音的需求&#xff0c;有个调整语速和音量的进度条&#xff0c;UI组件库的进度条大部分不支持拖动和点击修改当前进度&#xff0c;所以自己手写了一个。 实现思路 MDN文档介绍 <input type"range"> - HTML&am…...

QT中为程序加入超级管理员权限

QT中为程序加入超级管理员权限 Chapter1 QT中为程序加入超级管理员权限1. mingw编译器2. MSVC编译器3. CMAKE Chapter2 如何给QT程序添加管理员权限(UAC)的几种方法1、Qt Creator中方案一&#xff1a;&#xff08;仅适用于使用msvc编译器&#xff09;方案二&#xff1a;&#x…...

共识算法之争(PBFT,Raft,PoW,PoS,DPoS)

文章目录 共识算法拜占庭容错技术&#xff08;Byzantine Fault Tolerance&#xff0c;BFT&#xff09;PBFT&#xff1a;Practical Byzantine Fault Tolerance&#xff0c;实用拜占庭容错算法Raft协议POW(Proof of Work)工作量证明机制POSDPoS&#xff08;Delegated Proof of St…...

抽象的java入门1.3.0

前言&#xff1a; 在1.2.0版本中我们介绍了public class hello {}并从中提取出两个新概 修饰符和作用域 public class hello {public static void main(String[] args) {System.out.println("Hello World");} } 正片&#xff1a; 这一期把剩余的内容刨析出来 pub…...

【Oracle生产运维】表空间可用性告警排查处理

1 前言 在生产环境中&#xff0c;一般设置表空间告警阈值是90%&#xff0c;在接到监控报警后&#xff0c;并不是需要立刻对表空间进行扩容。 决定是否扩容主要看表空间最近的增量是多少&#xff0c;假如剩余10%的空间还能支持1个月的增量&#xff0c;那就不需要急着扩容。如果…...

mac Network: use --host to expose

本地启动无法访问&#xff0c;这个不是权限问题是mac 主机端口安全策略&#xff0c;现在我们只需要开启端口自动检测就可以 npm run dev --host 网络&#xff1a;未暴露 方案一 1、执行 npm run dev -- --host 方案二 1、请在 vite.config.js server: {host: true } 1…...

ChatGPT-4o体验demo

OpenAI 最近推出了其最新的人工智能语言模型——GPT-4O。该模型是在原有 GPT-4 的基础上进行优化而成&#xff0c;旨在提升生成质量和响应速度。GPT-4O 采用了更加高效的架构设计&#xff0c;使其在处理复杂文本时表现出更快的速度和更高的准确性。GPT-4O 在训练过程中融入了最…...

发布网站建设需求的经验/色盲测试图第六版及答案大全

离我上次写的随笔到现在一年了, 日子真的好快. 又一年了. 一看内我收获了什么呢? 好像没有...... 有的只是现在以一年来到底做了什么的遗憾...... 转载于:https://www.cnblogs.com/Jeffrey/archive/2007/05/12/744125.html...

百度推广 网站建设/seo网站关键词优化价格

sql中的取模,取整,字符串连接等操作:c a mod b ;//取模c trunc(a/b);//取整//连接两个字符串,sql中不能用号连接两个字符串c a || b;或c concat(a,b);----------------------------------------------------------关于Oracle取整的函数分别有以下几种:1.取整(大) select ce…...

用自己的名字做网站域名/南昌关键词优化软件

记录今天遇到的一个小问题&#xff1a; AtomicInteger atomicInteger new AtomicInteger();System.out.println(atomicInteger.getAndIncrement()); 大家可以先猜想一下这个输出的是几&#xff0c;我之前一直以为是1&#xff0c;但是今天发现好像并不是。它是0。 public fina…...

上海做网站天锐/百度认证证书

前一段时间遇到的系统故障&#xff0c;以下是操作过程&#xff1a;大晚上收到该服务器内存超高告警&#xff0c;ps aux发现有大量的/usr/sbin/sendmail进程&#xff0c;一开始将其kill掉&#xff1a;ps -ax | grep sendmail | awk {print $1} | wc –l 统计了以下有1230个ps -a…...

传媒网站建设/营销团队找产品合作

转自【翻译】NeHe OpenGL 教程 前言 声明&#xff0c;此 NeHe OpenGL教程系列文章由51博客yarin翻译&#xff08;2010-08-19&#xff09;&#xff0c;本博客为转载并稍加整理与修改。对NeHe的OpenGL管线教程的编写&#xff0c;以及yarn的翻译整理表示感谢。 第三课&#xff1a;…...

网站建设用户调查问卷/杭州seo中心

题型: 编程题 语言: G;GCC Description “丑数”是指除了质因子2,3&#xff0c;5&#xff0c;不含其它质因子的正整数&#xff0c;例如由小到大前10个“丑数”为 1, 2, 3, 4, 5, 6, 8, 9, 10, 12, ... 非“丑数”的前10个数为 7, 11, 13, 14, 17, 19, 21, 22, 23, 26, ... 现…...