当前位置: 首页 > news >正文

【大数据】大数据学习路线

职位选择

首先明确一点:大数据涉及的知识面广度还是有的,需要学习的组件繁多,想要每一项精通几乎不可能,所以企业在招聘的时候会进行细分,基于某个方向进行招聘,比如关键字,数据仓库工程师、数据治理工程师、大数据开发工程师、大数据算法工程师、ETL工程师等。我们在学习的时候也要有所侧重,保证自己兴趣所致并重点关注。
方向1:ETL工程师
ETL:数据抽取、转换、加载
ETL工作属于业务与数据的交点、需要处理上下游的关系,首先,需要对业务层面非常熟悉,其次,需要对接数据开发工程师、数据科学家,整理并准备数据、进行数据清洗、整理、融合。

方向2:数据仓库工程师
数仓会细化离线数仓和实时数仓、目前离线数仓方向发展的已经很成熟了,实时数仓是未来趋势和方向。

方向3:数据治理工程师(国企岗位居多)
数据治理的工作内容主要是对数据进行分类处理、指标整理、熟悉业务流程。

方向4:大数据开发工程师
大数据开发需要有良好的Java后端开发能力以及不错的源码阅读能力

大数据学习路线

系统的学习大数据相关的课程,可按照如下顺序学习
需要先掌握 Java SE 阶段,Linux 基础命令,MySQL数据库
如果上述基础技能没有掌握,可网上搜索相关课程进行学习(这类基础课程网上免费的特别多)
Java可以先学习 Java SE
会在虚拟机中安装Linux发行版本(建议安装 CentOS),学完Linux基础即可。
MySQL需要学习 sql 语法,范式,事务等。(Sql能力是必备的,没有上限)
如果以上技能你都掌握的话,接下来就进入大数据框架
可按照如下顺序进行学习(涵盖ETL、数仓、开发等岗位)
Hadoop -> Zookeeper -> Hive -> Flume && Sqoop && DataX-> Azkaban && DolphinScheduler -> 数仓建模理论+实践 ->离线数仓项目 ->Kafka -> Hbase -> Spark -> Doris-> Flink -> 实时数仓项目 ->数据治理相关知识 ->数据湖(Hudi,Iceberg)

注1.橙色为优先学习组件
** 2.大家一定要重视自己的后端开发能力,要至少做到不比后端同学差,不要让这方面的能力成为制约你职业发展的束缚。**

学习视频推荐

编程语言

关于编程语言这部分,大部分同学都是Java附带Scala技能加点,当然如果你学了一点Python的东西也是一个加分项。那么关于Java语言你可以参考下面这个视频,尤其是如果你的语言基础极差,都没有用过Java语言。

《Java基础到高级-宋红康》
https://www.bilibili.com/video/BV1Qb411g7cz

数据结构

《数据结构-浙江大学》
https://www.bilibili.com/video/BV1JW411i731

Linux基础

Linux基础这块对于数据开发非常重要,因为大家平时接触过的数据框架的搭建过程涉及大量的Linux命令操作,并且在系统级别的调优还会接触atime、ulimit这种比较高级的命令。

《史上最牛的Linux视频教程—兄弟连》
https://www.bilibili.com/video/av18156598

数据库入门

基于MySQL了解常见的SQL语法,大数据领域SQL化是未来的发展方向。

MySQL数据库教程天花板
https://www.bilibili.com/video/BV1Kb411W75N

Hadoop

尚硅谷大数据Hadoop教程(Hadoop 3.x安装搭建到集群调优)
https://www.bilibili.com/video/BV1Qp4y1n7EN/

Hive

尚硅谷大数据Hive 3.x教程
https://www.bilibili.com/video/BV1g84y147sX/?

Kafka

尚硅谷Kakfa3.X教程
https://www.bilibili.com/video/BV1vr4y1677k/

Spark

尚硅谷大数据Spark教程从入门到精通
https://www.bilibili.com/video/BV11A411L7CK

Flink

【尚硅谷】Flink1.13实战教程(Java)
https://www.bilibili.com/video/BV133411s7Sa/
【尚硅谷】Flink1.13实战教程(Scala)
https://www.bilibili.com/video/BV1zr4y157XV/

Hudi

Hudi数据湖
https://www.bilibili.com/video/BV1ue4y1i7n

Doris

【尚硅谷】大数据Apache Doris教程
https://www.bilibili.com/video/BV15S4y1h7Kt

Sqoop

尚硅谷Sqoop教程(sqoop大数据开发标配)
https://www.bilibili.com/video/BV1jb411A7tc/

Flume

【尚硅谷】大数据技术之Flume教程从入门到实战

https://www.bilibili.com/video/BV1wf4y1G7EQ

DataX

【尚硅谷】Alibaba开源数据同步工具DataX技术教程

https://www.bilibili.com/video/BV1H44y1x76X

Atlas

【尚硅谷】大数据技术之Atlas数据治理
https://www.bilibili.com/video/BV1jA411F76d/

项目学习

离线数仓

尚硅谷大数据项目【电商数仓5.0】

https://www.bilibili.com/video/BV1AT411j7hu

实时数仓

尚硅谷大数据之Flink实时数仓3.0
https://www.bilibili.com/video/BV1TG411a7nL

数据中台

大数据九章云台项目
https://www.bilibili.com/video/BV1vR4y1z79G

注:电商数仓项目早已烂大街,尽量不要把这两个项目写到自己的简历上。

相关文章:

【大数据】大数据学习路线

职位选择 首先明确一点:大数据涉及的知识面广度还是有的,需要学习的组件繁多,想要每一项精通几乎不可能,所以企业在招聘的时候会进行细分,基于某个方向进行招聘,比如关键字,数据仓库工程师、数…...

【Python爬虫案例教学】采集某网站壁纸,实现壁纸自由

前言 (。・∀・)ノ゙嗨 大家好,这里是小圆 现在开始每天都给大家 分享些关于python爬虫的案例教学 从最简单的开始 — 采集图片壁纸 今天就来扒拉这个优质的壁纸网站~ 网址 👇 顺便瞧一眼 这里的…...

波卡2022年第四季度报告

本文将介绍Messari最新发布的波卡Polkadot 2022年第四季度报告内容。 1 Messari已经发布关于波卡Polkadot最新的报告:显示了2022年第四季度的日活账户增加了64%,新用户增长49%。 2 Messari指出,波卡中继链在2022第四季度的环比增长令人印象…...

第一章:初始化react项目+antd+less

初始化react项目 我们首先使用react脚手架创建一个项目 Ant Design less creact-react-app中文文档 creact-react-app demo生产环境打包运行 当我们执行了 npm run build 打包后直接访问index.html 看效果白屏 这时候就需要安装一个serve包 npm install -g serve当我们安…...

图的基本概念

1、图的概念 G(V,E) 图G由节点集合VV(G)和边集合EE(G)组成,其中V为非空有限集合。 集合V中的节点(node)用红色标出,通过集合E中黑色的边(edge)连接。 G的边:E中的每个顶点对&#x…...

MySQL必会四大函数-窗口函数

在了解窗口函数之前,我们必须了解聚合函数。常见的聚合函数,包括 AVG、COUNT、MAX、MIN、SUM 以及 GROUP_CONCAT,常和GROUP BY 函数一起使用。聚合函数的作用就是对一组数据行进行汇总计算,并且返回单个分析结果。 窗口函数和聚合…...

各CCF期刊点评网站/学术论坛的信息汇总及个人评价

CCF中文期刊投稿选择之篇章一:各CCF期刊点评网站/学术论坛的信息汇总及个人评价中文科技期刊A类(EI检索)中文期刊投稿点评网站整理1.小木虫学术论坛2. Letpub3. Justscience4. 发表记5. 会伴(Conference Partner)6. ijouranl7. 掌桥科研这是以…...

深度解析 JavaScript 严格模式:利弊长远的考量

前言 ECMAScript 5首次引入严格模式的概念。严格模式用于选择以更严格的条件检查JavaScript代码错误,可以应用到全局,也可以应用到函数内部。 严格模式的好处是可以提早发现错误,因此可以捕获某些 ECMAScript 问题导致的编程错误。 理解严格…...

Vue.js 循环语句

Vue.js 循环语句 在Vue开发中,for循环是我们最常遇见的场景之一,我们知道常见的遍历方式有for循环,for of、forEach、for in.虽然在开发过程中,这几种方式基本上可以满足我们大多数的场景,但是你真的知道他们之间的区…...

家政服务小程序实战教程12-详情页

我们的家政服务小程序已经完成了首页和分类展示页面的开发,接下来就需要开发详情页了。在详情页里我们展示我们的各项服务内容,让用户可以了解每项家政服务可以提供的内容。 低码开发不像传统开发,如果开发详情页需要考虑每个字段的类型&…...

十四、平衡二叉树

1、看一个案例(说明二叉排序树可能的问题) 给你一个数列{1,2,3,4,5,6},要求创建一棵二叉排序树(BST),并分析问题所在。 上面二叉排序树存在问题分析: 左子树全部为空,从形式上看&…...

AC/DC 基础

一、概念: AC转换成DC的基本方法有变压器方式和开关方式,如下图1、2所示;整流的基本方法有全波整流和半波整流,如下图3所示。 图1 变压器方式 图2 开关方式 图3 整流方式 二、转换方式 1、变压器方式 变压器方式首先需要通过变压…...

集成电路相关书籍

注:从此开始,文中提到的书籍都会在公众号对应文章末尾给出链接,不需要在微信后台获取,当然还是可以通过在微信后台回复相关书名获取对应的电子书。 在后台看到很多人回复集成电路相关的一些书籍,所以本文就提供一些书籍…...

前端开发之防抖与节流

前端开发中我们经常会通过监听某些事件来完成项目需求 1.通过监听 scroll 事件,检测滚动位置,根据滚动位置显示返回顶部按钮 2.通过监听 resize 事件,对某些自适应页面调整DOM的渲染(通过CSS实现的自适应不再此范围内)…...

大公司如何用A/B测试解决增长问题?

摘要:上线六年,字节跳动的短视频产品——抖音已成为许多人记录美好生活的平台。除了抖音,字节跳动旗下还同时运营着数十款产品,从资讯、游戏,到房产、教育等横跨多个领域。在产品迭代速度和创新能力的快速发展下&#…...

【Airplay_BCT】Bonjour API架构

Bonjour API 架构 OS X 和 iOS 为 Bonjour 服务应用程序提供了多层应用程序编程接口 (API): Foundation 框架中的 NSNetService 和 NSNetServiceBrowser 类; CFNetServices,Core Services 中 CFNetwork 框架的一部分; Java 的 DN…...

为什么sleeping的会话会造成阻塞(2)

背景客户反馈系统突然从11:10开始运行非常缓慢,在SQL专家云中看到大量的产生阻塞的活动会话,KILL掉阻塞的源头马上又出现新的源头,实在没有办法只能重启应用程序断开所有数据库连接才解决,请我们协助分析根本的原因。现象登录SQL专…...

从矩阵中提取对角线元素;将一维数组转换为对角线矩阵:np.diag()函数

【小白从小学Python、C、Java】【计算机等级考试500强双证书】【Python-数据分析】从矩阵中提取对角线元素将一维数组转换为对角线矩阵np.diag()函数选择题下列说法错误的是?import numpy as npmyarray1 np.array([1,2,3])print("【显示】myarray1")print(myarray1…...

JavaSE学习day7_02 封装和构造方法

4. 封装 面向对象的三大特征: 封装、继承、多态 封装:对象代表什么,就得封装对应的数据,并提供数据对应的行为。 比如人画圆:”画“这个行为应该封装在圆这个类,为什么?因为”画“圆要知道圆…...

2022年FIT2CLOUD飞致云开源成绩单

2023年2月15日,中国领先的开源软件公司FIT2CLOUD飞致云发布《2022年开源成绩单》,盘点公司2022年全年在开源软件产品与社区运营方面的表现。目前,飞致云旗下的核心开源软件组合包括JumpServer开源堡垒机、DataEase开源数据可视化分析平台、Me…...

【Python】asyncio使用注意事项

目录协程的定义协程的运行多个协程运行关于loop.close()回调事件循环协程的定义 需要使用 async def 语句 协程可以做哪些事: 1、等待一个future结果 2、等待另一个协程(产生一个结果或引发一个异常) 3、产生一个结果给正在等它的协程 4、引发一个异常给正在等它的协程 …...

成都链安受邀参加第五届CCF中国区块链技术大会

2月10-12日,由中国计算机学会主办的,2023年国内首场大型区块链学术会议—第五届CCF中国区块链技术大会在无锡市成功举办,成都链安作为区块链安全头部企业受邀参加此次大会。大会上,成都链安创始人&CTO郭文生教授与锡东新城商务…...

验证码识别--封装版

前面我们说过了数字英文的验证码识别操作,本章我们对其进行完善一下,结合selenium来实际操作操作。import osimport timedef coding_path(path):Base_Path os.path.abspath(os.path.dirname(os.path.abspath(__file__)) /..)Base_image os.path.join(…...

创建Wails项目

项目生成​ 现在 CLI 已安装,您可以使用 wails init 命令生成一个新项目。 选择您最喜欢的框架: SvelteReactVuePreactLitVanilla 使用 JavaScript 生成一个 Vue 项目: wails init -n myproject -t vue如果您更愿意使用 TypeScript: wails init -…...

深度解析UG二次开发装配的部件事件、部件原型和部件实例

做UG二次开发快一年了,每次遇到装配的问题涉及到部件事件、部件原型和部件实例还是一头雾水,什么是实例,什么是原型这些专业术语等等。 针对这个问题,今天专门写了一篇特辑,结合装配实例深度剖析装配过程中的的所有参数…...

Linux安装elasticsearch-head

elasticsearch-head 是一款专门针对于 elasticsearch 的客户端工具,用来展示数据。 elasticsearch-head 是基于 JavaScript 语言编写的,可以使用 Nodejs 下的包管理器 npm 部署。 1 安装Nodejs nodejs下载地址: https://nodejs.org/en/dow…...

MySQL InnoDB表的碎片量化和整理(data free能否用来衡量碎片?)

网络上有很多MySQL表碎片整理的问题,大多数是通过demo一个表然后参考data free来进行碎片整理,这种方式对myisam引擎或者其他引擎可能有效(本人没有做详细的测试).对Innodb引擎是不是准确的,或者data free是不是可以参…...

Leetcode-每日一题1250. 检查「好数组」(裴蜀定理)

题目链接:https://leetcode.cn/problems/check-if-it-is-a-good-array/description/ 思路 方法:数论 题目意思很简单,让你在数组 nums中选取一些子集,可以不连续,子集中的每个数再乘以任意的数的和是否为1&#xff…...

OpenStack手动分布式部署环境准备【Queens版】

目录 1.基础环境准备(两个节点都需要部署) 1.1关闭防火墙 1.2关闭selinux 1.3修改主机名 1.4安装ntp时间服务器 1.5修改域名解析 1.6添加yum源 2.数据库安装配置 2.1安装数据库 2.2修改数据库 2.3重启数据库 2.4初始化数据库 3.安装RabbitMq…...

Web自动化测试——selenium的使用

⭐️前言⭐️ 本篇文章就进入了自动化测试的章节了,如果作为一名测试开发人员,非常需要掌握自动化测试的能力,因为它不仅能减少人力的消耗,还能提升测试的效率。 🍉欢迎点赞 👍 收藏 ⭐留言评论 &#x1f…...

如何查询网站的备案信息/电商怎么做

宜昌华为交换机S5720-28使用方法,北京乾行捷通有限公司华为交换机S5720-28,公司成立于2019年,是集ICT产品分销、系统集成与服务、基础架构建设为主营业务的综合服务提供商。乾行捷通秉承“由所思,应所需,客户至上”的经…...

杭州网站建设哪家公司好/营销网站类型

在Linux系统下安装docker容器环境 1.容器介绍 1.1 镜像(Image) 镜像可以用来创建Docker 容器,Docker 提供了一个很简单的机制来创建镜像或者更新现有的镜像, 用户甚至可以直接从其他人那里下载一个已经做好的镜像来直接使用。1.…...

重庆网站开发建设/新媒体培训

问题描述 使用Popup控件作为弹出框&#xff0c;使用相对位置弹出即Placement“Relative”&#xff0c;在不同的设备中弹出的位置不一致。比如下面的例子。 使用如下代码&#xff1a; <Window x:Class"WpfApp1.MainWindow"xmlns"http://schemas.microsoft.c…...

重庆忠县网站建设公司哪里有/市场调研方案范文

前面的级数求解的基础终于结束了。开始到了应用的环节。虽然前面所举例的方程都是无法初等地求解&#xff0c;但是总是一个方程一个方程的求级数解也是够麻烦的。能否像初等求解那样化归出一种类型的方程&#xff1f;就像齐次方程、恰当方程那样&#xff1f;接下来可以看到&…...

做电子商务系统网站/网站seo优化有哪些方面

博客已搬家&#xff0c;请访问文章新址&#xff0c;谢谢浏览&#xff5e; http://iflycn.blog.163.com/blog/static/134932753201011223945956/转载于:https://blog.51cto.com/iflycn/35701...

急招钟点工4小时220元/上海优化seo排名

【准备工作】如果本机访问报 530 错误&#xff1a;1、检查用户名、密码&#xff1b;2、检查 ftp 目录的用户权限。如果远程主机无法访问&#xff0c;检查防火墙。关于 ftp 的端口&#xff1a;控制端口为21&#xff1b;数据端口在主动模式(PORT)下为20&#xff0c;被动模式(PASV…...