当前位置: 首页 > news >正文

探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维

文章目录

  • 一 数据导论
  • 二 大数据的诞生
  • 三 大数据概论
    • 3.1 大数据的5V特征
      • 3.2 大数据的工作核心
  • 四 大数据软件生态
    • 4.1 数据存储软件
    • 4.2 数据计算软件
    • 4.3 数据传输软件
  • 五 Apache Hadoop概述
    • 5.1 Apache Hadoop框架
    • 5.2 Hadoop的功能
    • 5.3 Hadoop的发展
    • 5.4 Hadoop发行版本

一 数据导论

  • 数据:一种可以被鉴别的对客观事件进行记录的符号。简单来说就是:对人类的行为及产生的事件的一种记录。
  • 数据的价值:数据的背后都会隐藏着巨大的价值,丰富的数据支撑可以让我们更好的了解,事和物在现实世界的运行规律

  • 大数据时代:当下时代已经是数据的时代,数据非常重要并且蕴含巨大的价值
  • 大数据技术栈:对超大规模的数据进行处理并挖掘出数据背后的价值的技术体系

二 大数据的诞生

  • 大数据的诞生和信息化以及互联网的发展是密切相关的。
    在这里插入图片描述
  • 早期的计算机(上世纪70年代之前)大多数是相互独立的,各自处理各自的数据
    在这里插入图片描述
  • 上世纪70年代后,逐步出现了基于TCP/IP协议的小规模的计算机互联互通。但多数是军事、科研等用途
    在这里插入图片描述
  • 上世纪90年代左后,全球互联的互联网出现。个人、企业均可参与其中,真正逐步的实现了全球互联
    在这里插入图片描述
  • 在2000年后,互联网上的商业行为剧增。在互联网参与者众多的前提下,商业公司、科研单位等,所能获得的数据量也是剧增。
    在这里插入图片描述
  • 剧增的数据量,和羸弱的单机性能,让许多科技公司开始尝试以数量来解决问题。
    在这里插入图片描述
    在这里插入图片描述
  • 2008年之前,这些在当时较为”高端”的分布式技术基本上还处于大企业内部专用且不够成熟。
    在这里插入图片描述
  • 2008年 Apache Hadoop开源广大企业拥有了成熟的、开源的、分布式数据处理解决方案

Apache Hadoop 是一款开源的分布式处理技术栈为业界提供了

  • 基于Hadoop HDFS的:分布式数据存储技术
  • 基于Hadoop MapReduce的:分布式数据计算技术
  • 基于Hadoop YARN的:分布式资源调度技术
    Apache Hadoop的出现具有非常重大的意义:
  • 为业界提供了”第一款”企业级开源大数据分布式技术解决方案
  • 从Hadoop开始,大数据体系逐步建成,各类大数据技术不断出现
    在这里插入图片描述

三 大数据概论

  • 大数据的出现,本质上是为了解决海量数据的处理难题。
  • 大数据就是:使用分布式技术完成海量数据的处理,得到数据背后蕴含的价值。
    在这里插入图片描述
  • 狭义上:大数据是一类技术栈,是一种用来处理海量数据的软件技术体系。
  • 广义上:大数据是数字化时代、信息化时代的基础(技术)支撑,以数据为生活赋能。

3.1 大数据的5V特征

在这里插入图片描述
在这里插入图片描述

3.2 大数据的工作核心

  • 大数据的核心工作其实就是:从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果
    在这里插入图片描述

四 大数据软件生态

在这里插入图片描述
大数据的核心工作:

  • 存储:妥善保存海量待处理数据
  • 计算:完成海量数据的价值挖掘
  • 传输:协助各个环节的数据传输
  • 所以大数据软件生态也是围绕工作重心展开的

4.1 数据存储软件

  • Apache Hadoop - HDFS
    在这里插入图片描述
    Apache Hadoop框架内的组件HDFS是大数据体系中使用最为广泛的分布式存储技术

  • Apache HBase
    在这里插入图片描述
    Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术HBase是基于HDFS之上构建的。

  • Apache KUDU
    在这里插入图片描述
    Apache Kudu同样为大数据体系中使用较多的分布式存储引擎

  • 云平台存储组件
    各大云平台厂商也有相应的大数据存储组件,如阿里云的OSS、UCloud的US3、AWS的S3、金山云的KS3等等

4.2 数据计算软件

  • Apache Hadoop - MapReduce
    在这里插入图片描述
    • Apache Hadoop的MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献

  • Apache Hive
    在这里插入图片描述
    • Apache Hive是一款以SQL为要开发语言的分布式计算框架。其底层使用了Hadoop的MapReduce技术
    • Apache Hive至今仍活跃在大数据一线,被许多公司使用

  • Apache Spark
    在这里插入图片描述
    • Apache Spark是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品

  • Apache Flink
    在这里插入图片描述
    • Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算(流计算)领域,Flink占据了大多数的国内市场。

4.3 数据传输软件

  • Apache Kafka
    在这里插入图片描述
    • Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。
    • Apache Kafka在大数据领域也是明星产品

  • Apache Pulsar
    在这里插入图片描述
    • Apache Pulsar同样是一款分布式的消息系统。在大数据领域同样有非常多的使用者。

  • Apache Flume
    在这里插入图片描述
    • Apache Flume是一款流式数据采集工具,可以从非常多的数据源中完成数据采集传输的任务。

  • Apache Sqoop
    在这里插入图片描述
    • Apache Sqoop是一款ETL工具,可以协助大数据体系和关系型数据库之间进行数据传输

五 Apache Hadoop概述

在这里插入图片描述

5.1 Apache Hadoop框架

  • Hadoop是Apache软件基金会下的顶级开源项目,用以提供:分布式数据存储、分布式数据计算、分布式资源调度为一体的整体解决方案。
  • Apache Hadoop是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。

5.2 Hadoop的功能

  • 通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:
    在这里插入图片描述
  • Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架

5.3 Hadoop的发展

  • Hadoop创始人:Doug Cutting
    在这里插入图片描述
  • Hadoop起源于Apache Lucene子项目:Nutch
    • Nutch的设计目标是构建一个大型的全网搜索引擎。
    • 遇到瓶颈:如何解决数十亿网页的存储和索引问题
  • Google三篇论文
    • 《The Google file system》:谷歌分布式文件系统GFS
    • 《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式计算框架MapReduce
    • 《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统

在这里插入图片描述

5.4 Hadoop发行版本

在这里插入图片描述

  • Apache开源社区版本
  • 商业发行版本
    • CDH(Cloudera’s Distribution, including Apache Hadoop) Cloudera公司出品,目前使用最多的商业版
    • HDP(Hortonworks Data Platform),Hortonworks公司出品,目前被Cloudera收购
    • 星环,国产商业版,星环公司出品,在国内政企使用较多

相关文章:

探秘分布式大数据:融合专业洞见,燃起趣味火花,启迪玄幻思维

文章目录 一 数据导论二 大数据的诞生三 大数据概论3.1 大数据的5V特征3.2 大数据的工作核心 四 大数据软件生态4.1 数据存储软件4.2 数据计算软件4.3 数据传输软件 五 Apache Hadoop概述5.1 Apache Hadoop框架5.2 Hadoop的功能5.3 Hadoop的发展5.4 Hadoop发行版本 一 数据导论…...

什么是 SPI,和API有什么区别?

面试回答 Java 中区分 API 和 SPI,通俗的讲:API 和 SPI 都是相对的概念,他们的差别只在语义上,API 直接被应用开发人员使用,SPI 被框架扩展人员使用。 API Application Programming Interface 大多数情况下&#xff…...

python3 安装clickhouse_sqlalchemy(greenlet) 失败

环境信息: centos7操作系统,python3.8 执行pip3 install clickhouse_sqlalchemy或者pip3 install greenlet报以下报错: Command "/opt/python3.6.10-customized/bin/python3.6 -u -c "import setuptools, tokenize;file/tmp/pip-in…...

五款拿来就能用的炫酷表白代码

「作者主页」:士别三日wyx 「作者简介」:CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」:小白零基础《Python入门到精通》 五款炫酷表白代码 1、无限弹窗表白2、做我女朋友好吗,不同意就关机3、…...

Springboot 封装整活 Mybatis 动态查询条件SQL自动组装拼接

前言 ps:最近在参与3100保卫战,战况很激烈,刚刚打完仗,来更新一下之前写了一半的博客。 该篇针对日常写查询的时候,那些动态条件sql 做个简单的封装,自动生成(抛砖引玉,搞个小玩具&a…...

宝塔部署Java+Vue前后端分离项目经验总结

前言 之前部署服务器都是在Linux环境下自己一点一点安装软件,听说用宝塔傻瓜式部署更快,这次浅浅尝试了一把。 确实简单! 1、 买服务器 咋买服务器略,记得服务器装系统就装 Cent OS 7系列即可,我装的7.6。 2、创建…...

【公告】停止更新

CSDN 博客的限制太多了。阅读体验也非常差。后续将不再 CSDN 上更新。 逐步迁移到掘金和个人博客。 欢迎关注 掘金:0xforee 个人博客:0xforee’s blog...

AutoHotKey+VSCode开发扩展推荐

原来一直用的大众推荐的SciTeAHK版,最近发现VSCode更舒服一些,有几个必装的扩展推荐一下: AutoHotkey Plus 请注意不是AutoHotkey Plus Plus。如果在扩展商店里搜索会有两个,一个是Plus,一个是Plus Plus。我选择Pllus&…...

了解 JSON 格式

一、JSON 基础 JSON(JavaScript Object Notation,JavaScript 对象表示法)是一种轻量级的数据交换格式,JSON 的设计目的是使得数据的存储和交换变得简单。 JSON 易于人的阅读和书写,同时也易于机器的解析和生成。尽管 J…...

[RDMA] 高性能异步的消息传递和RPC :Accelio

1. Introduce Accelio是一个高性能异步的可靠消息传递和RPC库,能优化硬件加速。 RDMA和TCP / IP传输被实现,并且其他的传输也能被实现,如共享存储器可以利用这个高效和方便的API的优点。Accelio 是 Mellanox 公司的RDMA中间件,用…...

typescript报错:‘name‘ was also declared here

问题再现 用 Typescript 时, 遇到一个声明常量 name 的报错。代码如下: let name:string"zhangsan"; let num:number1001;执行编译时报错: 原因 在默认状态下,typescript 将 DOM typings 作为全局的运行环境&#…...

第十章:联邦学习视觉案例

代码 传送门...

c语言——输出一个整数的所有因数

//输出一个整数的所有因数 #include<stdio.h> #include<stdlib.h> int main() {int number,i;printf("输入整数&#xff1a;");scanf("%d",&number);printf(" %d 的因数有&#xff1a; ",number);for(i1;i<number;i){if(numb…...

mqtt学习记录

目录 1 匿名登录2 ⽤户名密码登录&#xff0c;配置接收的主题mosquitto 配置文件修改添加⽤户信息添加topic和⽤户的关系登录演示 3 遗嘱机制 1 匿名登录 ⾸先打开三个终端&#xff0c; 启动代理服务&#xff1a;mosquitto -v -v 详细模式 打印调试信息 默认占⽤&#xff1a;…...

爬虫逆向实战(十八)--某得科技登录

一、数据接口分析 主页地址&#xff1a;某得科技 1、抓包 通过抓包可以发现数据接口是AjaxLogin 2、判断是否有加密参数 请求参数是否加密&#xff1f; 查看“载荷”模块可以发现有一个password加密参数和一个__RequestVerificationToken 请求头是否加密&#xff1f; 无…...

Java-数组

什么是数组 数组&#xff1a;可以看成是相同类型元素的一个集合。在内存中是一段连续的空间。 在java中&#xff0c; 数组中存放的元素其类型相同数组的空间是连在一起的每个空间有自己的编号&#xff0c;起始位置的编号为0&#xff0c;即数组的下标。 数组的创建及初始化 数…...

Dart 入门Hello world

1、下载Dart sdk IntelliJ & Android Studio | Dart 2、安装Dart 插件 3、安装后重启IDEA&#xff0c;创建Dart项目 4、创建dart文件 5、编写函数&#xff1a; void main() {print("Hello world"); } 6、运行&#xff1a; 官网学习&#xff1a;Dart 语言开发文…...

HTML是什么?

HTML是什么&#xff1f; 超文本标记语言&#xff08;英语&#xff1a;HyperText Markup Language&#xff0c;简称&#xff1a;HTML&#xff09;是一种用于创建网页的标准标记语言。 您可以使用 HTML 来建立自己的 WEB 站点&#xff0c;HTML 运行在浏览器上&#xff0c;由浏览器…...

【UniApp开发小程序】商品详情展示+评论、评论展示、评论点赞+商品收藏【后端基于若依管理系统开发】

文章目录 界面效果界面实现工具js页面日期格式化 后端收藏ControllerServicemapper 评论ControllerServiceMapper 商品Controller 阅读Service 界面效果 【说明】 界面中商品的图片来源于闲鱼&#xff0c;若侵权请联系删除 【商品详情】 【评论】 界面实现 工具js 该工…...

rabbitMq安装后无法启动可视化页面http://localhost:15672处理

本次安装环境信息&#xff1a; 系统&#xff1a;win10 64位专业版 erlang&#xff1a;otp_win64_23.0 rabbitMQ&#xff1a;rabbitmq-server-3.8.5 安装rabbitMQ需要依赖erlang语言环境&#xff0c;所以需要我们下载erlang的环境安装程序。 一、下载安装程序 rabbitMQ安装…...

材料行业可以转IC设计后端吗?

近来有许多材料行业的小伙伴通过后台来问我对于职业规划的看法&#xff0c;甚至有些小伙伴直接点明了某个行业适不适合自己&#xff0c;那么我这边仅以近年来比较热门的数字芯片设计来展开讲讲&#xff0c;材料适不适合转行做IC呢。 对于理工科的同学而言&#xff0c;选择哪个…...

vue3 基础知识

vue3创建一个项目 PS D:\code> npm init vuelatestVue.js - The Progressive JavaScript Framework√ Add TypeScript? ... No / Yes √ Add JSX Support? ... No / Yes √ Add Vue Router for Single Page Application development? ... No / Yes √ Add Pinia for sta…...

【线性代数-3Blue1Brown】- 2 线性组合、张成的空间与基

飞书原文链接&#xff1a;Docs...

Kafka—工作流程、如何保证消息可靠性

什么是kafka&#xff1f; 分布式事件流平台。希望不仅仅是存储数据&#xff0c;还能够数据存储、数据分析、数据集成等功能。消息队列&#xff08;把数据从一方发给另一方&#xff09;&#xff0c;消息生产好了但是消费方不一定准备好了&#xff08;读写不一致&#xff09;&am…...

用户参与策略:商城小程序的搭建与营销

在现今数字化时代&#xff0c;商城小程序已成为企业私域营销的利器。然而&#xff0c;要使商城小程序在竞争激烈的市场中脱颖而出&#xff0c;不仅需要出色的产品&#xff0c;还需要一个引人入胜的用户参与策略。本文将深入探讨如何在商城小程序中构建和落实有效的用户参与策略…...

可自定义实时监控系统HertzBeat

什么是 HertzBeat &#xff1f; HertzBeat是一个拥有强大自定义监控能力&#xff0c;无需 Agent 的开源实时监控告警系统。集 监控告警通知 为一体&#xff0c;支持对应用服务&#xff0c;数据库&#xff0c;操作系统&#xff0c;中间件&#xff0c;云原生&#xff0c;网络等监…...

无涯教程-Perl - sysread函数

描述 该函数等效于C /操作系统函数read(),因为它绕过了诸如print,read和seek之类的函数所采用的缓冲系统,它仅应与相应的syswrite和sysseek函数一起使用。 它从FILEHANDLE中读取LENGTH个字节,并将输出放入SCALAR中。如果指定了OFFSET,则将数据从OFFSET字节写入SCALAR,从而有效…...

Redis数据结构之String

String 类型是 Redis 的最基本的数据类型&#xff0c;一个 key 对应一个 value&#xff0c;可以理解成与Memcached一模一样的类型。 String 类型是二进制安全的&#xff0c;意思是 Redis 的 String 可以包含任何数据&#xff0c;比如图片或者序列化的对象&#xff0c;一个 Redi…...

React源码解析18(8)------ 实现单节点的Diff算法

摘要 经过之前的几篇文章&#xff0c;我们已经实现了一个可以进行更新渲染的假React。但是如果我们把我们的jsx修改成这样&#xff1a; function App() {const [age, setAge] useState(20)const click function() {setAge(age 1)}return age % 2 0 ? jsx("div"…...

并查集路径压缩(Java 实例代码)

目录 并查集路径压缩 Java 实例代码 UnionFind3.java 文件代码&#xff1a; 并查集路径压缩 并查集里的 find 函数里可以进行路径压缩&#xff0c;是为了更快速的查找一个点的根节点。对于一个集合树来说&#xff0c;它的根节点下面可以依附着许多的节点&#xff0c;因此&am…...

东城企业网站开发/郑州百度公司地址

本文实例讲述了PHP标准类(stdclass)用法。分享给大家供大家参考&#xff0c;具体如下&#xff1a;php是内置标准类的(stdclass)$obj new stdclass();echo ;var_dump($obj);$obj->a 1;$obj->b 1;var_dump($obj);运行结果如下&#xff1a;object(stdClass)[1]object(std…...

网站开发 文件上传慢/推广网站的文案

本系列重点是涉及 配置过程 &#xff0c;对注释的用法不多介绍。 注释语法越来越多的被业界所使用,并且注释配置相对于 XML 配置具有很多的优势&#xff1a;它可以充分利用 Java 的反射机制获取类结构信息&#xff0c;这些信息可以有效减少配置的工作。注释和 Java 代码位于一个…...

上广东建设厅网站/北京网上推广

HTTP 头部解释 以下内容摘抄于&#xff1a;https://www.cnblogs.com/jiangxiaobo/p/5499488.html 1. Accept&#xff1a;告诉WEB服务器自己接受什么介质类型&#xff0c;*/* 表示任何类型&#xff0c;type/* 表示该类型下的所有子类型&#xff0c;type/sub-type。 2. Accept-…...

网站开发项目源码/营销平台建设

参考链接&#xff1a; http://www.desktx.com/news/diannaojiqiao/4369.html 1、新建一个文本文档&#xff0c;将下面的代码复制进去&#xff1a; [Version] Signature"$Chicago$" [DefaultInstall] DelRegDeleteMe [DeleteMe] HKCU,"Software\Microsoft\Wind…...

做学校的网站推广发展前景/搜索引擎公司排名

转载自&#xff1a;https://gist.github.com/andrewjong/6b02ff237533b3b2c554701fb53d5c4d&#xff0c;本文只做个人记录学习使用&#xff0c;版权归原作者所有。 import torch from torchvision import datasetsclass ImageFolderWithPaths(datasets.ImageFolder):"&qu…...

高校网站建设/搭建一个网站

本节我们紧接上节内容,来实现我们对全局变量组的增删改查。 说起增删改查,其实就是curd,业务开发们每天的日常.... 也是测开最不想做的功能之一。 不过为了广大粉丝朋友,再苦再难,都要啃下去~ 谁让我的公众是很硬核的干货呢? 谁让搜索测试开发,结果是这样呢? -----…...