当前位置: 首页 > news >正文

hadoop生态现状、介绍、部署

一、引出hadoop
1、hadoop的高薪现状
各招聘平台都有许多hadoop高薪职位,可以看看职位所需求的技能
----> hadoop是什么,为什么会这么高薪?引出大数据,大数据时代,大数据与云计算

2、大数据时代的介绍
大数据的故事,google根据海量数据所作出的一次流行病传播趋势预测,及时性和准确性都远超医疗体系根据传统方法所作出的预警,渲染大数据技术将给这个时代带来的巨大变革 ----> 大数据的4V特征  ----> 大数据技术带来的更多成功案例,及基于大数据技术的机器学习带来的无限憧憬

3、hadoop的由来和发展历程 
----> google所面临的困境 ----> 需求催生的技术革新 ----> 论文公布  ---->  dougcutting 山寨(捎带介绍一下道哥及其成就) ----> lucene nutch hadoop等项目的发起人 ----> yahoo ----> apache基金会管理维护
介绍apache基金会旗下的hadoop生态体系中各种开源项目,如hive  hbase  flume  spark  storm  sqoop   oozie  ......

4、hadoop解决了什么问题
实际场景,海量日志如何处理,海量网页数据如何处理
hdfs  解决了海量数据的分布式存储,高可靠,易扩展,高吞吐量
mapreduce   解决了海量数据的分析处理,通用性强,易开发,健壮性

5、hadoop的发展现况
大数据领域的标准开源解决方案,各大主流厂商都围绕hadoop进行周边开发和服务提供,去IOE化
重点以淘宝为例: 集群用途,个数,规模,云梯的架构
中国移动所使用的hadoop集群及其用途,各大厂商在使用hadoop

6、hadoop生态系统
----> 最底层平台 hdfs   yarn  mapreduce  spark
----> 应用层   hbase  hive pig  sparkSQL  nutch 
----> 工具类   zookeeper  flume 

二、hadoop介绍
1、如何学习hadoop
学什么?分轻重缓急,首先是整体技术架构,然后是应用场景,然后是开发规范,有余力可以深入原理--如源码)
怎样学?注意比较跟学习J2EE的差别
难不难?给以信心,强调要多动手,因为hadoop领域技术点多,不像j2ee那么单纯,在动手的过程中会遇到各种各样的问题,这样一能加深理解,二能提高学习和思考分析的能力,三能积累问题解决经验

2、hadoop的设计思想
单机性能纵向扩展的瓶颈,传统分布式存储入NFS所面临的单节点故障,磁盘冗余阵列所带来的成本问题
----> 需要通过集群协作来解决:水平扩展,集群化处理 ,低成本,可扩展,高可靠 
----> 集群协作随之而来的系统复杂度,急需一个通用的平台封装底层复杂度,降低使用开发难度

hdfs设计思想介绍 
    ----主从结构, 主节点namenode,从节点datanode ,简单介绍其角色责任,节点数量
用仓库管理系统的比喻方式来介绍一遍hdfs的设计思想:
    ---->管理员,仓库的角色
    ---->可靠性的考虑
    ---->吞吐量的考虑
    ---->存储和读取的流程

mapreduce设计思想介绍 
    ----主从结构,主节点jobtracker,从节点 tasktracker,整个框架如何将任务并发化,如何实现容错
    ---->用一个海量求和的案例来说明运算的并发化思想:
         a、用一个线程一次性全量求和
         b、将整个求和任务分成两个步骤,第一个步骤局部求和,这样可以并发进行;第二个步骤必须全局处理,用一个线程来执行,但是它的输入
         数据集已经很小,不会成为瓶颈
    ---->并发思想的编程模型实现了,但是并发协作的机制产生了大量公共管理问题,引出mapreduce的资源管理,任务调度,错误重试,并从这里可以引出hadoop2.0的yarn的思想及与hadoop1.0的对比

三、hadoop的部署----(细节在《hadoop2.4.1伪分布式搭建.txt》中)
1、linux系统的安装、配置(这部分都是实际操作演示)
根据以往经验,学员对于虚拟机软件特别是虚拟网络环境很困惑,这里需要详细讲一下虚拟机的思想
可先讲实际环境,要物理机,要交换机,要网络配置
那么,在虚拟环境下,同样需要具备这些要素,缺一不可,只是机器,交换机需要用虚拟的方式产生的而已;然后详细讲一下交换机和网关的概念,引出nat和bridge桥接方式的思想和差别 

准备工作:vmware虚拟机软件,centos6.5的安装,虚拟机软件的vmnet配置,nat方式或者桥接方式
a、网络配置----> 主机名,ip地址,域名映射 

先用ifconfig查看目前的活跃网卡,然后修改网卡的ip地址配置
setup配置ip地址(简易图形界面)或者
vi /etc/sysconfig/networking/devices/ifcfg-eth0 配置文件来修改ip地址

IPADDR=""
NETMASK=""
GATEWAY=""

主机名和域名映射的配置:
vi /etc/sysconfig/network  本机的主机名
vi /etc/hosts  集群中的主机域名映射表

----> 检验配置是否生效
ping hostname观察网络配置是否生效


b、系统配置 
----> sudoers加入普通用户,以便于利用sudo指令、时间配置,启动级别配置,防火墙配置
service iptables stop 关闭防火墙服务
chkconfig iptables off关闭防火墙自启动
service iptables status检查防火墙关闭情况
chkconfig iptables --list 查看防火墙自启动情况

2、JDK的安装(细节在《hadoop2.4.1伪分布式搭建.txt》中)
JDK安装包获取----> 安装包的上传 ----> 安装路径规划,安装包解压 ----> 环境变量的配置

secureCRT 
vsftp

tar  -zxvf
vi  /etc/profile
export JAVA_HOME=/usr/java
export PATH = $PATH:$JAVA_HOME/bin

生效

source /etc/profile

3、安装hadoop(细节在《hadoop2.4.1伪分布式搭建.txt》中)
hadoop版本的选择 hadoop-1.2.1  hadoop-2.2.0   hadoop-2.4.1
----> 下载安装包 http://archive.apache.org/dist 
----> 上传安装包到虚拟机
安装路径规划 ----> 解压 ----> 目录结构简介

伪分布式安装配置文件
vi hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_65

core-site.xml

<property><name>fs.defaultFS</name><value>hdfs://itcast:9000</value>
</property>
<property><name>hadoop.tmp.dir</name><value>/home/hadoop/hadoop-2.4.1/tmp</value>
</property>


hdfs-site.xml

<property><name>dfs.replication</name><value>1</value>
</property>

mapred-site.xml

<property><name>mapreduce.framwork.name</name><value>yarn</value>
</property>

yarn-site.xml

<property><name>yarn.resourcemanager.hostname</name><value>itcast</value>
</property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property>

配置/etc/profile

export HADOOP_HOME = 
export PATH

4、启动hadoop
格式化 hdfs namenode -format
start-all.sh
启动过程中会多次要求输入密码,引出后面会讲的SSH无密登陆配置
jps查看并介绍进程
namenode
secondarynamenode
datanode
nodemanager
resourcemanager

web管理界面的使用和介绍

四、ssh免密码登陆配置
1、ssh介绍,登陆演示(需要增加一台虚拟机)
2、ssh免密码登陆的秘钥机制
3、ssh秘钥配置,权限设置

ssh-keygen.sh -t rsa

~/.ssh 目录介绍

id_ras   id_rsa.pub  known_hosts
ssh-copy-id  desthost 或scp +  cat >> 命令 


4、验证
5、ssh免密码登陆的原理,握手及身份验证流程


五、hadoop的可用性验证
1、hdfs验证
通过网页访问hdfs
hdfs  shell 命令 
hdfs dfsadmin -report查看hdfs集群状态
put  get  mv  rm的演示 

2、yarn验证
跑hadoop自带例子程序

hadoop jar app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /input /output

六、Hadoop学习资源下载

Hadoop-HDFS-Shell-学习资料及文档、Java代码

相关文章:

hadoop生态现状、介绍、部署

一、引出hadoop 1、hadoop的高薪现状 各招聘平台都有许多hadoop高薪职位&#xff0c;可以看看职位所需求的技能 ----> hadoop是什么&#xff0c;为什么会这么高薪&#xff1f;引出大数据&#xff0c;大数据时代&#xff0c;大数据与云计算 2、大数据时代的介绍 大数据的故事…...

二、EFCore 数据库表的创建和迁移

文章目录 一、数据库连接二、数据库表迁移一、数据库连接 在NuGet上安装EntityFramework 代码如下: Microsoft.EntityFrameworkCoreMicrosoft.EntityFrameworkCore.SqlServerMicrosoft.Extensions.Configuration.Json配置数据连接 appsettings.json 增加数据库连接配置 &quo…...

在nodejs中使用typescript

在nodejs中使用typescript 如果我们正在使用nodejs来开发应用&#xff0c;那么对于管理和扩展一个大型代码库来说是一个非常大的挑战。克服这一问题的方法之一是使用typescript&#xff0c;为js添加可选的类型注释和高级功能。在本文中,我们将探讨如何使用在nodejs中使用types…...

数据结构与算法基础(青岛大学-王卓)(8)

哎呀呀&#xff0c;sorry艾瑞波地&#xff0c;这次真的断更一个月了&#xff0c;又发生了很多很多事情&#xff0c;秋风开始瑟瑟了&#xff0c;老父亲身体查出肿瘤了&#xff0c;有病请及时就医&#xff0c;愿每一个人都有一个健康的身体&#xff0c;God bless U and FAMILY. 直…...

【生物信息学】使用谱聚类(Spectral Clustering)算法进行聚类分析

目录 一、实验介绍 二、实验环境 1. 配置虚拟环境 2. 库版本介绍 3. IDE 三、实验内容 0. 导入必要的工具 1. 生成测试数据 2. 绘制初始数据分布图 3. 循环尝试不同的参数组合并计算聚类效果 4. 输出最佳参数组合 5. 绘制最佳聚类结果图 6. 代码整合 一、实验介绍…...

CSS基础语法第二天

目录 一、复合选择器 1.1 后代选择器 1.2 子代选择器 1.3 并集选择器 1.4 交集选择器 1.4.1超链接伪类 二、CSS特性 2.1 继承性 2.2 层叠性 2.3 优先级 基础选择器 复合选择器-叠加 三、Emmet 写法 3.1HTML标签 3.2CSS 四、背景属性 4.1 背景图 4.2 平铺方式 …...

ThreeJS - 封装一个GLB模型展示组件(TypeScript)

一、引言 最近基于Three.JS&#xff0c;使用class封装了一个GLB模型展示&#xff0c;支持TypeScript、支持不同框架使用&#xff0c;具有多种功能。 &#xff08;下图展示一些基础的功能&#xff0c;可以自行扩展&#xff0c;比如光源等&#xff09; 二、主要代码 本模块依赖…...

HashMap面试题

1.hashMap底层实现 hashMap的实现我们是要分jdk 1.7及以下版本&#xff0c;jdk1.8及以上版本 jdk 1.7 实现是用数组链表 jdk1.8 实现是用数组链表红黑树&#xff0c; 链表长度大于8&#xff08;TREEIFY_THRESHOLD&#xff09;时&#xff0c;会把链表转换为红黑树&#xff0c…...

Java编程技巧:swagger2、knif4j集成SpringBoot或者SpringCloud项目

目录 1、springbootswagger2knif4j2、springbootswagger3knif4j3、springcloudswagger2knif4j 1、springbootswagger2knif4j 2、springbootswagger3knif4j 3、springcloudswagger2knif4j 注意点&#xff1a; Api注解&#xff1a;Controller类上的Api注解需要添加tags属性&a…...

第三章:最新版零基础学习 PYTHON 教程(第九节 - Python 运算符—Python 中的除法运算符)

除法运算符允许您将两个数字相除并返回商,即,第一个数字或左侧的数字除以第二个数字或右侧的数字并返回商。 Python 中的除法运算符 除法运算符有两种类型: 浮点数除法整数除法(向下取整除法)整数相除时,结果四舍五入为最接近的整数,并用符号“//”表示。浮点数“/”…...

【python】导出mysql数据,输出excel!

参考https://blog.csdn.net/pengneng123/article/details/131111713 import pymysql import pandas as pd #import openpyxl import xlsxwriterdb pymysql.connect(host"10.41.241.114", port***,user***,password***,charsetutf8mb4 )cursor db.cursor() #创建游…...

【Java 进阶篇】JDBC ResultSet 遍历结果集详解

在Java数据库编程中&#xff0c;经常需要执行SQL查询并处理查询结果。ResultSet&#xff08;结果集&#xff09;是Java JDBC中用于表示查询结果的关键类之一。通过遍历ResultSet&#xff0c;我们可以访问和操作从数据库中检索的数据。本文将详细介绍如何使用JDBC来遍历ResultSe…...

华为数通方向HCIP-DataCom H12-831题库(单选题:161-180)

第161题 某台路由器Router LSA如图所示,下列说法中错误的是? A、本路由器已建立邻接关系 B、本路由器为DR C、本路由支持外部路由引入 D、本路由器的Router ID为10.0.12.1 答案: B 解析: 一类LSA的在transnet网络中link id值为DR的route id ,但Link id的地址不是10.0.12.…...

【VsCode】SSH远程连接Linux服务器开发,搭配cpolar内网穿透实现公网访问

文章目录 前言1、安装OpenSSH2、vscode配置ssh3. 局域网测试连接远程服务器4. 公网远程连接4.1 ubuntu安装cpolar内网穿透4.2 创建隧道映射4.3 测试公网远程连接 5. 配置固定TCP端口地址5.1 保留一个固定TCP端口地址5.2 配置固定TCP端口地址5.3 测试固定公网地址远程 前言 远程…...

java并发编程 守护线程 用户线程 main

经常使用线程&#xff0c;没有对守护线程和用户线程的区别做彻底了解 下面写4个例子来验证一下 源码如下 /* Whether or not the thread is a daemon thread. */ private boolean daemon false;/*** Marks this thread as either a {linkplain #isDaemon daemon} thread*…...

wxWidgets(1):在Ubuntu 环境中搭建wxWidgets 库环境,安装库和CodeBlocks的IDE,可以运行demo界面了,继续学习中

1&#xff0c;选择使用 wxWidgets 框架 选择这个主要是因为完全的开源&#xff0c;不想折腾 Qt的库&#xff0c;而且打包的文件比较大。 网络上面有很多的对比&#xff0c;而且使用QT的人比较多。 但是我觉得wxwidgets 更加偏向 c 语法本身&#xff0c;也有助学习C。 没有太多…...

[VIM]VIM初步学习-3

3-1 编写 vim 配置&#xff0c;我的 vim 我做主_哔哩哔哩_bilibili...

RocketMQ Dashboard说解

RocketMQ Dashboard 是 RocketMQ 的管控利器&#xff0c;为用户提供客户端和应用程序的各种事件、性能的统计信息&#xff0c;支持以可视化工具代替 Topic 配置、Broker 管理等命令行操作。 介绍​ 功能概览​ 面板功能运维修改nameserver 地址; 选用 VIPChannel驾驶舱查看 …...

【RabbitMQ实战】05 RabbitMQ后台管理

一、多租户与权限 1.1 vhost的概念 每一个 RabbitMQ服务器都能创建虚拟的消息服务器&#xff0c;我们称之为虚拟主机(virtual host),简称为 vhost。每一个 vhost本质上是一个独立的小型RabbitMQ服务器&#xff0c;拥有自己独立的队列、交换器及绑定关系等&#xff0c;并且它拥…...

PHP8中final关键字的应用-PHP8知识详解

在PHP8中&#xff0c;final的中文含义是最终的、最后的意思。被final修饰过的类和方法就是“最终的版本”。 如果关键字final放在类的前面&#xff0c;则表示该类不能被继承。 如果关键字final放在方法的前面&#xff0c;则表示该 方法不能被重新定义。 如果有一个类的格式为…...

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

说明&#xff1a; 想象一下&#xff0c;你正在用eNSP搭建一个虚拟的网络世界&#xff0c;里面有虚拟的路由器、交换机、电脑&#xff08;PC&#xff09;等等。这些设备都在你的电脑里面“运行”&#xff0c;它们之间可以互相通信&#xff0c;就像一个封闭的小王国。 但是&#…...

web vue 项目 Docker化部署

Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段&#xff1a; 构建阶段&#xff08;Build Stage&#xff09;&#xff1a…...

微软PowerBI考试 PL300-选择 Power BI 模型框架【附练习数据】

微软PowerBI考试 PL300-选择 Power BI 模型框架 20 多年来&#xff0c;Microsoft 持续对企业商业智能 (BI) 进行大量投资。 Azure Analysis Services (AAS) 和 SQL Server Analysis Services (SSAS) 基于无数企业使用的成熟的 BI 数据建模技术。 同样的技术也是 Power BI 数据…...

蓝桥杯 2024 15届国赛 A组 儿童节快乐

P10576 [蓝桥杯 2024 国 A] 儿童节快乐 题目描述 五彩斑斓的气球在蓝天下悠然飘荡&#xff0c;轻快的音乐在耳边持续回荡&#xff0c;小朋友们手牵着手一同畅快欢笑。在这样一片安乐祥和的氛围下&#xff0c;六一来了。 今天是六一儿童节&#xff0c;小蓝老师为了让大家在节…...

ABAP设计模式之---“简单设计原则(Simple Design)”

“Simple Design”&#xff08;简单设计&#xff09;是软件开发中的一个重要理念&#xff0c;倡导以最简单的方式实现软件功能&#xff0c;以确保代码清晰易懂、易维护&#xff0c;并在项目需求变化时能够快速适应。 其核心目标是避免复杂和过度设计&#xff0c;遵循“让事情保…...

【分享】推荐一些办公小工具

1、PDF 在线转换 https://smallpdf.com/cn/pdf-tools 推荐理由&#xff1a;大部分的转换软件需要收费&#xff0c;要么功能不齐全&#xff0c;而开会员又用不了几次浪费钱&#xff0c;借用别人的又不安全。 这个网站它不需要登录或下载安装。而且提供的免费功能就能满足日常…...

在树莓派上添加音频输入设备的几种方法

在树莓派上添加音频输入设备可以通过以下步骤完成&#xff0c;具体方法取决于设备类型&#xff08;如USB麦克风、3.5mm接口麦克风或HDMI音频输入&#xff09;。以下是详细指南&#xff1a; 1. 连接音频输入设备 USB麦克风/声卡&#xff1a;直接插入树莓派的USB接口。3.5mm麦克…...

comfyui 工作流中 图生视频 如何增加视频的长度到5秒

comfyUI 工作流怎么可以生成更长的视频。除了硬件显存要求之外还有别的方法吗&#xff1f; 在ComfyUI中实现图生视频并延长到5秒&#xff0c;需要结合多个扩展和技巧。以下是完整解决方案&#xff1a; 核心工作流配置&#xff08;24fps下5秒120帧&#xff09; #mermaid-svg-yP…...

云安全与网络安全:核心区别与协同作用解析

在数字化转型的浪潮中&#xff0c;云安全与网络安全作为信息安全的两大支柱&#xff0c;常被混淆但本质不同。本文将从概念、责任分工、技术手段、威胁类型等维度深入解析两者的差异&#xff0c;并探讨它们的协同作用。 一、核心区别 定义与范围 网络安全&#xff1a;聚焦于保…...

Vue 3 + WebSocket 实战:公司通知实时推送功能详解

&#x1f4e2; Vue 3 WebSocket 实战&#xff1a;公司通知实时推送功能详解 &#x1f4cc; 收藏 点赞 关注&#xff0c;项目中要用到推送功能时就不怕找不到了&#xff01; 实时通知是企业系统中常见的功能&#xff0c;比如&#xff1a;管理员发布通知后&#xff0c;所有用户…...