当前位置: 首页 > news >正文

hadoop生态现状、介绍、部署

一、引出hadoop
1、hadoop的高薪现状
各招聘平台都有许多hadoop高薪职位,可以看看职位所需求的技能
----> hadoop是什么,为什么会这么高薪?引出大数据,大数据时代,大数据与云计算

2、大数据时代的介绍
大数据的故事,google根据海量数据所作出的一次流行病传播趋势预测,及时性和准确性都远超医疗体系根据传统方法所作出的预警,渲染大数据技术将给这个时代带来的巨大变革 ----> 大数据的4V特征  ----> 大数据技术带来的更多成功案例,及基于大数据技术的机器学习带来的无限憧憬

3、hadoop的由来和发展历程 
----> google所面临的困境 ----> 需求催生的技术革新 ----> 论文公布  ---->  dougcutting 山寨(捎带介绍一下道哥及其成就) ----> lucene nutch hadoop等项目的发起人 ----> yahoo ----> apache基金会管理维护
介绍apache基金会旗下的hadoop生态体系中各种开源项目,如hive  hbase  flume  spark  storm  sqoop   oozie  ......

4、hadoop解决了什么问题
实际场景,海量日志如何处理,海量网页数据如何处理
hdfs  解决了海量数据的分布式存储,高可靠,易扩展,高吞吐量
mapreduce   解决了海量数据的分析处理,通用性强,易开发,健壮性

5、hadoop的发展现况
大数据领域的标准开源解决方案,各大主流厂商都围绕hadoop进行周边开发和服务提供,去IOE化
重点以淘宝为例: 集群用途,个数,规模,云梯的架构
中国移动所使用的hadoop集群及其用途,各大厂商在使用hadoop

6、hadoop生态系统
----> 最底层平台 hdfs   yarn  mapreduce  spark
----> 应用层   hbase  hive pig  sparkSQL  nutch 
----> 工具类   zookeeper  flume 

二、hadoop介绍
1、如何学习hadoop
学什么?分轻重缓急,首先是整体技术架构,然后是应用场景,然后是开发规范,有余力可以深入原理--如源码)
怎样学?注意比较跟学习J2EE的差别
难不难?给以信心,强调要多动手,因为hadoop领域技术点多,不像j2ee那么单纯,在动手的过程中会遇到各种各样的问题,这样一能加深理解,二能提高学习和思考分析的能力,三能积累问题解决经验

2、hadoop的设计思想
单机性能纵向扩展的瓶颈,传统分布式存储入NFS所面临的单节点故障,磁盘冗余阵列所带来的成本问题
----> 需要通过集群协作来解决:水平扩展,集群化处理 ,低成本,可扩展,高可靠 
----> 集群协作随之而来的系统复杂度,急需一个通用的平台封装底层复杂度,降低使用开发难度

hdfs设计思想介绍 
    ----主从结构, 主节点namenode,从节点datanode ,简单介绍其角色责任,节点数量
用仓库管理系统的比喻方式来介绍一遍hdfs的设计思想:
    ---->管理员,仓库的角色
    ---->可靠性的考虑
    ---->吞吐量的考虑
    ---->存储和读取的流程

mapreduce设计思想介绍 
    ----主从结构,主节点jobtracker,从节点 tasktracker,整个框架如何将任务并发化,如何实现容错
    ---->用一个海量求和的案例来说明运算的并发化思想:
         a、用一个线程一次性全量求和
         b、将整个求和任务分成两个步骤,第一个步骤局部求和,这样可以并发进行;第二个步骤必须全局处理,用一个线程来执行,但是它的输入
         数据集已经很小,不会成为瓶颈
    ---->并发思想的编程模型实现了,但是并发协作的机制产生了大量公共管理问题,引出mapreduce的资源管理,任务调度,错误重试,并从这里可以引出hadoop2.0的yarn的思想及与hadoop1.0的对比

三、hadoop的部署----(细节在《hadoop2.4.1伪分布式搭建.txt》中)
1、linux系统的安装、配置(这部分都是实际操作演示)
根据以往经验,学员对于虚拟机软件特别是虚拟网络环境很困惑,这里需要详细讲一下虚拟机的思想
可先讲实际环境,要物理机,要交换机,要网络配置
那么,在虚拟环境下,同样需要具备这些要素,缺一不可,只是机器,交换机需要用虚拟的方式产生的而已;然后详细讲一下交换机和网关的概念,引出nat和bridge桥接方式的思想和差别 

准备工作:vmware虚拟机软件,centos6.5的安装,虚拟机软件的vmnet配置,nat方式或者桥接方式
a、网络配置----> 主机名,ip地址,域名映射 

先用ifconfig查看目前的活跃网卡,然后修改网卡的ip地址配置
setup配置ip地址(简易图形界面)或者
vi /etc/sysconfig/networking/devices/ifcfg-eth0 配置文件来修改ip地址

IPADDR=""
NETMASK=""
GATEWAY=""

主机名和域名映射的配置:
vi /etc/sysconfig/network  本机的主机名
vi /etc/hosts  集群中的主机域名映射表

----> 检验配置是否生效
ping hostname观察网络配置是否生效


b、系统配置 
----> sudoers加入普通用户,以便于利用sudo指令、时间配置,启动级别配置,防火墙配置
service iptables stop 关闭防火墙服务
chkconfig iptables off关闭防火墙自启动
service iptables status检查防火墙关闭情况
chkconfig iptables --list 查看防火墙自启动情况

2、JDK的安装(细节在《hadoop2.4.1伪分布式搭建.txt》中)
JDK安装包获取----> 安装包的上传 ----> 安装路径规划,安装包解压 ----> 环境变量的配置

secureCRT 
vsftp

tar  -zxvf
vi  /etc/profile
export JAVA_HOME=/usr/java
export PATH = $PATH:$JAVA_HOME/bin

生效

source /etc/profile

3、安装hadoop(细节在《hadoop2.4.1伪分布式搭建.txt》中)
hadoop版本的选择 hadoop-1.2.1  hadoop-2.2.0   hadoop-2.4.1
----> 下载安装包 http://archive.apache.org/dist 
----> 上传安装包到虚拟机
安装路径规划 ----> 解压 ----> 目录结构简介

伪分布式安装配置文件
vi hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.7.0_65

core-site.xml

<property><name>fs.defaultFS</name><value>hdfs://itcast:9000</value>
</property>
<property><name>hadoop.tmp.dir</name><value>/home/hadoop/hadoop-2.4.1/tmp</value>
</property>


hdfs-site.xml

<property><name>dfs.replication</name><value>1</value>
</property>

mapred-site.xml

<property><name>mapreduce.framwork.name</name><value>yarn</value>
</property>

yarn-site.xml

<property><name>yarn.resourcemanager.hostname</name><value>itcast</value>
</property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property>

配置/etc/profile

export HADOOP_HOME = 
export PATH

4、启动hadoop
格式化 hdfs namenode -format
start-all.sh
启动过程中会多次要求输入密码,引出后面会讲的SSH无密登陆配置
jps查看并介绍进程
namenode
secondarynamenode
datanode
nodemanager
resourcemanager

web管理界面的使用和介绍

四、ssh免密码登陆配置
1、ssh介绍,登陆演示(需要增加一台虚拟机)
2、ssh免密码登陆的秘钥机制
3、ssh秘钥配置,权限设置

ssh-keygen.sh -t rsa

~/.ssh 目录介绍

id_ras   id_rsa.pub  known_hosts
ssh-copy-id  desthost 或scp +  cat >> 命令 


4、验证
5、ssh免密码登陆的原理,握手及身份验证流程


五、hadoop的可用性验证
1、hdfs验证
通过网页访问hdfs
hdfs  shell 命令 
hdfs dfsadmin -report查看hdfs集群状态
put  get  mv  rm的演示 

2、yarn验证
跑hadoop自带例子程序

hadoop jar app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /input /output

六、Hadoop学习资源下载

Hadoop-HDFS-Shell-学习资料及文档、Java代码

相关文章:

hadoop生态现状、介绍、部署

一、引出hadoop 1、hadoop的高薪现状 各招聘平台都有许多hadoop高薪职位&#xff0c;可以看看职位所需求的技能 ----> hadoop是什么&#xff0c;为什么会这么高薪&#xff1f;引出大数据&#xff0c;大数据时代&#xff0c;大数据与云计算 2、大数据时代的介绍 大数据的故事…...

二、EFCore 数据库表的创建和迁移

文章目录 一、数据库连接二、数据库表迁移一、数据库连接 在NuGet上安装EntityFramework 代码如下: Microsoft.EntityFrameworkCoreMicrosoft.EntityFrameworkCore.SqlServerMicrosoft.Extensions.Configuration.Json配置数据连接 appsettings.json 增加数据库连接配置 &quo…...

在nodejs中使用typescript

在nodejs中使用typescript 如果我们正在使用nodejs来开发应用&#xff0c;那么对于管理和扩展一个大型代码库来说是一个非常大的挑战。克服这一问题的方法之一是使用typescript&#xff0c;为js添加可选的类型注释和高级功能。在本文中,我们将探讨如何使用在nodejs中使用types…...

数据结构与算法基础(青岛大学-王卓)(8)

哎呀呀&#xff0c;sorry艾瑞波地&#xff0c;这次真的断更一个月了&#xff0c;又发生了很多很多事情&#xff0c;秋风开始瑟瑟了&#xff0c;老父亲身体查出肿瘤了&#xff0c;有病请及时就医&#xff0c;愿每一个人都有一个健康的身体&#xff0c;God bless U and FAMILY. 直…...

【生物信息学】使用谱聚类(Spectral Clustering)算法进行聚类分析

目录 一、实验介绍 二、实验环境 1. 配置虚拟环境 2. 库版本介绍 3. IDE 三、实验内容 0. 导入必要的工具 1. 生成测试数据 2. 绘制初始数据分布图 3. 循环尝试不同的参数组合并计算聚类效果 4. 输出最佳参数组合 5. 绘制最佳聚类结果图 6. 代码整合 一、实验介绍…...

CSS基础语法第二天

目录 一、复合选择器 1.1 后代选择器 1.2 子代选择器 1.3 并集选择器 1.4 交集选择器 1.4.1超链接伪类 二、CSS特性 2.1 继承性 2.2 层叠性 2.3 优先级 基础选择器 复合选择器-叠加 三、Emmet 写法 3.1HTML标签 3.2CSS 四、背景属性 4.1 背景图 4.2 平铺方式 …...

ThreeJS - 封装一个GLB模型展示组件(TypeScript)

一、引言 最近基于Three.JS&#xff0c;使用class封装了一个GLB模型展示&#xff0c;支持TypeScript、支持不同框架使用&#xff0c;具有多种功能。 &#xff08;下图展示一些基础的功能&#xff0c;可以自行扩展&#xff0c;比如光源等&#xff09; 二、主要代码 本模块依赖…...

HashMap面试题

1.hashMap底层实现 hashMap的实现我们是要分jdk 1.7及以下版本&#xff0c;jdk1.8及以上版本 jdk 1.7 实现是用数组链表 jdk1.8 实现是用数组链表红黑树&#xff0c; 链表长度大于8&#xff08;TREEIFY_THRESHOLD&#xff09;时&#xff0c;会把链表转换为红黑树&#xff0c…...

Java编程技巧:swagger2、knif4j集成SpringBoot或者SpringCloud项目

目录 1、springbootswagger2knif4j2、springbootswagger3knif4j3、springcloudswagger2knif4j 1、springbootswagger2knif4j 2、springbootswagger3knif4j 3、springcloudswagger2knif4j 注意点&#xff1a; Api注解&#xff1a;Controller类上的Api注解需要添加tags属性&a…...

第三章:最新版零基础学习 PYTHON 教程(第九节 - Python 运算符—Python 中的除法运算符)

除法运算符允许您将两个数字相除并返回商,即,第一个数字或左侧的数字除以第二个数字或右侧的数字并返回商。 Python 中的除法运算符 除法运算符有两种类型: 浮点数除法整数除法(向下取整除法)整数相除时,结果四舍五入为最接近的整数,并用符号“//”表示。浮点数“/”…...

【python】导出mysql数据,输出excel!

参考https://blog.csdn.net/pengneng123/article/details/131111713 import pymysql import pandas as pd #import openpyxl import xlsxwriterdb pymysql.connect(host"10.41.241.114", port***,user***,password***,charsetutf8mb4 )cursor db.cursor() #创建游…...

【Java 进阶篇】JDBC ResultSet 遍历结果集详解

在Java数据库编程中&#xff0c;经常需要执行SQL查询并处理查询结果。ResultSet&#xff08;结果集&#xff09;是Java JDBC中用于表示查询结果的关键类之一。通过遍历ResultSet&#xff0c;我们可以访问和操作从数据库中检索的数据。本文将详细介绍如何使用JDBC来遍历ResultSe…...

华为数通方向HCIP-DataCom H12-831题库(单选题:161-180)

第161题 某台路由器Router LSA如图所示,下列说法中错误的是? A、本路由器已建立邻接关系 B、本路由器为DR C、本路由支持外部路由引入 D、本路由器的Router ID为10.0.12.1 答案: B 解析: 一类LSA的在transnet网络中link id值为DR的route id ,但Link id的地址不是10.0.12.…...

【VsCode】SSH远程连接Linux服务器开发,搭配cpolar内网穿透实现公网访问

文章目录 前言1、安装OpenSSH2、vscode配置ssh3. 局域网测试连接远程服务器4. 公网远程连接4.1 ubuntu安装cpolar内网穿透4.2 创建隧道映射4.3 测试公网远程连接 5. 配置固定TCP端口地址5.1 保留一个固定TCP端口地址5.2 配置固定TCP端口地址5.3 测试固定公网地址远程 前言 远程…...

java并发编程 守护线程 用户线程 main

经常使用线程&#xff0c;没有对守护线程和用户线程的区别做彻底了解 下面写4个例子来验证一下 源码如下 /* Whether or not the thread is a daemon thread. */ private boolean daemon false;/*** Marks this thread as either a {linkplain #isDaemon daemon} thread*…...

wxWidgets(1):在Ubuntu 环境中搭建wxWidgets 库环境,安装库和CodeBlocks的IDE,可以运行demo界面了,继续学习中

1&#xff0c;选择使用 wxWidgets 框架 选择这个主要是因为完全的开源&#xff0c;不想折腾 Qt的库&#xff0c;而且打包的文件比较大。 网络上面有很多的对比&#xff0c;而且使用QT的人比较多。 但是我觉得wxwidgets 更加偏向 c 语法本身&#xff0c;也有助学习C。 没有太多…...

[VIM]VIM初步学习-3

3-1 编写 vim 配置&#xff0c;我的 vim 我做主_哔哩哔哩_bilibili...

RocketMQ Dashboard说解

RocketMQ Dashboard 是 RocketMQ 的管控利器&#xff0c;为用户提供客户端和应用程序的各种事件、性能的统计信息&#xff0c;支持以可视化工具代替 Topic 配置、Broker 管理等命令行操作。 介绍​ 功能概览​ 面板功能运维修改nameserver 地址; 选用 VIPChannel驾驶舱查看 …...

【RabbitMQ实战】05 RabbitMQ后台管理

一、多租户与权限 1.1 vhost的概念 每一个 RabbitMQ服务器都能创建虚拟的消息服务器&#xff0c;我们称之为虚拟主机(virtual host),简称为 vhost。每一个 vhost本质上是一个独立的小型RabbitMQ服务器&#xff0c;拥有自己独立的队列、交换器及绑定关系等&#xff0c;并且它拥…...

PHP8中final关键字的应用-PHP8知识详解

在PHP8中&#xff0c;final的中文含义是最终的、最后的意思。被final修饰过的类和方法就是“最终的版本”。 如果关键字final放在类的前面&#xff0c;则表示该类不能被继承。 如果关键字final放在方法的前面&#xff0c;则表示该 方法不能被重新定义。 如果有一个类的格式为…...

基于Java的校园失物招领平台设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序&#xff08;小蔡coding&#xff09;有保障的售后福利 代码参考源码获取 前言 &#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作…...

〔024〕Stable Diffusion 之 模型训练 篇

✨ 目录 🎈 训练集准备🎈 训练集预处理🎈 数据清洗🎈 下载训练源码🎈 训练文件配置🎈 脚本运行🎈 实战测试🎈 训练集准备 声明: 该文中所涉及到的女神图片均来自于网络,仅用作技术教程演示,图片已码一般同一个训练集需要准备 20~40 张不同角度的照片,当然可…...

【MySQL入门到精通-黑马程序员】MySQL基础篇-DML

文章目录 前言一、DML-介绍二、DML-添加数据三、DML-修改数据四、DML-删除数据总结 前言 本专栏文章为观看黑马程序员《MySQL入门到精通》所做笔记&#xff0c;课程地址在这。如有侵权&#xff0c;立即删除。 一、DML-介绍 DML&#xff08;Data Manipulation Language&#xf…...

【ARMv8 SIMD和浮点指令编程】NEON 加载指令——如何将数据从内存搬到寄存器(LDxLDxR)?

将内存中的数据搬到 NEON 寄存器,有很多指令可以完成,熟悉这些指令是必须的。 1 LD1 (multiple structures) 将多个单元素结构加载到一个,两个,三个或四个寄存器上。该指令从内存中加载多个单元结构,并将结果写入一、二、三或四个 SIMD&FP 寄存器。 无偏移 一个寄存…...

华为云云耀云服务器L实例评测 | 实例场景体验之搭建个人博客:通过华为云云耀云服务器构建个人博客

华为云云耀云服务器L实例评测 &#xff5c; 实例场景体验之搭建个人博客&#xff1a;通过华为云云耀云服务器构建个人博客 介绍华为云云耀云服务器 华为云云耀云服务器 &#xff08;目前已经全新升级为 华为云云耀云服务器L实例&#xff09; 华为云云耀云服务器是什么华为云云耀…...

问题记录 springboot 事务方法中使用this调用其它方法

原因: 因为代理对象中调用了原始对象的toString()方法,所以两个不同的对象打印出的引用是相同的...

【Spring Cloud】Ribbon 实现负载均衡的原理,策略以及饥饿加载

文章目录 前言一、什么是 Ribbon二、Ribbon 实现负载均衡的原理2.1 负载均衡的流程2.2 Ribbon 实现负载均衡的源码剖析 三、Ribbon 负载均衡策略3.1 负载均衡策略3.2 演示 Ribbon 负载均衡策略的更改 四、Ribbon 的饥饿加载4.1查看 Ribbon 的懒加载4.2 Ribbon 的饥饿加载模式 前…...

Linux下基本指令(上)

文章内容&#xff1a; 1. ls 指令 语法&#xff1a; ls [选项][目录或文件] 功能&#xff1a;对于目录&#xff0c;该命令列出该目录下的所有子目录与文件。对于文件&#xff0c;将列出文件名以及其他信息。 单个ls显示当前目录下的文件和目录 常用选项&#…...

C++ 并发编程实战 第十一章 多线程应用的测试和除错

目录 11.1 与并发相关的错误类型 11.1.1 不必要的阻塞 11.1.2 条件竞争 11.2 定位并发错误的技术 11.2.1 代码审阅——发现潜在的错误 11.2.2 通过测试定位并发相关的错误 11.2.3 可测试性设计 11.2.4 多线程测试技术 11.2.5 构建多线程测试代码 11.2.6 测试多线程代…...

Redis实现API访问频率限制

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…...

网站开发后端工资多少/百度网页制作

强化顶层设计&#xff0c;集中力量做大做强新一代信息技术产业&#xff0c;加快推进制造业等实体经济数字化转型&#xff0c;全面构筑工业数字经济新业态&#xff0c;拓展经济发展新空间 随着新一代信息技术与实体经济的深度融合&#xff0c;我国传统产业利用数字技术的广度深…...

免费下载网站模板/青岛网络优化厂家

1.虚拟IP 在 TCP/IP 的架构下&#xff0c;所有想上网的电脑&#xff0c;不论是用何种方式连上网路&#xff0c;都必须要有一个唯一的 IP-address。事实上IP地址是主机硬件地址的一种抽象&#xff0c;简单的说&#xff0c;MAC地址是物理地址&#xff0c;IP地址是逻辑地址。 虚拟…...

电子商务网站调研/武汉网站推广

通常我们部署前端node通过 npm install,npm run dev |npm run pro来部署前端&#xff0c; 这次部署由于很多奇奇怪怪的bug导致一直run server失败&#xff0c; 虽然后来通过各种换源和使用cnpm和yran替代npm解决了&#xff0c; 但还是觉得好麻烦&#xff1b;而且感觉这种方式部…...

wordpress自定义文章添加标签/公司官网制作多少钱

使用yum安装epel yum源&#xff0c;并安装nginx1、安装epel-release2、yum repolist3、查看 epel repo4、安装 nginx5、启动 nginx 服务6、web 进行访问1、安装epel-release [rootNeo_Tang ~]# yum install epel-release -y Loaded plugins: fastestmirror Loading mirror spe…...

网站代码优化有哪些/搜索引擎优化名词解释

本文实例为大家分享了Python3定时发送邮件功能的具体代码&#xff0c;供大家参考&#xff0c;具体内容如下1、 导入模块import osimport datetime #定时发送&#xff0c;以及日期import shutil #文件操作import smtplib #邮件模块from email.mime.text import MIMETextfrom ema…...

营销型网站建设是什么/搜索引擎优化搜索优化

Understand the Difference Between Return Sequences and Return States for LSTMs in Keras Kears LSTM API 中给出的两个参数描述 return_sequences&#xff1a;默认 False。在输出序列中&#xff0c;返回单个 hidden state值还是返回全部time step 的 hidden state值。 Fa…...