当前位置: 首页 > news >正文

大数据学习第十二天(hadoop概念)

1、服务器之间数据文件传递

        1)服务器之间传递数据,依赖ssh协议

        2)http协议是web网站之间的通讯协议,用户可已通过http网址访问到对应网站数据

        3)ssh协议是服务器之间,或windos和服务器之间传递的数据的协议。支持shell指令的传输

        4)在linux中默认自带ssh客户端,可以使用ssh指令进行服务器连接

                ssh 用户@ip地址或域名

ssh免密登录

每次登录不需要再输入密码

分别在node1、node2、node3上执行如下命令

1)生成密钥

        ssh-keygen

2)分别拷贝密钥

        ssh-copy-id node1

        ssh-copy-id node2

        ssh-copy-id node3

3)基于ssh协议进行服务器之间的文件或者目录的传输

使用指令scp

        scp -r 本机文件或目录路径 目标服务器名:目标服务器路径

2、解压和压缩

        tar xvf 压缩包文件

        x 代表解压

        v 显示解压详情

        f 代表解压文件

        1)压缩

                tar cvf 压缩包名.tar.gz 文件或者目录

3、数据导论[了解]

日常生活中不断产生各类数据,通过对各类数据的分析,得到用户的行为习惯,发现用户的数据价值

4、大数据诞生[了解]

随着用户数据增多传统数据处理方式无法满足海量数据处理的需求,此时引入分布式技术

将海量数据进行分布式的存储,计算,资源调度

可以统一管理多台服务器进行存储和计算,把多台服务器当成一个整体

使用hadoop实现分布式存储,计算和资源调度

5、大数据概述[了解]

大数据主要解决海量数据的存储和计算

海量数据

excel KB MB 1MB=1024KB

mysql GB TB 1GB =1024 MB 1TB =1024GB

大数据 PB,EB(海量数据) 1PB=1024TB

KB < MB < GB < TB < PB < EB < ZB < YB

6、大数据的特点

  • 数据量大

  • 数据种类多

    • 结构化数据

    • 半结构化数据

      • xml

      • json

    • 非结构数据

      • 文本数据

  • 数据低价值密度

    • 分析用户的消费习惯

      • 用户注册基本信息 姓名,性别,年龄 1个

      • 用户的购买信息 订单数据 手机,2023-10-22 100个

      • 用户浏览信息 浏览哪些商品 100个

      • 用户访问信息 访问网站时间,地点,设备 100000条

      • 1000201条数 有价值的数据200条

  • 增长速度快

    • 每天都会产生大量数据

  • 数据结果质量高

    • 对海量数据结果更接近真实情况

7、大数据软件生态[了解]

存储:Apache Hadoop HDFS、Apache HBase、Apache Kudu、云平台

计算:Apache Hadoop MapReduce、Apache Spark、Apache Flink

传输:Apache Kafka、Apache Pulsar、Apache Flume、Apache Sqoop

8、Apache Hadoop概述[了解]

        1)Hadoop的功能组件

HDFS分布式文件存储系统: 负责海量数据的存储工作

MapReduce分布式计算框架: 负责海量数据的计算工作

Yarn分布式资源调度工具: 负责分布式集群的资源调度工作

        2)Hadoop发展

创始人: 道格·卡丁

Hadoop发行时间: 2008年

hadoop的发展受谷歌的三篇论文影响, 后被称为大数据发展的三驾马车

        3)Hadoop版本

社区版: 开源免费

  • 优点: 更新速度快,技术新

  • 缺点: 兼容性差不稳定

商业版: CDH 将所有大数据相关组件都重写了一遍并进行了精细测试解决了兼容性问题和稳定性问题

  • 优点: 兼容稳定性好

  • 确定: 技术旧,收费

注意: 在企业级开发中我们使用的大多是商业版hadoop, CDH版本Hadoop在6.2.4版本之前是不收费的.

9、为什么需要分布式存储[了解]

数据体量过大,存储在同一台服务器上空间不足,所以需要对于服务器进行扩展,多台服务共同存储超大文件

存储原理就是将大文件进行分割,分割后,将数据存储在不同的服务器内部

此时不仅可以提供多台服务器的存储空间,同时可以增加服务器的读写效率,cpu,内存,网络带宽等.

相关文章:

大数据学习第十二天(hadoop概念)

1、服务器之间数据文件传递 1&#xff09;服务器之间传递数据&#xff0c;依赖ssh协议 2&#xff09;http协议是web网站之间的通讯协议&#xff0c;用户可已通过http网址访问到对应网站数据 3&#xff09;ssh协议是服务器之间&#xff0c;或windos和服务器之间传递的数据的协议…...

管理科学笔记

1.线性规划 画出区域&#xff0c;代入点计算最大最小值 2.最小生成树 a.断线法&#xff0c;从大的开始断 b.选择法&#xff0c;从小的开始选 3.匈牙利法 维度数量直线覆盖所有的0 4.一直选最当前路线最短路径 5.线性规划 6.决策论...

WebKit结构简介

WebKit是一款开源的浏览器引擎&#xff0c;用于渲染网页内容。它负责将HTML、CSS和JavaScript等网络资源转换为用户在屏幕上看到的图形界面。WebKit是一个跨平台的引擎&#xff0c;可以在多种操作系统上运行&#xff0c;如Windows、macOS、Linux等。 以下是一篇关于WebKit结构…...

Kaggle:收入分类

先看一下数据的统计信息 import pandas as pd # 加载数据&#xff08;保留原路径&#xff0c;但在实际应用中建议使用相对路径或环境变量&#xff09; data pd.read_csv(r"C:\Users\11794\Desktop\收入分类\training.csv", encodingutf-8, encoding_errorsrepl…...

【Go】十七、进程、线程、协程

文章目录 1、进程、线程2、协程3、主死从随4、启动多个协程5、使用WaitGroup控制协程退出6、多协程操作同一个数据7、互斥锁8、读写锁9、deferrecover优化多协程 1、进程、线程 进程作为资源分配的单位&#xff0c;在内存中会为每个进程分配不同的内存区域 一个进程下面有多个…...

深入剖析JavaScript中的this(上)

在Javascript中&#xff0c;this 关键字是一个非常重要的概念&#xff0c;this这个关键字可以说是很常见也用的很多&#xff0c;说它简单也很简单&#xff0c;说它难也很难。我们经常会用到this&#xff0c;也经常会因为this头疼&#xff0c;是一个经常被误解和误用的概念&…...

Junit深入讲解(JAVA单元测试框架)

1、此处用的是Junit5&#xff0c;此处pom文件需要引的依赖是 <dependency><groupId>org.junit.jupiter</groupId><artifactId>junit-jupiter-api</artifactId><version>5.9.1</version><scope>test</scope></depende…...

Spring boot如何执行单元测试?

Spring Boot 提供了丰富的测试功能&#xff0c;主要由以下两个模块组成&#xff1a; spring-boot-test&#xff1a;提供测试核心功能。spring-boot-test-autoconfigure&#xff1a;提供对测试的自动配置。 Spring Boot 提供了一个 spring-boot-starter-test一站式启动器&…...

Django详细教程(一) - 基本操作

文章目录 前言一、安装Django二、创建项目1.终端创建项目2.Pycharm创建项目&#xff08;专业版才可以&#xff09;3.默认文件介绍 三、创建app1.app介绍2.默认文件介绍 四、快速上手1.写一个网页步骤1&#xff1a;注册app 【settings.py】步骤2&#xff1a;编写URL和视图函数对…...

Qt编译QScintilla(C++版)过程记录,报错-lqscintilla2_qt5d、libqscintilla2_qt5找不到问题解决

Qt编译QScintilla [C版] 过程记录 本文是编译该 QScintilla 组件库供 QtCreater 开发 C 桌面软件 流程记录一、编译环境 系统&#xff1a; Windows 10Qt&#xff1a;Qt 5.14.2编译套件&#xff1a;MinGW 64Qscintilla&#xff1a;QScintilla_src-2.11.6 二、下载链接 网站链…...

android QtScrcpy 共享屏幕 获取本地Address

android QtScrcpy https://gitee.com/B arryda/QtScrcpy scrcpy - 手机无线投屏到电脑 https://zhuanlan.zhihu.com/p/80264357?utm_sourcewechat_session public String getLocalIpAddress() { String ipv4; List<NetworkInterface> nilist …...

【SQL Server】1. 认识+使用

1. 创建数据库的默认存储路径 C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Microsoft SQL Server 2008 R2 当我们选择删除数据库时&#xff0c;对应路径下的文件也就删除了 2. 导入导出数据工具的路径 3. 注册数据库遇到的问题 ??? 目前的问题就是服务器新建…...

视频汇聚/安防监控/视频存储EasyCVR平台EasyPlayer播放器更新:新增【性能面板】

视频汇聚/安防监控/视频存储平台EasyCVR基于云边端架构&#xff0c;可以在复杂的网络环境中快速、灵活部署&#xff0c;平台视频能力丰富&#xff0c;可以提供实时远程视频监控、视频录像、录像回放与存储、告警、语音对讲、云台控制、平台级联、磁盘阵列存储、视频集中存储、云…...

图神经网络实战(7)——图卷积网络(Graph Convolutional Network, GCN)详解与实现

图神经网络实战&#xff08;7&#xff09;——图卷积网络详解与实现 0. 前言1. 图卷积层2. 比较 GCN 和 GNN2.1 数据集分析2.2 实现 GCN 架构 小结系列链接 0. 前言 图卷积网络 (Graph Convolutional Network, GCN) 架构由 Kipf 和 Welling 于 2017 年提出&#xff0c;其理念是…...

大话设计模式之外观模式

外观模式&#xff08;Facade Pattern&#xff09;是一种软件设计模式&#xff0c;旨在提供一个简单的接口&#xff0c;隐藏系统复杂性&#xff0c;使得客户端能够更容易地使用系统。这种模式属于结构型模式&#xff0c;它通过为多个子系统提供一个统一的接口&#xff0c;简化了…...

CAD Plant3D 2024 下载地址及安装教程

CAD Plant3D是一款专业的三维工厂设计软件&#xff0c;用于在工业设备和管道设计领域进行建模和绘图。它是Autodesk公司旗下的AutoCAD系列产品之一&#xff0c;专门针对工艺、石油、化工、电力等行业的设计和工程项目。 CAD Plant3D提供了一套丰富的工具和功能&#xff0c;帮助…...

Intellij IDEA / Android studio 可持续开发笔记

Intellij 的Java/安卓工具链有着一种不可持续性&#xff0c;这种不可持续性体现在多个方面。 首先是不可持续运行。IDEA 使用时间越长&#xff0c;内存占用越大&#xff0c;从不主动释放。运行时间越长&#xff0c;日志越多&#xff0c;从不主动清理。 然后是不完整的开源&am…...

c++----list模拟实现

目录 1. list的基本介绍 2. list的基本使用 2.1 list的构造 用法示例 2.2 list迭代器 用法示例 2.3. list容量&#xff08;capacity&#xff09;与访问&#xff08;access) 用法示例 2.4 list modifiers 用法示例 2.5 list的迭代器失效 3.list的模拟实现 3.1…...

FastAPI+React全栈开发15 让我们构建一个展示API

Chapter03 Getting Started with FastAPI 15 Let’s Build a showcase API FastAPIReact全栈开发15 让我们构建一个展示API REST APIs are all about cycles of HTTP requests and responses, it is the engine that powers the web and is implemented in every web framew…...

list(链表)容器(二)

一、list 插入和删除 函数原型&#xff1a; push_back(elem);//在容器尾部加入一个元素 pop_back();//删除容器中最后一个元素 push_front(elem);//在容器开头插入一个元素 pop_front();//从容器开头移除第一个元素 insert(pos,elem);//在pos位置插elem元素的拷贝&#xff0c…...

世优科技上榜2024年度《中国虚拟数字人影响力指数报告》

日前&#xff0c;第三期《中国虚拟数字人影响力指数报告》在中国网络视听大会上正式发布。本期《报告》由中国传媒大学媒体融合与传播国家重点实验室&#xff08;以下简称“国重实验室”&#xff09;、中国传媒大学数字人研究院编制&#xff0c;中国网络视听协会、人民日报智慧…...

【调试方法】C代码中dump中间数据的方法

一&#xff0c;简介 本文主要介绍&#xff0c;如何在C语言代码中将音频流数据进行写入文件&#xff0c;方便调试定位问题&#xff1a; 二&#xff0c;函数实现 按int8_t写入 #include <stdio.h>int32_t write_int8_t_data(int8_t *name, int8_t *buffer, int32_t dat…...

【BUG】vue中@change时间传值丢失问题

项目场景&#xff1a; 在修改项目bug时&#xff0c;发现后端响应到前端的值&#xff0c;通过change事件调用方法&#xff0c;在方法中拿到值时&#xff0c;有部分数据丢失。 问题描述 后端传到前端的值为&#xff1a;字符串类型的"00000089"&#xff0c;change调用…...

Linux提权!!!

上一篇文章讲了Windows的提权&#xff0c;那么这篇文章就来讲一下Linux的提权 1.SUID提权 suid权限 作用&#xff1a;让普通用户临时拥有该文件的属主的执行权限&#xff0c;suid权限只能应用在二进制可执行文件&#xff08;命令&#xff09;上&#xff0c;而且suid权限只能设置…...

Android Studio学习7——常用控件view

Android控件 双击shift键——>搜索想要找的文件 Ctrlshift回车——>补全“&#xff1b;”号 CtrlX——>删除一行&#xff0c;只需把鼠标放在那一行 windows自带字体...

Springboot3 集成knife4j(swagger)

knife4j是为Java MVC框架集成Swagger生成Api文档的增强解决方案,前身是swagger-bootstrap-ui,取名kni4j是希望它能像一把匕首一样小巧,轻量,并且功能强悍! 官网地址&#xff1a; Knife4j 集Swagger2及OpenAPI3为一体的增强解决方案. | Knife4j 本文以Springboot3版本集成kn…...

深信服:借助观测云实现全链路可观测性

导读 深信服科技股份有限公司 简称「深信服」&#xff08; Sangfor Technologies Inc. &#xff09;&#xff0c;是一家领先的网络安全和云计算解决方案提供商&#xff0c;致力于为全球客户提供高效、智能、安全的网络和云服务。随着公司业务的不断扩展&#xff0c;也面临着监…...

详解Qt中使用线程

详解Qt中使用线程 Qt中的线程相关知识涵盖了线程创建、管理、通信以及线程安全等方面。下面将详细讲解这些知识点&#xff0c;并提供对应的示例代码。 线程创建与管理 QThread类 Qt通过QThread类来创建和管理线程。要创建一个新的工作线程&#xff0c;通常有两种方法&#…...

在.Net6中用gdal实现第一个功能

目录 一、创建.NET6的控制台应用程序 二、加载Gdal插件 三、编写程序 一、创建.NET6的控制台应用程序 二、加载Gdal插件 Gdal的资源可以经过NuGet包引入。右键单击项目名称&#xff0c;然后选择 "Manage NuGet Packages"&#xff08;管理 NuGet 包&#xff09;。N…...

采用大语言模型进行查询重写——Query Rewriting via Large Language Models

文章&#xff1a;Query Rewriting via Large Language Models&#xff0c;https://arxiv.org/abs/2403.09060 摘要 查询重写是在将查询传递给查询优化器之前处理编写不良的查询的最有效技术之一。 手动重写不可扩展&#xff0c;因为它容易出错并且需要深厚的专业知识。 类似地…...

外国人做的篆字网站/重庆seo整站优化系统

问题描述:列表页进入详情页&#xff0c;或者tab页切换&#xff0c;然后再返回列表页&#xff0c;希望能切换到之前滚动位置解决问题思路:切换到其他页面前记录位置&#xff0c;返回列表页的时候返回位置。这就需要借助vue-router的beforeRouteEnter和beforeRouteLeave这两个钩子…...

中国品牌网官网查询/百度seo关键词排名查询

今天数据迁移的小组找到我&#xff0c;希望我能够重新构建一些测试环境&#xff0c;其中测试环境中的一些分区表都需要去掉分区&#xff0c;转换成普通表的形式&#xff0c;因为他们在做一些工作的时候碰到了问题&#xff0c;而且希望必要的约束等都保留&#xff0c;这个需求听…...

需要做网站的企业资源/网络营销郑州优化推广公司

Git是一款开源的分布式版本控制系统&#xff0c;它的出现和Linux紧密相关。Linux内核项目组为了能更好地管理和维护Linux内核开发&#xff0c;于2002年开始启用商业的分布式版本控制系统BitKeeper。虽然软件开发商授权了Linux社区能免费使用&#xff0c;但是好景不长&#xff0…...

国家电力安全网站两学一做/微信小程序平台官网

一、数据仓库分为几层&#xff1f;负责什么职责&#xff1f;为什么要分层&#xff1f;1、数据仓库分为4层&#xff1a; ODS层 &#xff08;原始数据层&#xff09; DWD层 &#xff08;明细数据层&#xff09; DWS层 &#xff08;服务数据层&#xff09;ADS层 &#xff08;数据应…...

使用循环视频做背景的网站/seo网络推广课程

参考&#xff1a;List of HTTP header fields 翻译 标准要求字段 字段名说明例子状态A-IM可接受实例操作的请求A-IM: feed永久的Accept对于响应来说是(/是)可接受的媒体类型。看到内容协商。Accept: text/html永久的Accept-Charset可接受的字符集。Accept-Charset: utf-8永久的…...

全国的做网站的公司/网站流量分析

2019独角兽企业重金招聘Python工程师标准>>> containerd是一个高性能的容器&#xff08;container&#xff09;伺服系统&#xff08;查看源码&#xff09;&#xff0c;部分功能与Docker很像&#xff0c;相当于Docker Daemon模式和更新版的DockerD。 containerd采用并…...