大数据知识点之大数据5V特征
大数据的特征可以浓缩为五个英文单词,Volume(大量)、Variety(多样性)、Velocity(速度)、Value(价值)、Veracity(准确性)。因为是5个特征都是以“V”开头的英文单词,又叫大数据5V特征。
概述:
1、Volume(大量)
即可从数百TB到数十数百PB、甚至EB的规模
2、Variety(多样性)
即大数据包括各种格式和形态的数据
3、Velocity(速度)
数据增长速度快,处理速度也快,获取数据的速度也要快
4、Value(价值)
数据价值密度低,但是商业价值高
5、Veracity(准确性)
即处理的结果要保证一定的准确性
详细描述:
1、Volume
中文翻译是“大量”的意思,顾名思义,就是数据量非常的庞大。而这也是大数据的字面含义。我们知道在表示数据大小的时候,生活中常见的计量单位有KB、MB、GB、TB等,但是在此之上还有其他的单位,例如: PB、EB、ZB、YB、BB、NB、DB等。这些单位之间的换算率都是1024,也正是因此,人们会把每年的10月24日定为程序员节。我们每一个人在互联网上进行各种各样的行为,都会留下数据,而这些数据量虽然不算大,但是在庞大的用户基数下,累计起来的还是非常庞大的。在一个中大型企业中,需要处理的数据规模是很容易达到PB、EB的级别的,而这也正是大数据的第一个特征: 大量。
2、Variety
中文翻译是“多样化”的意思。我们知道学习大数据就是来处理庞大的数据集的,那么组成这个庞大的数据集的数据是可以分为不同的类型的。我们把这些数据大致分为三类:结构化的数据、半结构化的数据和非结构化的数据。
结构化的数据,一般指的是关系型数据库中的数据,例如MySQL、Oracle中的表中的数据。这些数据中,每一行的数据都保持着相同的数据格式,有规律可循,非常容易处理。
半结构化的数据,指的是有一定的结构性,但是比起关系型数据库表中的结构化的数据来说,结构不是那么清晰,处理起来也比结构化的数据略微麻烦。常见的半结构化的数据有json、xml、html等。
非结构化的数据,指的就是没有丝毫结构性可言的数据了。数据没有固定的格式,通常需要我们单独设计程序来处理这些数据,从中提取出来有价值的信息。
而我们在工作中要处理的数据,往往都是以半结构化和非结构化的居多。
3、Value
中文翻译是“价值”的意思。这里其实有两点体现:价值密度低、商业价值高。
大数据相关的技术体系,需要处理的数据量是非常庞大的,动辄PB、EB规模的数据,但是真正具有价值的数据却非常稀少,只有100M,甚至更少。我们就需要从这么庞大的数据集中提取出来这些密度非常低的有价值的数据进行处理。
但是,也就是这些密度非常低的数据,能够发挥出来巨大的商业价值。这点其实也是来推动大数据发展的重要的特征之一,因为这些大数据相关的技术体系可以给商人带来巨大的利益,老板才愿意培养人来从事这个行业;越来越多的人涌入到这个行业,才能够推动这门技术不断的向前发展。
4、Velocity
中文翻译是“速度”的意思。我们要处理的数据集在很多情况下,并不是一潭死水,而是在不断增长的。对于一个企业来说,每天都会新增庞大的数据,这些数据可能来自于用户的操作、可能来自于智能家居、可能来自于各种传感器等,数据的来源非常多,而且数据量的增速也是非常可怕的。以淘宝、京东这类的电商来说,每日新增的数据量达到几百个GB是很正常的事情。在这样快速的数据增长的情况下,也对我们处理数据的速度有了较高的要求了。我们一定要优化我们的业务逻辑,提高处理的速度,才不会造成数据积压。
5、Veracity
中文翻译是“真实性”的意思。大规模的数据量,在处理的时候,对技术体系是有较高的要求的。在还没有形成现有的技术体系的年代,人们在处理庞大的数据集的时候,往往束手无策,要么实效性非常差,要么干脆无法处理。那个时代甚至流行一种做法:随机抽样。随机的从庞大的数据集中抽取一部分出来进行处理,以这样的处理结果,作为整个数据集的处理结果。追求真实性的,可能会多随机几次。但是这个结果其实是不准确的,并不能够体现出这些数据完整的价值,甚至还可能得到错误的结论。但是现在大数据的技术体系相对成熟,我们不再使用这样的随机抽样的方式了。我们就是要对所有的数据进行高效的处理,得出的结论自然也是正确的。
大数据的5V特征是Volume、Velocity、Variety、Veracity和Value,这些特征描述了大数据的规模、速度、多样性、真实性和价值,对于理解和应用大数据具有重要意义。
相关文章:
大数据知识点之大数据5V特征
大数据的特征可以浓缩为五个英文单词,Volume(大量)、Variety(多样性)、Velocity(速度)、Value(价值)、Veracity(准确性)。因为是5个特征都是以“V”开头的英文单词,又叫大数据5V特征。 概述&…...
Java的Socket通信的断网重连的正确写法
Java的Socket通信的断网重连的正确写法 Socket通信的断网重连介绍客户端与服务端源码演示截图本地演示服务器演示演示截图 总结 Socket通信的断网重连介绍 针对于已经建立通信的客户端与服务器,当客户端与服务器因为网络问题导致网络不通而断开连接了或者由于服务器…...
Rocketmq--消息发送和接收演示
使用Java代码来演示消息的发送和接收 <dependency><groupId>org.apache.rocketmq</groupId><artifactId>rocketmq-spring-boot-starter</artifactId><version>2.0.2</version> </dependency> 1 发送消息 消息发送步骤: 创建…...
ArcGIS Pro将SHP文件转CAD并保留图层名称
相信大家应该都使用过ArcGIS将SHP文件转CAD格式,转换过后所有的要素都在一个图层内,那么有没有办法将SHP文件某个字段的值作为CAD的图层名字呢,答案是肯定的,这里就为大家介绍一下ArcGIS Pro转CAD文件并且保留图层名称的方法&…...
GEE:使用for循环合成时间序列影像
作者:CSDN @ _养乐多_ 在本博客中,我们将介绍如何使用Google Earth Engine创建一个时间序列图像集合,以便进行时间序列分析或生成动态图像。 文章目录 一、核心代码二、代码解释三、示例代码链接一、核心代码 // 创建一个空的 image 图像集合 var imagelist = ee.List([])…...
flink1.13.2版本的对应的hive的Hcatalog的使用记录
依赖版本要求<hive.version>3.1.2</hive.version><flink.version>1.13.2</flink.version><hadoop.version>3.3.2</hadoop.version><scala.binary.version...
STM32 ADC介绍和应用
目录 1.ADC是什么? 2.ADC的性能指标 3.ADC特性 4.ADC通道 5.ADC转换顺序 6.ADC触发方式 7.ADC转化时间 8.ADC转化模式 扫描模式 单次转换/连续转换 9.ADC实验 使用ADC读取烟雾传感器的值 代码实现思路: 1.ADC是什么? 全称&#…...
vue项目打包_以生产环境prod模式打包_vue-cli-service 不是内部或外部命令,也不是可运行的程序---vue工作笔记0025
打开命令行: 首先执行npm install 不执行会报错: npm run build:prod --scripts-prepend-node-pathauto 然后再这样执行就是以生产环境模式打包了....
FreeSWITCH的liberal dtmf
sip profile配置liberal-dtmf为true,或者通道变量rtp_liberal_dtmf为true,其含义就是不挑剔协商的DTMF,offer rfc2833并接受远端的rfc2833 和SIP INFO。 sofia.c的部分内容: // 收到sip info的处理 void sofia_handle_sip_i_inf…...
透明度模糊Android实现
最近有个需求,需要透明度加模糊,并且无法通过Glide的方式实现。研究后发现有一个第三方库可以实现这个效果 implementation com.github.Dimezis:BlurView:version-2.0.3在activity的onCreate()方法中 实现效果 可以看到上边的bar…...
JavaScript学习笔记04
JavaScript笔记04 方法 定义方法 当一个函数是一个对象的属性时,称之为方法。例: <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><script>let p…...
18 Python的sys模块
概述 在上一节,我们介绍了Python的os模块,包括:os模块中一些常用的属性和函数。在这一节,我们将介绍Python的sys模块。sys模块提供了访问解释器使用或维护的变量,以及与解释器进行交互的函数。 通俗来讲,sy…...
Spring Boot 各版本的支持时间
1. Spring Boot 各版本的支持时间 Spring Boot 2.7 的版本,支持到2023-11-18,之后就要停止支持了。 按照官网的数据,3.0 的版本也是到2023年11月就停止支持了。如果要转到SpringBoot3,直接从3.1开始吧。到写这篇文章时ÿ…...
华为云云耀云服务器L实例评测|Git 私服搭建指南
前言 本文为华为云云耀云服务器L实例测评文章,测评内容是 云耀云服务器L实例 Git 私有服务器搭建指南 系统配置:2核2G 3M Ubuntu 20.04 我们平时在使用代码托管服务的时候,可能某些代码托管平台对成员有限制,或是由于内容原因会对…...
Linux下的Swap内存
目录 一、Swap简介二、Swap内存查看三、Swap内存释放1、关闭swap2、查看关闭进度2、开启swap 一、Swap简介 swap space 是磁盘上的一块区域,可以是一个分区,也可以是一个文件。所以具体的实现可以是 swap分区 也可以是 swap文件。 当系统物理内存吃紧时…...
Unity中程序集dll
一:前言 一个程序集由一个或多个文件组成,通常为扩展名.exe和.dll的文件称为程序集,.exe是静态的程序集,可以在.net下直接运行加载,因为exe中有一个main函数(入口函数),.dll是动态链接库&#…...
识典百科取代快懂百科,如何在识典百科创建词条?
我们一个营销项目里面有四个百科词条的创建,在执行过程中遇见了快懂百科升级,创建词条请前往识典百科,看这个意思字节跳动是要把快懂百科升级整合到识典百科了。 快懂百科升级整合进入识典百科 近年来,字节跳动动作不断࿰…...
入门python
[NOIP2006 普及组] 明明的随机数 题目描述 明明想在学校中请一些同学一起做一项问卷调查,为了实验的客观性,他先用计算机生成了 N N N 个 1 1 1 到 1000 1000 1000 之间的随机整数 ( N ≤ 100 ) (N\leq100) (N≤100),对于其中重复的数字…...
基于vue的黑马前端项目小兔鲜
目录 项目学习 初始化项目 建立项目 引入elementplus elementPlus主题设置 配置axios 路由 引入静态资源 自动导入scss变量 Layout页 组件结构快速搭建 字体图标渲染 一级导航渲染 吸顶导航交互实现 Pinia优化重复请求 Home页 分类实现 banner轮播图 …...
细节决定成败!jdbc的List<?> qryList4Sql(String sql)报错-标志符过长
问题产生背景: 在写sql时,想着简单直接就偷懒了,没有看清细节 操作步骤跟发现问题: 1. sql语句的执行选用的是jdbc提供的List<?> qryList4Sql(String sql) 方法 2,这是我的sql语句(简化处理) String sql "…...
ChatGLM Pytorch从0编写Transformer算法
预备工作 # !pip install http://download.pytorch.org/whl/cu80/torch-0.3.0.post4-cp36-cp36m-linux_x86_64.whl numpy matplotlib spacy torchtext seaborn import numpy as np import torch import torch.nn as nn import torch.nn.functional as F import math, copy, tim…...
9.18算法
机器人重物1126 注意编号是方块的,而不是格点的 及如果为n*m的矩阵,需要开(n1)*(m1)的矩阵 //如果没有转向,就是走迷宫,结合记忆化,如果这个点之前走过就不走了 //又转向的话,就用一个变量记录当前转向&…...
【Spring Bean的生命周期】
文章目录 Spring Bean的生命周期实例化构造器实例化工厂方法实例化 属性赋值XML方式注解方式 初始化postProcessBeforeInitialization()和postProcessAfterInitialization()InitializingBean接口的afterPropertiesSet()方法通过Bean注解定义的初始化方法使用PostConstruct注解标…...
信息化发展49
软件设计 1 、软件设计是需求分析的延伸与拓展。需求分析阶段解决“做什么” 的问题,而软件设计阶段解决“怎么做” 的问题。同时, 它也是系统实施的基础, 为系统实施工作做好铺垫。合理的软件设计方案既可以保证系统的质量, 也可…...
linux常用命令(4):mkdir命令(创建目录)
文章目录 一、命令简介二、命令格式三、常用示例 一、命令简介 mkdir(make directories)创建目录。 若指定目录不存在则创建目录。若指定目录已存在,则会提示已存在而不继续创建。 touch与mkdir的区别? 很多人可能会把这个搞混淆ÿ…...
企业架构LNMP学习笔记58
开始学习Tomcat: 学习目标和内容: 1)能够描述Tomcat的使用场景; 2)能够简单描述Tomcat的工作原理; 3)能够实现部署安装Tomcat; 4)能够实现和配置Tomcat的Server服务…...
[JAVAee]SpringBoot配置文件
配置文件的介绍 配置文件当中记录了许多重要的配置信息,例如: 数据库的连接信息(用户的账户与密码)项目的启动端口第三方系统的调用密匙用于记录问题产生的日志 在spring框架中一些特定的框架会自动调用配置文件中的配置信息来运用. 配置文件中的属性也起到了类似全局变量的…...
复制远程连接到Linux使用VIM打开的内容到Windows
我们经常是使用SSH工具远程连接到Linux服务器上进行工作,有时候需要将Linux下使用VIM打开的文件内容复制到Windows上来,默认情况下,可能会复制不了,因为VIM默认情况下是使用的set mousea的设置,它会让鼠标选中的时候进…...
左神算法之中级提升班(9)
目录 【案例1】 【题目描述】 【思路解析】 【代码实现】 【案例2】 【题目描述】 【思路解析 平凡解技巧 从业务中分析终止条件 重点】 【代码实现】 【案例3】 【题目描述】 【思路解析】 【案例4】 【题目描述】 【思路解析】 【代码实现】 【动态规划代码】…...
SmartNews 基于 Flink 的 Iceberg 实时数据湖实践
摘要:本文整理自 SmartNews 数据平台架构师 Apache Iceberg Contributor 戢清雨,在 Flink Forward Asia 2022 实时湖仓专场的分享。本篇内容主要分为五个部分: SmartNews 数据湖介绍基于 Icebergv1 格式的数据湖实践基于 Flink 实时更新的数据…...
天水嘉通建设集团网站/如何在手机上开自己的网站
目录一、简介二、常见类型转换1、转换为字符串2、转换为指定类型数组3、转换为日期对象4、转换为集合5、指定泛型6、转换为指定类型三、时间日期1、当前时间2、字符串转Date3、Date转字符串4、获取Date对象的某个部分5、开始和结束时间6、日期时间偏移7、日期时间对象-DateTime…...
西安优秀的集团门户网站建设费用/搜索引擎优化关键词
http://www.port80software.com/support/p80tools转载于:https://www.cnblogs.com/relang99/archive/2007/10/22/933085.html...
微信分销系统价格/seo优化代理
在日志中记录Java异常信息的正确姿势参考文章: (1)在日志中记录Java异常信息的正确姿势 (2)https://www.cnblogs.com/nuccch/p/11061929.html 备忘一下。...
西青做网站的公司/百度网页版登录
新建库: create database 库名;删除库: drop database 库名;使用数据库: use 库名;展示所有库: show databases;查看当前库名: select database();创建表格: create table显示数据库下所有数据表:show tables显示数据表结构:desc 表名对数据表进行重命名:rename 表名 to 新表名…...
番禺做网站的/个人网站模板免费下载
大家好,我是为人造的智能操碎了心的智能禅师。尽听说现在国内外一线互联网巨头,包括后起的独角兽,对 AI 人才的需求非常大,Google、Facebook 为了抢 AI 人才都快 battle 起来了。然而实际上,AI 岗位还是面临僧多粥少的…...
做美篇发网站/外链是什么意思
又来到了总结知识的时间了,今天又学了一些新的知识,是多线程和GDI的一些运用。 理论: 在学习多线程之前,首先要了解一下什么是进程? 进程:(关键字Process)进程是一个具有一定独立功能的程序关于某个数据集合…...