2.1 初探大数据
文章目录
- 零、学习目标
- 一、导入新课
- 二、新课讲解
- (一)什么是大数据
- (二)大数据的特征
- 1、Volume - 数据量大
- 2、Variety - 数据多样
- 3、Velocity - 数据增速快
- 4、Value - 数据价值低
- 5、Veracity - 数据真实性
- (三)研究大数据的意义
- (四)拥抱大数据时代
- 1、第三次信息化浪潮
- 2、信息科技为大数据时代提供技术支撑
- (1)存储设备容量不断增加
- (2)CPU处理能力大幅提升
- (3)网络带宽不断增加,互联网容量不断增长
- (4)数据产生方式的变革促成大数据时代的来临
- 3、大数据发展历程
- 4、大数据应用广泛
- 5、大数据关键技术
- 6、大数据计算模式
- 7、了解大数据产业
- 8、大数据工程师技能树
- 9、大数据与云计算、物联网的关系
- (五)大数据发展趋势
- 1、大数据是一种生产资料
- 2、与物联网和5G的融合
- 3、大数据理论的突破
- 4、数据公开和标准化
- 5、数据安全
- 三、归纳总结
- 四、上机操作
零、学习目标
- 了解大数据的定义
- 理解大数据的特征
- 理解研究大数据的意义
一、导入新课
- 大数据的快速发展在无时无刻影响着我们的生活。在医疗方面,大数据能够帮助医生预测疾病;在电商方面,大数据能够向顾客个性化推荐商品;在交通方面,大数据能帮助人们选择最佳出行方案。本次课我们将针对大数据的相关知识进行详细讲解。
二、新课讲解
(一)什么是大数据
- 最早提出“大数据”这一概念的是全球知名咨询公司麦肯锡,他是这样定义大数据的:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度四大特征。
- 研究机构Gartner是这样定义大数据的:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流转优化能力来适应海量、高增长率和多样化的信息资产。
- 目前,学界对于大数据的概念主要有以下三种认识:第一,从大数据“大”的特征进行界定,强调大数据是海量数据的集合;第二,对大数据进行综合、全面的界定,大数据不仅包括数据本身,还包括与大数据相关的技术、人才、制度等;第三,从大数据的价值出发,强调大数据的核心价值在于背后所蕴藏的规律,这一观点以“大数据之父”舍恩伯格为代表。大数据本身就是个开放的理念,上述对大数据概念的不同界定,反映了学者们对大数据认识的多元化,他们从个人的知识结构和研究旨趣出发,对大数据有着不同角度的解读。
- 至于什么数据量算得上大数据,这个也没有一定的标准,一般来说,单机难以处理的数据量,就可以称得上大数据。
- 大数据和人工智能往往关系密切,人工智能算法必须依据数据才能构建合适的模型,以便用于预测和智能决策。当前,大数据技术已经在医药、电信、金融、安全监管、环保等领域广泛使用。
- 大数据时代,分布式的数据存储和查询模式可以对全量数据进行处理。举例来说,以前DNA和指纹数据库的建立,由于信息技术水平的限制,只能重点采集并存储部分人口的DNA和指纹数据,这种限制对于很多案件的侦破是非常不利的。而当我们步入大数据时代后,从理论上来讲,采集并存储全球人口的DNA和指纹信息是可行的。因此,建立全量的DNA和指纹数据库,这对DNA和指纹数据的比对工作来说,具有非常大的价值。
- 以前我们研究问题,主要研究几个要素之间的因果关系,例如通过经验、观察实验和数学等理论推导出一些公式,用于指导生产和生活。而在大数据时代,更多的是对几个要素之间相关性进行分析。例如,通过对电商平台上的购买行为进行分析,可以对用户进行画像,并根据用户的历史购买记录,来智能推荐他可能感兴趣的商品,这种分析对提升成单率来说至关重要。
- 基于大数据的推荐系统,可能比你自己都要了解你自己。这也是在大数据时代人类越来越关心个人隐私信息的安全问题的原因。
- 相关性分析是寻找因果关系的利器。可以说,相关分析和因果分析是互相促进的。如果多个因素之间有明显的相关性,那么就可以进一步研究其因果关系。
- 大数据的价值就在于从海量数据中,通过机器学习算法自动搜寻多个因素之间的相关性,这些相关性可以大大减少人工搜寻的时间。换句话说,人工从海量数据中往往很难发现多个因素之间的相关性,而这恰恰是机器学习比较擅长的领域。
(二)大数据的特征
- 大数据主要具有以下五个方面的典型特征,即大量(Volume)、多样(Varity)、高速(Velocity)、价值(Value)和真实(Veracity),即所谓的“5V”。
1、Volume - 数据量大
- 大数据场景下,对数据的采集、计算和存储所涉及的数量是非常庞大的,数据量往往多到单台计算机无法处理和存储,必须借助多台计算机构建的集群来分布式处理和存储。分布式存储要保证数据存储的安全性。如果某一个节点上的数据损坏,那么必须从其他节点上对损坏节点上的数据进行自动修复,这个过程中就需要数据的副本,同一份数据会复制多份,并分布式存储到不同的节点上。如果不借助大数据工具,自己实现一个分布式文件系统,那么其工作量非常大。因此,对于大数据的处理和存储来说,更好的方案就是选择一款开源的分布式文件系统。
- 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)人类在最近两年产生的数据量相当于之前产生的全部数据量;预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍。
- 随着物联网、电子商务、社会化网络的快速发展,全球大数据储量迅猛增长,成为大数据产业发展的基础。2017年全球大数据储量为21.6ZB,2018年全球大数据储量达到33ZB,增速达52.8%。随着信息科技的不断进步,中商产业研究院预计2022年全球大数据储量将达61.2ZB。
- 最新数据显示,中国的数据产生量约占全球数据产生量的23%,美国的数据产生量占比约为21%,EMEA(欧洲、中东、非洲)的数据产生量占比约为30%,APJxC(日本和亚太)数据产生量占比约为18%,全球其他地区数据产生量占比约为8%。
2、Variety - 数据多样
- 生物具有多样性,动物有哺乳动物、鸟类和冷血动物等,植物有苔藓植物、蕨类植物和种子植物等。多样的生物只有和谐相处,才是可持续发展之道。同样地,数据的载体也是多种多样,一般来说,可以分为结构化数据、非结构化数据和半结构化数据。其中很多业务数据都属于结构化数据,而是视频、音频和图像等都可划分为非结构化数据。在大数据时代下,非结构化数据从数量上来说占了大部分。因此,对视频、音频、图像和自然语言等非结构化数据的处理,也是当前大数据工具要攻克的重点。
- 大数据是由结构化和非结构化数据组成的,
10%
的结构化数据,存储在数据库中;90%
的非结构化数据,它们与人类信息密切相关。
3、Velocity - 数据增速快
- 以前由于数据采集手段落后、数据存储空间横向扩展困难,不能存储海量的数据,因此只会采集一些重要的数据,如财务数据、生产数据等。这就导致了高层管理人员在决策时,缺乏完整、统一的宏观数据作为数据支撑。在大数据时代,由于数据采集手段多样、数据可以分布式存储,因此当前很多企业都会尽可能地存储数据,其中不少企业中都有传感器或者视频探头,它们会产生大量的数据,形成一个数据流,这些数据流的产生都是非常迅速的,因此分析这些数据的软件系统必须做到高效地采集、处理和存储这些高速生成的数据。一般来说,大数据系统可以借助分布式集群构建的强大计算力,对海量数据进行快速处理。若处理数据的响应时间能到秒级,甚至毫秒级,那么其价值将非常大。实时大数据的处理,这也是目前众多大数据工具追求的一个重要能力。
- 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少。
- 1秒定律是互联网进入DT时代对数据处理速度的要求。当然并非严格的1秒,只是秒级的时间内给出结果,这也是大数据技术有别于传统数据技术的重要一点, 时间太长,就失去意义了。
- 目前,数据处理一直受限于两个方面。一个是以处理器为代表的硬件限制,处理器遵循着“摩尔定律”,折算后是年均提高52%的处理能力。而内存性能每年却只能提高9%,硬盘性能提速每年是6%。处理器与内存/硬盘的不匹配的性能导致了数据读取延迟等系列问题。就像我们的高速公路收费站,不同匝道蜂拥而来的车辆,却只有一个出入口通过,必然会带来漫长的拥堵。
- 另一个便是以数据库为代表的软件技术限制。涉及到海量数据存储技术、实时数据处理、高性能存储技术、检索技术、挖掘与分析技术等。也是经历了若干阶段(从OLTP/OLAP—ODS/DWD—MPP/DM)才得以实现当前可掌控的数据运算能力。2021年双“11.11”支付宝每秒成功处理14万笔交易,支付宝的支付峰值达到了每秒8.59万笔,远远领先世界纪录,马云在湖畔大学授课时也低调的宣称阿里大数据技术能力实为第一,并因此为傲,藐视BT。
4、Value - 数据价值低
- 大数据首先是数据量庞大,一般来说,都是PB级别的。但在特定场景下,真正有用的数据可能较少,即数据价值密度相对较低。从大数据中挖掘出有用的价值,如大海捞针一般。举例来说,交通部门为了更好地对道路交通安全进行监管,在重点的路口都设有违法抓拍系统,会对每辆车进行拍照,这个数据量非常巨大,其中有交通违法行为的车辆照片并不多,可以说是万里挑一。因此这个价值密度相对低,但是存储这些数据非常重要,其中某一些图片资料对于协助破案来说会起到至关重要的作用。
- 大数据的价值密度相对较低。数据的价值密度和数据的规模呈反相关,数据的规模越大,数据的价值密度越低。大数据最大的价值即在于从大量低价值密度数据中挖掘出对分析和预测等有价值的信息。相较于传统数据挖掘利用结构化的数据类型,大数据把目光也投向了非结构化的、非抽样的、包含全体的数据类型。这为大数据带来了更多的有效信息,但同时也增加了大量无价值的甚至是错误的信息。
- 现在有人提出大数据的第五个特征:数据的可靠性。它指在数据的生命周期内, 所有数据都是完全的、一致的和准确的程度。保证数据的完 整性意味着以准确的、真实的、完全地代表着实际发生的方 式收集、记录、报告和保存数据和信息。大数据时代带来的一个重要副作用是,很难区分真假数据,这也是当前大数据技术必须重点解决的问题之一。从当前大型Internet平台采用的方法来看,它通常是技术和管理的结合。
5、Veracity - 数据真实性
- 大数据场景下,由于数据来源的多样性,互相可以验证,因此数据的真实性往往比较高。这里说的真实性,是指数据的准确性和及时性。数据的真实性也是大数据可以形成数据资产的一个重要前提,只有真实、可信的数据才能挖掘出有用的价值。
- 大数据由于具有如上的特点,这就对大数据的信息化软件提出了非常高的要求。一般的软件系统是无法很好的处理大数据的。从技术上看,大数据与云计算密不可分。大数据无法用单台计算机进行存储和处理,而必须采用分布式架构,即必须依托云计算提供的分布式存储和计算能力。
(三)研究大数据的意义
- 现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流也越来越密切,生活也越来越便捷,然而大数据就是这个高科技时代的产物。阿里巴巴的创办人马云曾经说过,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,这显示出大数据对于阿里巴巴集团来说是举足轻重的。
- 有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在于“大”,而在于“有用”。数据的价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据,发掘其潜在价值,才是赢得核心竞争力的关键。
- 研究大数据,最重要的意义是预测。因为数据从根本上讲,是对过去和现在的归纳和总结,其本身不具备趋势和方向性的特征,但是我们可以应用大数据去了解事物发展的客观规律、了解人类行为,并且能够帮助我们改变过去的思维方式,建立新的数据思维模型,从而对未来进行预测和推测。知名互联网公司谷歌对其用户每天频繁搜索的词汇进行数据挖掘,从而进行相关的广告推广和商业研究。
(四)拥抱大数据时代
- 进入2012年,大数据(Big Data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
- 数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
- 正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
- 哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
1、第三次信息化浪潮
- 根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。当前我们正处于第三次信息浪潮(2010年前后),物联网、云计算和大数据技术突飞猛进。 信息爆炸是我们当前所需要解决的主要问题。
信息化浪潮 | 发生时间 | 标志 | 解决问题 | 代表企业 |
---|---|---|---|---|
第一次浪潮 | 1980年前后 | 个人计算机 | 信息处理 | Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 |
第二次浪潮 | 1995年前后 | 互联网 | 信息传输 | 雅虎、谷歌、阿里巴巴、百度、腾讯等 |
第三次浪潮 | 2010年前后 | 物联网、云计算和大数据 | 信息爆炸 | 将涌现出一批新的市场标杆企业 |
2、信息科技为大数据时代提供技术支撑
(1)存储设备容量不断增加
- 单位存储空间价格不断降低,开始倾向于将更多的数据保存下来
(2)CPU处理能力大幅提升
- 摩尔定律:CPU性能大约每隔18个月提高一倍,价格下降一半
(3)网络带宽不断增加,互联网容量不断增长
- 4G(100Mbps) ⟹ \Longrightarrow ⟹ 5G(1Gbps)
- 全球网络带宽的增长在很大程度上反映互联网容量的增长,两者在2017年至2021年之间的复合年增长率均为29%。香港IDC新天域互联还了解到,总体来看,国际总带宽已达到786Tbps。
(4)数据产生方式的变革促成大数据时代的来临
- 传统大型商业领域运营数据产生方式的变化促进了传统数据库技术、SQL、大型商业数据中心、全球商业数据网络等新的数据技术的发展,为数据提供存储和处理。互联网数据产生方式的变化与海底电缆、全球定位系统、移动通信3个信息核心技术的发展紧密相关。物联网(IoT)加快了数据产生方式的变革。
- GB( 1 0 9 10^9 109) ⟹ \Longrightarrow ⟹TB( 1 0 12 10^{12} 1012) ⟹ \Longrightarrow ⟹PB( 1 0 16 10^{16} 1016) ⟹ \Longrightarrow ⟹EB( 1 0 19 10^{19} 1019) ⟹ \Longrightarrow ⟹ZB( 1 0 21 10^{21} 1021) ⟹ \Longrightarrow ⟹YB( 1 0 24 10^{24} 1024) ⟹ \Longrightarrow ⟹BB( 1 0 27 10^{27} 1027) ⟹ \Longrightarrow ⟹NB( 1 0 30 10^{30} 1030) ⟹ \Longrightarrow ⟹DB( 1 0 33 10^{33} 1033) ⟹ \Longrightarrow ⟹CB( 1 0 36 10^{36} 1036) ⟹ \Longrightarrow ⟹XB( 1 0 39 10^{39} 1039)
- 大数据从哪里来?
3、大数据发展历程
- 上世纪末,是大数据的萌芽期,处于数据挖掘技术阶段。随着数据挖掘理论和数据库技术的成熟,一些商业智能工具和知识管理技术开始被应用。
- 2003年-2006年是大数据发展的突破期,社交网络的流行导致大量非结构化数据出现,传统处理方法难以应对,数据处理系统、数据库架构开始重新思考。
- 2006年—2009年,大数据形成并行计算和分布式系统,为大数据发展的成熟期。
- 2010年以来,随着智能手机应用,数据碎片化、分布式、流媒体特征更加明显,移动数据急剧增长。
- 2011年麦肯锡全球研究院发布《大数据:下一个创新、竞争和生产力的前沿》,2012年维克托·舍恩伯格《大数据时代:生活、工作与思维的大变革》宣传推广,大数据概念开始风靡全球。
- 2013年5月,麦肯锡全球研究所发布了一份名为《颠覆性技术:技术改进生活、商业和全球经济》的研究报告,报告确认了未来12种新兴技术,而大数据是这其中需求技术的基石。
- 2014年5月,美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇,守护价值》。报告鼓励使用数据推动社会进步。
阶段 | 时间 | 内容 |
---|---|---|
第一个阶段:萌芽期 | 上世纪90年代至本世纪初 | 随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。 |
第二个阶段:成熟期 | 本世纪前十年 | Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道。 |
第三个阶段:大规模应用期 | 2010年以后 | 大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高。 |
4、大数据应用广泛
- 大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹。
- 目前,大数据已不只停留在概念阶段,而是在各领域成功落地,并取得了丰硕的成果。大数据已经渗透到生活中的各个方面,距离我们最近且与我们生活息息相关的大数据项目有交通大数据、医疗大数据、金融大数据、社交媒体大数据、互联网大数据等。如此多的大数据项目能够成功落地,关键原因在于数据来源的多样化,数据量的爆发式增长,新兴技术的快速发展,以及市场创新需求的不断增多,这为各种大数据项目提供了庞大的数据源,通过多种技术的综合应用,可不断挖掘出大数据背后的社会价值和商业价值。
5、大数据关键技术
- 大数据关键技术涉及数据采集、数据存储与管理、数据处理与分析、数据隐私与安全多个技术层面
技术层面 | 功能 |
---|---|
数据采集 | 利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析。 |
数据存储与管理 | 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理。 |
数据处理与分析 | 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据。 |
数据隐私与安全 | 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。 |
- 大数据两个核心技术
6、大数据计算模式
大数据计算模式 | 解决问题 | 代表产品 |
---|---|---|
批处理计算 | 针对大规模数据的批处理 | MapReduce、Spark等 |
流计算 | 针对流数据的实时处理 | Storm、S4、Stream、Puma、DStream、Super Mario、银河流数据处理平台等 |
图计算 | 针对大规模图结构数据的处理 | Pregel、Graphx、PowerGraph、Hama、GoldenOrb等 |
查询分析计算 | 大规模数据的存储管理和查询分析 | Dremel、Hive、Cassandra、Impala等 |
7、了解大数据产业
- 大数据产业,以数据为核心,大数据是一个以数据为核心的产业,是一个围绕大数据生命周期不断循环往复的生产过程,同时也是由多种行业分工和协同配合而产生的一个复合性极高的行业。互联网时代,数据就是企业发展的生命,金融业、零售业、物流业、制造业等行业都拥有大量的数据作为企业核心的支撑,同时也在高速发展当中,面对此情形,数据处理会变得更加复杂,随着国家大数据纲要的发布,大数据产业发展将提升到国家战略层次。
- 大数据产业现在需要大量人才,一种为熟悉大数据算法、数据架构、系统研发等对技术要求高的专业人才。另一种是从事产业大数据推广人才,从现状来看,培养体系的不完整,人才培养无法满足大数据的发展需求。大数据产业是一个万亿级别的产业,这是毋庸置疑的。这么大的一个蛋糕,怎么分,能够分得多少,那就要看自己的本事了。贵阳现在的大数据产业规模三千个亿至少是有的,拉动了很多人才过来这也是存在的。
产业链环节 | 包含内容 |
---|---|
IT基础设施层 | 包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的BM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等 |
数据源层 | 大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等〉、搜索引擎大数据(百度、谷歌等〉等各种数据的来源 |
数据管理层 | 包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、sQL Server、HBase、GreenPlum等) |
数据分析层 | 包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy. Cognos、BO)等等 |
数据平台层 | 包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等 |
数据应用层 | 提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等 |
8、大数据工程师技能树
- 要成为合格的大数据工程师,需要掌握大数据技术栈……
- 关于大数据开发工程师需要具备的技能,需要充分了解一下当前大数据的几个就业方向,可以参考下主流互联网行业的部门架构、职责和JD,大数据开发工程师,总体来说有这么几类,不同的公司叫法不一样:① 数仓开发工程师;② 算法挖掘工程师;③ 大数据平台开发工程师(应用);④ 大数据前端开发工程师
9、大数据与云计算、物联网的关系
- 云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。
(五)大数据发展趋势
1、大数据是一种生产资料
- 目前人类已经步入数字经济时代,大数据是非常重要的一种生产资料,与土地、石油等资源作为重要的生产资料类似,数字经济时代以大数据作为最基础也是最重要的生产资料。
- 在大数据时代,信息的载体是数据。对于数据的分析与挖掘来说,其实质是生产各类信息产品,这些信息产品可以看作是一种数字商品,是可以产生实际价值的资产。若将大数据比作土地,那么基于大数据分析和挖掘出的信息产品,就好比在土地上种植出来的各种农产品。
2、与物联网和5G的融合
- 大数据的基础是数据,而产生数据的源头更多是来自物联网和5G。物联网、移动互联网和5G等新兴技术,将进一步助力大数据的发展,让大数据为企业管理决策和政府决策提供更大的价值。特别是5G技术的推广,将进一步提升大数据的应用。
3、大数据理论的突破
- 随着5G的发展,大数据很可能爆发新一轮的技术革命。人类处理信息往往借助视频、图像和声音(语言),因此大数据技术目前正在与机器学习、人工智能等相关技术进行深度结合,在视频、图像和语音的处理上,必须在理论上继续突破,才可能实现科学技术上的突破。视频中的行为检测、图像物体识别和语音识别等应用会产生极大的经济效益和社会效益。
4、数据公开和标准化
- 数据作为一种重要的资产,只有流动起来才能更好地发挥价值。就像河里的水一样,只有流到田间地头对庄家进行灌溉,才能生产出农产品。数据在流转的过程中,数据的标准化非常重要,这样才能打破信息孤岛,从而更好地让数据产生价值。
5、数据安全
- 大数据中涉及各类数据,其中难免有敏感的数据,数据在流转过程中,如何对敏感数据进行加密和脱敏,这将至关重要
三、归纳总结
- 回顾本节课所讲的内容,并通过提问的方式引导学生解答问题并给予指导。
四、上机操作
- 形式:单独完成
- 题目:谈谈你对大数据时代的理解
- 要求:收集资料,谈谈大数据时代对我们工作、学习和生活的影响。写一篇CSDN博客,要求图文并茂,并且不少于800字。
相关文章:
2.1 初探大数据
文章目录 零、学习目标一、导入新课二、新课讲解(一)什么是大数据(二)大数据的特征1、Volume - 数据量大2、Variety - 数据多样3、Velocity - 数据增速快4、Value - 数据价值低5、Veracity - 数据真实性 (三࿰…...
论自动化测试中的xpath | 多语言测试最新案例
XPath(XML Path Language)是一门在XML文档中查找信息的语言。XPath是XML处理中非常重要的组成部分,能大大简化文档的解析和处理。它与XSLT、XPointer等标准一起被广泛应用于XML的解析处理。 一般情况下,xpath主要应用在以下几个方…...
CSS基础详细解析(附带综合小练习)
目标:掌握 CSS 属性基本写法,能够使用文字相关属性美化文章页。 01-CSS初体验 层叠样式表 (Cascading Style Sheets,缩写为 CSS),是一种 样式表 语言,用来描述 HTML 文档的呈现(美化内容&#…...
react中ant.design框架配置动态路由
目录 什么是动态路由? 应用场景: ant.design动态路由如何配置: 首先:找到app.tsx文件 然后:找到menuHeaderRender 其次:修改menuHeaderRender为menuDataRender编辑 最后:在箭头函数里re…...
Linux运行环境搭建系列-Openresty安装
安装Openresty 构建环境:腾讯云CentOS 7.9。 更新云库 yum update添加&&安装云库 wget https://openresty.org/package/centos/openresty.repo sudo mv openresty.repo /etc/yum.repos.d/ sudo yum check-update sudo yum install openresty安装命令行工具…...
React TreeSelect设置默认展开项的方法
需要实现TreeSelect组件的onTreeExpand、treeExpandedKeys方法。 代码样例如下: 1.TreeSelect标签部分 render() {const {codeselect} this.props;const {treeExpandedKeys} this.state ................<TreeSelectshowSearch{false}dropdownStyle{{ maxHei…...
Golang基础学习笔记
Golang基础学习笔记 1、下载安装 1.1、下载 Golang下载地址:https://golang.google.cn/dl/ 1.2、安装 1.3、环境变量 # GOPATH D:\GolandProjects# GOPROXY https://mirrors.aliyun.com/goproxy# 启用Go模块支持 go env -w GO111MODULEon1.5、验证安装/配置 1.…...
ES _bulk 批量操作用法
es 的 bulk 操作,是用来批量发送请求,或者理解为批量操作的。 支持4种操作 bulk 支持多种操作,如下create、index、update、delete。 create 如果文档不存在就创建,但如果文档存在就返回错误index 如果文档不存在就创建&#x…...
LCR 176.判断是否为平衡二叉树
题目来源: leetcode题目,网址:LCR 176. 判断是否为平衡二叉树 - 力扣(LeetCode) 解题思路: 若树中任意节点左子树是平衡二叉树,右子树是平衡二叉树 且该节点左右子树平衡,则该树…...
跨境商城源码有哪些独特的功能和优势
1. 强大的跨境支付功能 跨境商城源码具备强大的跨境支付功能,支持多种支付方式,包括信用卡、支付宝、微信支付等。该功能遵循国际支付标准,能够确保支付过程的安全性和可靠性,为用户提供便捷的跨境购物体验。 2. 多语言和多货币支…...
latex如何对.pdf格式的图片实现裁剪
目录 问题描述: 问题解决: 问题描述: 在使用draw.io进行绘图,导出的时候不知道为什么周围会有留白,比如下图: 在导入latex的时候,会因为两侧的留白导致整张图片缩小。 如果直接进行裁剪.pdf&a…...
windows10下 iperf3测试带宽
iperf3下载网址:iPerf - Download iPerf3 and original iPerf pre-compiled binaries 可以用来测试TCP以及UDP带宽质量 通俗来说是用来测试网速的 准备:两台设备 1. 根据自己的设备选择下载工具(两台都要有,这里我用的Window…...
Stratasys F170 3D打印教程
目录 0. 引言1. 3D打印技术1.1 3D 打印概述1.2 3D打印成型技术的工艺1.3 3D打印材料2. Stratasys F170 3D打印机2.1 Stratasys F170 特点及使用说明3. 打印步骤3.1 导出加工模型3.2 导入模型到GrabCAD Print3.2.1 GrabCAD Print 基本操作步骤4. 常见问题及解决方案参考文献0. 引…...
以太坊 CALL 数据解析【ETH】
文章目录 前言代码前言 当我们通过 jsonrpc CALL 获取到数据时,不可读,怎么办? 这里直接给大家一个工具类 代码 package trace// author JavaPub shiyuwangimport ("encoding/json""fmt""io/ioutil""net/http""strings&qu…...
Xilinx IP 10G Ethernet PCS/PMA IP Core
Vivado 10G Ethernet PCS/PMA介绍 1介绍 完整的10G以太网接口如下图,分为10G PHY和10G MAC两部分。 这篇文章重点讲 10G Ethernet PCS/PMA。 2 IP的基本介绍 10G以太网物理编码子层/物理介质连接(PCS/PMA)核心在Xilinx 10G以太网介质访问控制器(MAC)核心和具有10Gb/s…...
软件设计师_面向对象_学习笔记
文章目录 1 面向对象基本概念2 设计模式3 UML4 设计模式4.1 设计模式的基本概念4.2 设计模式的分类4.3 创建型模式 1 面向对象基本概念 2 设计模式 3 UML 4 设计模式 4.1 设计模式的基本概念 模式:通俗的来说就是成功方案的复用。 架构模式从全局看待问题。设计模式…...
行业追踪,2023-10-16
自动复盘 2023-10-16 凡所有相,皆是虚妄。若见诸相非相,即见如来。 k 线图是最好的老师,每天持续发布板块的rps排名,追踪板块,板块来开仓,板块去清仓,丢弃自以为是的想法,板块去留让…...
ubuntu深度学习配置
1.删除旧cuca,旧显卡驱动 sudo apt-get --purge remove "*cublas*" "*cufft*" "*curand*" "*cusolver*" "*cusparse*" "*npp*" "*nvjpeg*" "cuda*" "nsight*" sudo…...
大数据flink篇之三-flink运行环境安装后续一yarn-session安装
前提: Hadoop 必須保证在 2.2 以上,且必須裝有 hdfs 服务。Hadoop安装后续会有相关说明。 具体的,在生产环境中,flink一般会交由yarn、k8s等资源管理平台来处理。本章主要讲解yarn模式下的session cluster模式。 flink Session-C…...
Chrome Extensions v3 迁移清单
一、前置问题 1.1为什么需要迁移 v3? Chrome 计划完全停止 v2 版本维护,后续 v2 版本将无法上架谷歌插件商店,除此之外,未来新版本 Chrome 对于 v2 版本插件的限制会越来越大,比如安全性限制 iframe 嵌套只能通过沙盒…...
TCP/IP(十二)TCP的确认、超时、重传机制
一 TCP的确认应答机制 确认应答机制: 每次收到数据 都会 给对端发送一个应答报文(ACK) ① 带重传的肯定确认 确认机制: 超时 重传的 肯定 确认 --> 完成了两个作用,或者说有两个含义1、肯定[正确] 确认小结: 我的确认信息是针对正确数据做确认,而不是错误…...
C/C++陷阱——临时变量的产生和特性
C/C陷阱——临时变量的产生和特性 在学习C常引用时,有这样一段代码引起了我的注意: int a 1; double& b a;当我编译这段代码时,竟然报错了: 按理来说,初始化引用时不能涉及权限的放大(如用const in…...
【音视频|ALSA】SS528开发板编译Linux内核ALSA驱动、移植alsa-lib、采集与播放usb耳机声音
😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…...
C/C++基础讲解(一百三十一)之经典篇(信息合并/平均分数存储)
C/C++基础讲解(一百三十一)之经典篇(信息合并/平均分数存储) 程序之美 前言 很多时候,特别是刚步入大学的学子们,对于刚刚开展的计算机课程基本上是一团迷雾,想要弄明白其中的奥秘,真的要花费一些功夫,我和大家一样都是这么啃过来的,从不知到知知,懵懂到入门,每一步…...
【ROS】使用vscode浏览navigation2源码时,提示:没有那个文件或目录
【ROS】郭老二博文之:ROS目录 1、问题描述 使用vscode浏览navigation2源码时,头文件下面有波浪线,并提示:没有那个文件或目录。比如没有:geometry_msgs/msg/polygon.h 错误信息: 无法打开源文件 “geometry_msgs/msg/polygon.h” (dependency of “nav2_controller/co…...
ARM-day9作业
main.c: #include "uart.h"#include "key_it.h"int main(){char c;char *s;uart4_init(); //串口初始化//中断初始化key_it_config();key3_it_config();//完成GPIO相关初始化all_led_init();//风扇初始化fs_init();//蜂鸣器初始化fmq_init();while(1){…...
ORA-00600: internal error code, arguments
通过rman将11g异机升级到19c时,应用归档时报错,报错如下 RMAN> recover database ; Starting recover at 2023-10-15 21:10:02 allocated channel: ORA_DISK_1 channel ORA_DISK_1: SID5776 device typeDISK starting media recovery media recove…...
C#里氏替换
在C#中,里氏替换原则是面向对象编程中的一个重要原则,它是关于继承和多态性的概念。 里氏替换原则的定义是:如果S是T的子类型(或者T是S的基类型),那么程序中任意使用T类型的地方都可以替换为S类型而不会产…...
Java-使用sqlSessionTemplate实现批量更新-模拟mybatis 动态sql
环境准备(非核心方法) 创建表 创建表的sql(下表是基于Oracle创建的) CREATE TABLE "SYSTEM"."STUDENT" ("ID" NUMBER(10, 0),"NAME" VARCHAR2(20 BYTE),"ADDRES" CLOB,PRIMARY KEY ( …...
Eslint配置 Must use import to load ES Module(已解决)
最近在配置前端项目时,eslint经常会碰到各种报错(灰常头疼~) Syntax Error Error No ESLint configuration found.Syntax Error: Error: D:\dmq\dmq-ui.eslintrc.js: Environment key “es2021” is unknown at Array.forEach ()error in ./…...
做直播的网站有哪些/seo短视频入口
#############################################本文为极度寒冰原创,转载请注明出处#############################################引言使在Android N的系统上,初次使用了Ninja的编译系统。对于Ninja,最初的印象是用在了Chromium open sourc…...
网站支持asp/杭州seo技术培训
iOS 获取图片有三种方法: 1. 直接调用摄像头拍照 2. 从相册中选择 3. 从图库中选择 UIImagePickerController 是系统提供的用来获取图片和视频的接口; 用UIImagePickerController 类来获取图片视频,大体分为以下几个步骤: 1. 初始…...
做图文链接网站/一个新手如何推销产品
Windows 10系统是微软独立发布的最后一个Windows版本,下一代Windows都将作为更新形式出现,因此,WIN10都会开启自动更新,当我们使用电脑WIN10的时候,老是提示我们需要更新系统,很烦人,那么怎么关…...
wordpress配置qq邮箱/谷歌推广怎么开户
erp5开源制造业erp集群部署指南 1 独立服务器安装mariadb 2 独立服务器安装memcache缓存 3 独立服务器安装zeo 4 1-n台服务器安装zope(erp5) 5 独立服务器安装apache代理,对外提供访问url...
网站空间租用有哪些服务/seo课程排行榜
塑造肌肤纹理 步骤如下: 两种方法 第一种方式:自己制造噪点 打开原图新建一层编辑-填充-内容填充50%中性灰滤镜-增加杂色-默认参数就行滤镜-高斯模糊图层混合模式修改成线性光 第二种方式:利用原来好的皮肤提取纹理 先把皮肤好的人的纹理…...
wordpress 鲜果/深圳高端网站建设公司
第一种方法,你可以使用xlsread函数来读取excel中的数据第二种方法,就是把字符转化为数字,使用函数str2numxlsread的使用EXAMPLES:1. Default operation:NUMERIC xlsread(FILE);[NUMERIC,TXT]xlsread(FILE);[NUMERIC,TXT,RAW]xlsread(FILE);2…...