当前位置：首页 > news >正文

关于大数据

news 2026/2/8 9:02:10

在大数据背景下存在的问题：

非结构化、半结构化数据：NoSQL数据库只负责存储；程序处理时涉及到数据移动，速度慢
是否存在一套整体解决方案？

可以存储并处理海量结构化、半结构化、非结构化数据
处理海量数据的速度很快，且扩展性强

大数据：数据达到一定规模以后，对数据进行存储和计算的技术

大数据的特征包括：

数据规模巨大（Volume）
生成和处理速度极快（Velocity）
数据类型多样（Variety）
价值巨大但密度较低（Value）

场景

离线和实时区分：数据是否有界。
离线：数据产生以后存起来(如10G)，以后不会增加或减少，以后的计算都是这么大。（断网也可以断网）。--------适合批处理
实时：数据产生后直接计算。------适合流处理

生态

传统单机架构：比如在OS上安装了MySQL，OS为mysql提供了文件系统、通用计算(比如sql转成os的指令来执行)、资源管理。
大数据：有没有操作系统底层就是管理多个机器的？没有。所以我们要在软件层面来实现把OS构建成分布式的，然后这些分布式分别装不同组件。Hadoop

大数据开发的工作内容：
如果做数仓，就用sqoop把数据抽到HDFS，用spark或者mapreduce进行数据清洗，计算的结果放在Hive里或者sparksql。中间这些任务调度用Oozie或Azkaban。
对于流处理来说，用flume或lagstach去监控非结构化或半结构化的数据，用OGG/CDC监控数据库日志（结构化），把这些数据实时抽取到kafak，然后由流引擎，比如sparkes生态圈的spark streaming，或flink进行处理，数据处理之后再把结果存到HBase里进行保存或者es。

Hadoop分布式文件系统，有三个核心子项目(HDFS、Yarn、Mapreduce)，围绕着这三个子项目发展出来的生态就是Hadoop生态圈。

HDFS

关于大数据

相关文章：

关于大数据

9-收纳的知识

堆的实现——堆的应用（堆排序）

机器学习6-全连接神经网络2

基于 SpringBoot 的电影购票系统

C++SLT（三）——list

C++ Primer 算术运算符

数据结构-堆和PriorityQueue

【玩转 Postman 接口测试与开发2_017】第13章：在 Postman 中实现契约测试（Contract Testing）与 API 接口验证（下）

R语言 | 使用 ComplexHeatmap 绘制热图，分区并给对角线分区加黑边框

React图标库: 使用React Icons实现定制化图标效果

Python sider-ai-api库 — 访问Claude、llama、ChatGPT、gemini、o1等大模型API

DeepSeek、哪吒和数据库：厚积薄发的力量

DDD - 微服务架构模型_领域驱动设计（DDD）分层架构 vs 整洁架构（洋葱架构） vs 六边形架构（端口-适配器架构）

第 1 天：UE5 C++ 开发环境搭建，全流程指南

【华为OD-E卷 - 109 磁盘容量排序 100分（python、java、c++、js、c）】

【大数据技术】编写Python代码实现词频统计（python+hadoop+mapreduce+yarn）

5-Scene层级关系

JVM执行流程与架构（对应不同版本JDK）

本地部署 DeepSeek-R1：简单易上手，AI 随时可用！

Prompt Tuning、P-Tuning、Prefix Tuning的区别

连锁超市冷库节能解决方案：如何实现超市降本增效

【机器视觉】单目测距——运动结构恢复

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一）

零基础在实践中学习网络安全-皮卡丘靶场（第九期-Unsafe Fileupload模块）（yakit方式）

laravel8+vue3.0+element-plus搭建方法

LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf

Java毕业设计：WML信息查询与后端信息发布系统开发

GitFlow 工作模式（详解）

MacOS下Homebrew国内镜像加速指南（2025最新国内镜像加速）