用最简单的方法对大数据进行处理 vs spark(不需要安装大数据处理工具)
一、大文件处理策略
(一)、难点
-
内存管理:
大文件无法一次性加载到内存中,因为这可能会导致内存溢出(OutOfMemoryError)。因此,需要使用流(Stream)或缓冲区(Buffer)进行分块读取和处理。
-
性能优化:
I/O操作效率:频繁的磁盘读写会降低处理速度,优化I/O操作是关键。
CPU使用率:算法的效率直接影响CPU的负载和处理时间。缓存策略:合理利用缓存可以减少磁盘访问次数,提高性能。
-
错误处理:
文件不存在、文件损坏、磁盘空间不足等异常情况需要妥善处理,确保程序的健壮性和稳定性。 -
并发处理:
对于非常大的文件,使用多线程或多进程可以加速处理过程。但这也带来了同步和通信的复杂性。
分布式处理:在极端情况下,可能需要使用分布式系统来分散负载,但这会引入更多的复杂度和潜在的网络延迟。 -
数据完整性:
在处理过程中保证数据的完整性和一致性,特别是在进行数据转换或清洗时。 -
资源回收:
确保及时释放不再需要的资源,如关闭文件流和释放内存,避免资源泄露。 -
批处理与增量处理:
需要考虑是处理整个文件还是只处理自上次处理以来新增或更改的数据。 -
日志记录与监控:
记录处理过程中的关键信息,以便于调试和监控处理进度。 -
安全性:
在处理敏感数据时,需要考虑数据的安全性和隐私保护。 -
用户交互:
如果处理过程涉及用户界面,需要提供进度指示和取消选项,以增强用户体验。
(二)、方案选择
-
流式处理
描述:使用流(如 Java 中的 InputStream 和 OutputStream 或 Python 中的 open 函数)逐行或逐块读取和写入文件,而不是一次性加载整个文件到内存中。
优点:低内存占用,适用于任何大小的文件。
适用场景:文件解析、数据清洗、日志分析等。 -
分块处理
描述:将大文件分割成多个小块,分别处理后再合并结果。
优点:可以并行处理,提高效率;易于故障恢复。
适用场景:大数据分析、大规模数据迁移、文件转换等。 -
并发/多线程处理
描述:利用多核处理器的能力,通过多线程或进程并行处理文件的不同部分。
优点:显著提升处理速度。
适用场景:高性能计算、实时数据分析。 -
分布式处理
描述:使用分布式系统(如 Hadoop、Spark)将文件切片分发到多个节点上进行处理。
优点:能够处理PB级别的数据,高度可扩展。
适用场景:大数据分析、机器学习训练、海量数据存储和检索。 -
云存储和处理
描述:利用云服务提供商的存储和计算资源进行文件处理。
优点:弹性伸缩,按需付费,无需维护硬件。
适用场景:跨地域协作、弹性需求高的项目。 -
数据压缩和解压
描述:在处理前后对文件进行压缩和解压,减少存储空间和传输时间。
优点:节省存储成本,加快传输速度。
适用场景:长期存储、远程传输大文件。 -
数据库导入导出
描述:将文件数据导入数据库进行处理,再导出结果。
优点:利用数据库的查询优化和事务处理能力。
适用场景:需要复杂查询和事务支持的场景。 -
实时流处理
描述:使用流处理框架(如 Apache Kafka、Apache Flink)处理持续生成的数据流。
优点:低延迟,支持实时分析和响应。
适用场景:实时监控、在线广告、物联网数据处理。 -
专用工具和软件
描述:使用专门设计用于大文件处理的工具和软件,如 WinRAR、7-Zip、Ftrans Sync、Raysync、IBM Aspera 等。
优点:特定功能强大,易于集成。
适用场景:特定领域的文件同步、备份、传输。 -
硬件加速
描述:利用GPU、FPGA等硬件加速计算密集型任务。
优点:大幅提高计算速度。
适用场景:深度学习、图形渲染、科学计算。
二、大文件处理语言选择(Python vs Java)
(一)、Python的优势
- 简洁性:Python的语法通常更简洁,易于编写和维护,这在处理大文件时意味着更快的开发周期。
- 生态系统:Python拥有丰富的库和框架,如Pandas、NumPy、Dask等,这些工具可以高效地处理和分析大量数据。
- 动态类型:Python的动态类型使得快速原型开发和迭代变得容易,尤其是在探索性数据分析中。
- 社区支持:Python社区活跃,遇到问题时很容易找到解决方案和资源。
(二)、Java的优势
- 性能:Java通常在执行速度上有优势,尤其是对于长时间运行的任务,JIT编译器可以优化代码执行。
- 静态类型:静态类型检查可以在编译时捕获更多错误,有助于构建更健壮的应用程序。
- 企业级支持:Java在企业环境中更为常见,特别是在处理大规模数据集和分布式系统中,如Hadoop和Spark,这些都是基于Java生态的。
- 垃圾回收:虽然垃圾回收有时会导致性能下降,但在处理大文件时,良好的内存管理可以防止内存泄漏。
(三)、具体性能对比
- I/O操作:Java和Python都可以有效地处理流式I/O,但是Java在某些情况下可能提供更好的I/O性能,特别是当使用NIO(非阻塞I/O)时。
- 多线程和并发:Java的多线程模型较为成熟,可以更有效地利用多核处理器进行并行处理。Python受到全局解释器锁(GIL)的限制,在多线程CPU密集型任务上表现不佳,但对于I/O密集型任务,如文件读写,多线程仍然有效。
- 库和框架:Python的科学计算和数据分析库(如Pandas和NumPy)提供了高性能的数组操作和数据结构,而Java则依赖于其强大的标准库和第三方库,如Apache Commons。
(四)、结论
对于数据科学家和需要快速原型开发的场景,Python可能是更优的选择。
对于需要更高执行性能、大规模分布式数据处理或企业级应用,Java可能是更合适的选择。
当涉及到复杂的业务逻辑和需要严格类型检查的场景时,Java的静态类型和丰富的企业级框架可能更有优势。
最终,选择哪种语言取决于具体的需求、团队的技能和项目的长期目标。在某些情况下,可能需要结合使用这两种语言,例如,使用Python进行数据预处理和分析,然后使用Java进行大规模数据处理和部署。
三、大文件处理具体案例
(一)、方案选择
用流式方式处理大文件。允许程序逐行或逐块读取文件,而不需要将整个文件加载到内存中。这种方法特别适合内存有限的情况,因为它只需要足够的内存来处理当前正在读取的部分,从而降低了内存消耗,同时提供了更高的灵活性来处理各种数据格式。
不会跟pandas一样存在内存不足的现象,或者分隔符不支持的情况。
(二)、python流式处理
- 这个方式处理其实很简单。如果想直接用,只需要修改input_file_path 的文件路径和output_dir_path 输出路径
import os
from datetime import datetimedef split_large_csv(input_file_path, output_dir_path, rows_per_file=10_000_000):# temp_delimiter = '|' # 选择一个不太可能出现在数据中的字符作为临时分隔符# delimiter="^^"header_written = Falsetry:with open(input_file_path, 'r', encoding='utf-8') as infile:header = infile.readline().strip() # 读取表头行current_file_number = 0current_row_number = 0outfile = Nonefor line in infile:if current_row_number % rows_per_file == 0:# 开始新文件if outfile is not None:outfile.close()file_name = f"output_{current_file_number}_{datetime.now().strftime('%Y%m%d_%H%M%S')}.csv"outfile = open(os.path.join(output_dir_path, file_name), 'w', encoding='utf-8')if not header_written: # 只写一次表头outfile.write(header + '\n')header_written = Truecurrent_file_number += 1# 替换原始分隔符为临时分隔符,然后写入文件# line = line.replace(delimiter, temp_delimiter)outfile.write(line)# 增加行计数器current_row_number += 1if outfile is not None:outfile.close()except Exception as e:print(e)# 调用函数
print(datetime.now())
input_file_path = r"G:\***\***.csv"
output_dir_path = r"G:\***\split1_python\\"
split_large_csv(input_file_path, output_dir_path)
print(datetime.now())
-
如果想更换分隔符可以把注的启动起来,temp_delimiter可以改成你自己想要的。
temp_delimiter = '|' # 选择一个不太可能出现在数据中的字符作为临时分隔符 delimiter="^^" line = line.replace(delimiter, temp_delimiter)
-
处理时间24G左右的文件,大约4分钟左右
2024-07-29 14:44:34.164749
2024-07-29 14:48:29.629815
(三)、java流式处理
- 这个方式处理其实很简单。如果想直接用,只需要修改INPUT_FILE_PATH 的文件路径和OUTPUT_DIR_PATH 输出路径
package org.springframework.my;import java.io.*;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.text.SimpleDateFormat;
import java.util.Date;public class split_csv {private static final int ROWS_PER_FILE = 10_000_000; // 每个文件的行数private static final String DELIMITER = "^^"; // CSV文件的分隔符private static final String INPUT_FILE_PATH = "G:\***\***.csv";private static final String OUTPUT_DIR_PATH = "G:\***\\split1\\";public static void main(String[] args) {System.out.println(new Date());try (BufferedReader reader = Files.newBufferedReader(Paths.get(INPUT_FILE_PATH))) {PrintWriter writer = null;String line;int currentFileNumber = 0;int currentRowNumber = 0;
// String headerLine = reader.readLine().replace(DELIMITER, "^"); // 读取表头行String headerLine = reader.readLine(); // 读取表头行while ((line = reader.readLine()) != null) {if (currentRowNumber % ROWS_PER_FILE == 0) {// 开始新文件if (writer != null) {writer.close();}String fileName = "output_" + currentFileNumber + "_" + new SimpleDateFormat("yyyyMMdd_HHmmss").format(new Date()) + ".csv";writer = new PrintWriter(new File(OUTPUT_DIR_PATH + fileName));// 将表头写入新文件writer.println(headerLine);currentFileNumber++;}// 写入当前行到文件writer.println(line);
// writer.println(line.replace(DELIMITER, "^"));// 增加行计数器currentRowNumber++;}if (writer != null) {writer.close();}} catch (IOException e) {e.printStackTrace();}System.out.println(new Date());}
}
-
如果想更换分隔符可以把注的启动起来,line.replace(DELIMITER, “^”) 中的"^"可以改成你自己想要的。
-
处理时间24G左右的文件,大约2分钟左右
Mon Jul 29 15:32:39 CST 2024
Mon Jul 29 15:34:48 CST 2024
(四)、总结
可以感受到以上流式处理方法简单易懂。 此外推荐使用java处理大文件分割,比python处理会快很多。有了这个思路之后,可以进行对文件进行其他的加工处理操作了。也可以看到并不是只能用spark等处理大文件。
spark处理大文件文章推荐:
pyspark使用windows单机处理100g以上csv,突破pandas内存限制
相关文章:

用最简单的方法对大数据进行处理 vs spark(不需要安装大数据处理工具)
一、大文件处理策略 (一)、难点 内存管理: 大文件无法一次性加载到内存中,因为这可能会导致内存溢出(OutOfMemoryError)。 因此,需要使用流(Stream)或缓冲区(…...

非线性校正算法在红外测温中的应用
非线性校正算法在红外测温中用于修正传感器输出与实际温度之间的非线性关系。红外传感器的输出信号(通常是电压或电流)与温度的关系理论上是线性的,但在实际应用中,由于传感器特性的限制,这种关系往往呈现出非线性。非…...

python----线程、进程、协程的区别及多线程详解
文章目录 一、线程、进程、协程区别二、创建线程1、函数创建2、类创建 三、线程锁1、Lock2、死锁2.1加锁之后处理业务逻辑,在释放锁之前抛出异常,这时的锁没有正常释放,当前的线程因为异常终止了,就会产生死锁。2.2开启两个或两个…...

将 magma example 改写成 cusolver example eqrf
1,简单安装Magma 1.1 下载编译 OpenBLAS $ git clone https://github.com/OpenMathLib/OpenBLAS.git $ cd OpenBLAS/ $ make -j DEBUG1 $ make install PREFIX/home/hipper/ex_magma/local_d/OpenBLAS/1.2 下载编译 magma $ git clone https://bitbucket.org/icl…...

微信小程序教程007:数据绑定
文章目录 数据绑定1、数据绑定原则2、在data中定义页面数据3、Mustache语法的格式4、Mustache应用场景5、绑定属性6、三元运算8、算数运算数据绑定 1、数据绑定原则 在data中定义数据在WXML中使用数据2、在data中定义页面数据 在页面对应的.js文件中,把数据定义到data对象中…...

Git -- git stash 暂存
使用 git 或多或少都会了解到 git stash 命令,但是可能未曾经常使用,下面简单介绍两种使用场景。 场景一:分支A开发,分支B解决bug 我们遇到最常见的例子就是,在当前分支 A 上开发写需求,但是 B 分支上有…...

基于YOLO的植物病害识别系统:从训练到部署全攻略
基于深度学习的植物叶片病害识别系统(UI界面YOLOv8/v7/v6/v5代码训练数据集) 1. 引言 在农业生产中,植物叶片病害是影响作物产量和质量的主要因素之一。传统的病害检测方法依赖于人工识别,效率低且易受主观因素影响。随着深度学…...

数据库开发:MySQL基础(二)
MySQL基础(二) 一、表的关联关系 在关系型数据库中,表之间可以通过关联关系进行连接和查询。关联关系是指两个或多个表之间的关系,通过共享相同的列或键来建立连接。常见的关联关系有三种类型:一对多关系,…...

实现物理数据库迁移到云上
实现物理数据库迁移到云上 以下是一个PHP脚本,用于实现物理数据库迁移到云上的步骤: <?php// 评估和规划 $databaseSize "100GB"; $performanceRequirements "high"; $dataComplexity "medium";$cloudProvider &…...

[Spring] MyBatis操作数据库(进阶)
🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…...

【Websim.ai】一句话让AI帮你生成一个网页
【Websim.ai】一句话让AI帮你生成一个网页 网站链接 websim.ai 简介 websim.ai接入了Claude Sonnet 3.5,GPT-4o等常用的LLM,只需要在websim.ai的官网指令栏中编写相关指令,有点类似大模型的Prompt,指令的好坏决定了网页生成的…...

云计算实训16——关于web,http协议,https协议,apache,nginx的学习与认知
一、web基本概念和常识 1.Web Web 服务是动态的、可交互的、跨平台的和图形化的为⽤户提供的⼀种在互联⽹上浏览信息的服务。 2.web服务器(web server) 也称HTTP服务器(HTTP server),主要有 Nginx、Apache、Tomcat 等。…...

2024年必备技能:小红书笔记评论自动采集,零基础也能学会的方法
摘要: 面对信息爆炸的2024年,小红书作为热门社交平台,其笔记评论成为市场洞察的金矿。本文将手把手教你,即便编程零基础,也能轻松学会利用Python自动化采集小红书笔记评论,解锁营销新策略,提升…...

【Gitlab】SSH配置和克隆仓库
生成SSH Key ssh-keygen -t rsa -b 4096 私钥文件: id_rsa 公钥文件:id_rsa.pub 复制生成的ssh公钥到此处 克隆仓库 git clone repo-address 需要进行推送和同步来更新本地和服务器的文件 推送更新内容 git push <remote><branch> 拉取更新内容 git pull &…...

[Day 35] 區塊鏈與人工智能的聯動應用:理論、技術與實踐
區塊鏈的分布式存儲技術 區塊鏈技術自2008年比特幣白皮書發表以來,已經成為一種革命性的技術,帶來了許多創新。區塊鏈本質上是一個去中心化的分布式賬本,每個節點都持有賬本的副本,並參與記錄和驗證交易。分布式存儲是區塊鏈的重…...

Vue 3 中使用 inMap.js 实现蜂窝热力图的可视化
本文由ScriptEcho平台提供技术支持 项目地址:传送门 Vue 3 中使用 inMap.js 实现蜂窝热力图的可视化 应用场景介绍 蜂窝热力图是一种可视化技术,用于在地图上显示数据的分布情况。它将数据点划分为六边形单元格,并根据单元格内数据的密度…...

nginx隐藏server及版本号
1、背景 为了提高nginx服务器的安全性,降低被攻击的风险,需要隐藏nginx的server和版本号。 2、隐藏nginx版本号 在 http {—}里加上 server_tokens off; 如: http {……省略sendfile on;tcp_nopush on;keepalive_timeout 60;tcp_nodelay o…...

Oracle DBMS_XPLAN包
DBMS_XPLAN 包的解释和关键点 DBMS_XPLAN 包是 Oracle 数据库中一个重要的工具,它允许数据库管理员和开发人员以各种方式显示 SQL 语句的执行计划,这对于 SQL 优化和性能诊断至关重要。以下是主要函数及其描述: 用于显示执行计划的主要函数…...

【ffmpeg命令入门】分离音视频流
文章目录 前言音视频交错存储概念为什么要进行音视频交错存储:为什么要分离音视频流: 去除音频去除视频 总结 前言 FFmpeg 是一款强大的多媒体处理工具,广泛应用于音视频的录制、转换和流媒体处理等领域。它支持几乎所有的音频和视频格式&am…...

小红书笔记评论采集全攻略:三种高效方法教你批量导出
摘要: 本文将深入探讨如何利用Python高效采集小红书平台上的笔记评论,通过三种实战策略,手把手教你实现批量数据导出。无论是市场分析、竞品监测还是用户反馈收集,这些技巧都将为你解锁新效率。 一、引言:小红书数据…...

实战:ZooKeeper 操作命令和集群部署
ZooKeeper 操作命令 ZooKeeper的操作命令主要用于对ZooKeeper服务中的节点进行创建、查看、修改和删除等操作。以下是一些常用的ZooKeeper操作命令及其说明: 一、启动与连接 启动ZooKeeper服务器: ./zkServer.sh start这个命令用于启动ZooKeeper服务器…...

linux运维一天一个shell命令之 top详解
概念: top 命令是 Unix 和类 Unix 操作系统(如 Linux、macOS)中一个常用的系统监控工具,它提供了一个动态的实时视图,显示系统的整体性能信息,如 CPU 使用率、内存使用情况、进程列表等。 基本用法 root…...

大模型微调:参数高效微调(PEFT)方法总结
PEFT (Parameter-Efficient Fine-Tuning) 参数高效微调是一种针对大模型微调的技术,旨在减少微调过程中需要调整的参数量,同时保持或提高模型的性能。 以LORA、Adapter Tuning 和 Prompt Tuning 为主的PEFT方法总结如下 LORA 论文题目:LORA:…...

Spark+实例解读
第一部分 Spark入门 学习教程:Spark 教程 | Spark 教程 Spark 集成了许多大数据工具,例如 Spark 可以处理任何 Hadoop 数据源,也能在 Hadoop 集群上执行。大数据业内有个共识认为,Spark 只是Hadoop MapReduce 的扩展(…...

WPF多语言国际化,中英文切换
通过切换资源文件的形式实现中英文一键切换 在项目中新建Language文件夹,添加资源字典(xaml文件),中文英文各一个。 在资源字典中写上想中英文切换的字符串,需要注意,必须指定key值,并且中英文…...

Halcon深度学习分类模型
1.Halcon20之后深度学习支持CPU训练模型,没有money买显卡的小伙伴有福了。但是缺点也很明显,就是训练速度超级慢,推理效果也没有GPU好,不过学习用足够。 2.分类模型是Halcon深度学习最简单的模型,可以用在物品分类&…...

洗地机哪种牌子好?洗地机排行榜前十名公布
洗地机市场上品牌琳琅满目,每个品牌都有其独特的魅力和优势。消费者在选择时,往往会根据自己的实际需求、预算以及对产品性能的期望来做出决策。因此,无论是哪个品牌的洗地机,只要能够满足用户的清洁需求,提供便捷的操…...

C++中的虚函数与多态机制如何工作?
在C中,虚函数和多态机制是实现面向对象编程的重要概念。 虚函数是在基类中声明的函数,可以在派生类中进行重写。当基类的指针或引用指向派生类的对象时,通过调用虚函数可以实现动态绑定,即在运行时确定要调用的函数。 多态是指通…...

《LeetCode热题100》---<哈希三道>
本篇博客讲解 LeetCode热题100道中的哈希篇中的三道题。分别是 1.第一道:两数之和(简单) 2.第二道:字母异位词分组(中等) 3.第三道:最长连续序列(中等) 第一道࿱…...

秒懂C++之string类(下)
目录 一.接口说明 1.1 erase 1.2 replace(最好别用) 1.3 find 1.4 substr 1.5 rfind 1.6 find_first_of 1.7 find_last_of 二.string类的模拟实现 2.1 构造 2.2 无参构造 2.3 析构 2.4.【】运算符 2.5 迭代器 2.6 打印 2.7 reserve扩容 …...